Join Zoom Meeting
https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1
Meeting ID: 815 3294 1877 Passcode: 388048
Materiāli: https://airbyte.com/data-engineering-resources/cluster-analysis https://neptune.ai/blog/k-means-clustering https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html https://sefiks.com/2017/11/20/a-step-by-step-id3-decision-tree-example/ https://athena.ecs.csus.edu/~mei/177/ID3_Algorithm.pdf
Nepieciešamie rīki darbam:
Altair RapidMiner AI studio, https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer
BigML (web based) - un izmantojam šo arī, reģistrējieties ar https://mailinator.com/ (neīstu epastu platforma)
Knime (opcionāli)
Weka (opcionāli)
Implementēt piemērus pēc instrukcijām video, izmantojot AI Studio, lai ve1iktu klasterizāciju uz PCA 2D īpašībām ar Iris datu kopu, neņemt vērā “spieces”.
Atkārtot eksperimentu ar BigML, bez PCA soļa ar visām 4 input vērtībām.
Datu kopa: https://share.yellowrobot.xyz/quick/2024-12-12-B757DEED-4B42-426D-8AC3-E85914E1CE7A.zip
Implementēt piemērus ar laika apstākļu datu kopu, lai uzbūvētu Lēmumu pieņemšanas kokus AI Studio un BigML
Datu Kopa:
https://share.yellowrobot.xyz/quick/2024-12-12-CCAAB3FC-04B5-4570-B716-B6772DAB57D5.zip
Īstenot klasterizācijas modeli dzīvnieku datu kopai, krāsot klasterus pēc "sugas". Rezultātus attēlot, izmantojot PCA, t-SNE vai UMAP 2D. Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet klasteru rezultātu ekrānuzņēmumus.
Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-12-2-55C86882-AC8D-4337-9E72-E2DD88F279A1.zip
Īstenot lēmumu pieņemšanas koka modeli pārdošanas datiem, lai prognozētu "Customer Type". Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet lēmumu koka rezultātu ekrānuzņēmumus.
Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-11-25-0AD938A3-C389-40BB-9FAF-80BF4E7F2D0D.zip
Nepieciešams parādīt kā var pieinstalēt šo extension.
Iedota piekļuve tāfelei edit tiesībām
https://www.canva.com/design/DAGZFi-xVzg/vEoZyLPm9gcVs3RNvcrUxg/edit
Video no lekcijas piemēra:
🟠Nerādam PCA, jo to jau izstāstīja un parādīja Gustavs pagājušajā lekcijā
Video: https://youtube.com/live/lF1Nk-pBYNQ?feature=share
Whiteboard: https://whiteboard.fi/6784a8c1-3d00-41f6-9d49-2193b3e05846
Apskatamies iepriekšējās reizes mājasdarbus pāris un nokomentējam
Izskaidrot klasterizācijas jēgu
Anomāliju atpazīšana (Apple FaceID, VoiceID, Fraud detection). Izstāstīt par embeddings (iegultnes, jēdzienvektori) - viņiem jāzina ko nozīmē vektoru datu bāzes un kāpēc tās svarīgas mūsdienas
Klientu segmentēšana (iepārdot, pazaudēs)
Produktu segmentēšana (nekustamais īpašums, automašīnas, preces)
Produktu rekomendāciju grupas
Marketinga materiālu rezultātu grupas
Pārdošanas rādītāju grupas
Krāpnieku segmentācija
Darbinieku grupas
Izstāstīt soli pa solim kā strādā K-means ar bildēm (zemāk)
Implementēt kopā PCA + K-means iekš AI Studio, izmantojot Iris datu kopu
Implementēt kopā K-means iekš BigML
Izstāstīt kur noder lēmumu pieņemšanas koki
Klasifikācija - Churn prediction
Rekomendācijas - Customer type prediction
Parādīt un izstāstīt kādas vēl eksistē citas kategorizācijas metodes, kādas katrai īpašības (katrai ir savi plusi un mīnusi)
X-means, G-means, ja ir normāla sadalījuma datu kopa, tad nevajag zināt K
Spectral clustering, izmanto lokālos attālumus starp punktiem
OPTICS, DBSCAN, var noteikt K un troksni, bet balstās uz blīvuma parametriem
Izstāsīt soli pa solim kā strādā ID3 lēmumu pieņemšanas koka algoritms, izmantojot laika apstākļu datu kopu (aprēķinu veikšanai iesaku lieot ChatGPT Pro un CSV)
Implementēt kopā Lēmumu pieņemšanas koku iekš AI Studio
Implementēt kopā Lēmumu pieņemšanas koku iekš BigML
Izstāstīt par Boosting un Purning (augstā līmenī) un to, ka pašlaik SOTA modelis ir XGBoost. Var parādīt kā var ieslēgt iekš AI Studio.
https://www.datacamp.com/blog/clustering-in-machine-learning-5-essential-clustering-algorithms
https://neptune.ai/blog/k-means-clustering
https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html
Aprēķināt, izmantojot Excel Filter funkciju pa kolonām, var arī ar GPT4o Pro prasīt darīt jaunās sesijās step by step.
-p_g*log_2(p) = 0 => kārtība
-p_g*log_2(p) = Inf => haoss
Bagging
Boosting
https://www.kdnuggets.com/2022/07/boosting-machine-learning-algorithms-overview.html
https://towardsdatascience.com/boosting-algorithms-explained-d38f56ef3f30
https://www.techtarget.com/searchenterpriseai/feature/What-is-boosting-in-machine-learning
The algorithm then increases the weights of the misclassified samples and decreases the weights of the correctly classified ones . This way, the algorithm focuses more on the "hard" examples that the first model got wrong.
Importance sampling!! The subsequent weak learners are trained on this modified distribution, which emphasizes the previously misclassified examples
Ensamble method
step by step
https://www.csias.in/explain-the-step-by-step-implementation-of-xgboost-algorithm/
Residiuals
https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost-HowItWorks.html