2024-Q4-AI-LV-Business 3. Klasterizācija un Lēmumu koki

3.1. Video / Materiāli (🔴 18 dec. 18:00 )

Join Zoom Meeting

https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1

Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.canva.com/design/DAGZFi-xVzg/zTF4hmY4uva6DMILi2r1Bg/view?utm_content=DAGZFi-xVzg&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h86edaddcef

Materiāli: https://airbyte.com/data-engineering-resources/cluster-analysis https://neptune.ai/blog/k-means-clustering https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html https://sefiks.com/2017/11/20/a-step-by-step-id3-decision-tree-example/ https://athena.ecs.csus.edu/~mei/177/ID3_Algorithm.pdf

Nepieciešamie rīki darbam:

Altair RapidMiner AI studio, https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer
BigML (web based) - un izmantojam šo arī, reģistrējieties ar https://mailinator.com/ (neīstu epastu platforma)
Knime (opcionāli)
Weka (opcionāli)

3.2. Implementēt klasterizāciju un lēmumu kokus

Implementēt piemērus pēc instrukcijām video, izmantojot AI Studio, lai ve1iktu klasterizāciju uz PCA 2D īpašībām ar Iris datu kopu, neņemt vērā “spieces”.
Atkārtot eksperimentu ar BigML, bez PCA soļa ar visām 4 input vērtībām.
Datu kopa: https://share.yellowrobot.xyz/quick/2024-12-12-B757DEED-4B42-426D-8AC3-E85914E1CE7A.zip
Implementēt piemērus ar laika apstākļu datu kopu, lai uzbūvētu Lēmumu pieņemšanas kokus AI Studio un BigML
Datu Kopa:
https://share.yellowrobot.xyz/quick/2024-12-12-CCAAB3FC-04B5-4570-B716-B6772DAB57D5.zip

3.3. Implementēt dimensiju samazināšanas un klasterizācijas modeli

Īstenot klasterizācijas modeli dzīvnieku datu kopai, krāsot klasterus pēc "sugas". Rezultātus attēlot, izmantojot PCA, t-SNE vai UMAP 2D. Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet klasteru rezultātu ekrānuzņēmumus.

Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-12-2-55C86882-AC8D-4337-9E72-E2DD88F279A1.zip

3.4. Implementēt lēmumu pieņemšanas koka modeli

Īstenot lēmumu pieņemšanas koka modeli pārdošanas datiem, lai prognozētu "Customer Type". Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet lēmumu koka rezultātu ekrānuzņēmumus.

Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-11-25-0AD938A3-C389-40BB-9FAF-80BF4E7F2D0D.zip

Rīki

Nepieciešams parādīt kā var pieinstalēt šo extension.

Iedota piekļuve tāfelei edit tiesībām

https://www.canva.com/design/DAGZFi-xVzg/vEoZyLPm9gcVs3RNvcrUxg/edit

Saturs

Video no lekcijas piemēra:

🟠Nerādam PCA, jo to jau izstāstīja un parādīja Gustavs pagājušajā lekcijā

Video: https://youtube.com/live/lF1Nk-pBYNQ?feature=share

Whiteboard: https://whiteboard.fi/6784a8c1-3d00-41f6-9d49-2193b3e05846

Apskatamies iepriekšējās reizes mājasdarbus pāris un nokomentējam
Izskaidrot klasterizācijas jēgu
1. Anomāliju atpazīšana (Apple FaceID, VoiceID, Fraud detection). Izstāstīt par embeddings (iegultnes, jēdzienvektori) - viņiem jāzina ko nozīmē vektoru datu bāzes un kāpēc tās svarīgas mūsdienas
2. Klientu segmentēšana (iepārdot, pazaudēs)
3. Produktu segmentēšana (nekustamais īpašums, automašīnas, preces)
4. Produktu rekomendāciju grupas
5. Marketinga materiālu rezultātu grupas
6. Pārdošanas rādītāju grupas
7. Krāpnieku segmentācija
8. Darbinieku grupas
Izstāstīt soli pa solim kā strādā K-means ar bildēm (zemāk)
Implementēt kopā PCA + K-means iekš AI Studio, izmantojot Iris datu kopu
Implementēt kopā K-means iekš BigML
Izstāstīt kur noder lēmumu pieņemšanas koki
1. Klasifikācija - Churn prediction
2. Rekomendācijas - Customer type prediction
Parādīt un izstāstīt kādas vēl eksistē citas kategorizācijas metodes, kādas katrai īpašības (katrai ir savi plusi un mīnusi)
1. X-means, G-means, ja ir normāla sadalījuma datu kopa, tad nevajag zināt K
2. Spectral clustering, izmanto lokālos attālumus starp punktiem
3. OPTICS, DBSCAN, var noteikt K un troksni, bet balstās uz blīvuma parametriem
Izstāsīt soli pa solim kā strādā ID3 lēmumu pieņemšanas koka algoritms, izmantojot laika apstākļu datu kopu (aprēķinu veikšanai iesaku lieot ChatGPT Pro un CSV)
Implementēt kopā Lēmumu pieņemšanas koku iekš AI Studio
Implementēt kopā Lēmumu pieņemšanas koku iekš BigML
Izstāstīt par Boosting un Purning (augstā līmenī) un to, ka pašlaik SOTA modelis ir XGBoost. Var parādīt kā var ieslēgt iekš AI Studio.

https://www.datacamp.com/blog/clustering-in-machine-learning-5-essential-clustering-algorithms

Apple FaceID, VoiceID, etc.

Iris dataset

K-Means algorithm

https://neptune.ai/blog/k-means-clustering

Piemērs PCA + KMeans iekš AI studio

Piemērs BigML klasterizācijai

Other methods

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

Piemērs kā aprēķināt ID3

Aprēķināt, izmantojot Excel Filter funkciju pa kolonām, var arī ar GPT4o Pro prasīt darīt jaunās sesijās step by step.

-p_g*log_2(p) = 0 => kārtība

-p_g*log_2(p) = Inf => haoss

ID3 iekš AI studio ar test dataset un Accuracy aprēķinu

Piemērs BigML kokiem

Bagging

Boosting

Boosting materials

https://www.kdnuggets.com/2022/07/boosting-machine-learning-algorithms-overview.html

https://towardsdatascience.com/boosting-algorithms-explained-d38f56ef3f30

https://www.techtarget.com/searchenterpriseai/feature/What-is-boosting-in-machine-learning

The algorithm then increases the weights of the misclassified samples and decreases the weights of the correctly classified ones . This way, the algorithm focuses more on the "hard" examples that the first model got wrong.

Importance sampling!! The subsequent weak learners are trained on this modified distribution, which emphasizes the previously misclassified examples

XBoost

Ensamble method

step by step

https://www.csias.in/explain-the-step-by-step-implementation-of-xgboost-algorithm/

Residiuals

https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost-HowItWorks.html