2024-Q4-AI-LV-Business 3. Klasterizācija un Lēmumu koki

 

3.1. Video / Materiāli (🔴 18 dec. 18:00 )

Join Zoom Meeting

https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1

Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.canva.com/design/DAGZFi-xVzg/zTF4hmY4uva6DMILi2r1Bg/view?utm_content=DAGZFi-xVzg&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h86edaddcef

Materiāli: https://airbyte.com/data-engineering-resources/cluster-analysis https://neptune.ai/blog/k-means-clustering https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html https://sefiks.com/2017/11/20/a-step-by-step-id3-decision-tree-example/ https://athena.ecs.csus.edu/~mei/177/ID3_Algorithm.pdf

 

Nepieciešamie rīki darbam:

  1. Altair RapidMiner AI studio, https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer

  2. BigML (web based) - un izmantojam šo arī, reģistrējieties ar https://mailinator.com/ (neīstu epastu platforma)

  3. Knime (opcionāli)

  4. Weka (opcionāli)

 

3.2. Implementēt klasterizāciju un lēmumu kokus

  1. Implementēt piemērus pēc instrukcijām video, izmantojot AI Studio, lai ve1iktu klasterizāciju uz PCA 2D īpašībām ar Iris datu kopu, neņemt vērā “spieces”.

  2. Atkārtot eksperimentu ar BigML, bez PCA soļa ar visām 4 input vērtībām.

  3. Datu kopa: https://share.yellowrobot.xyz/quick/2024-12-12-B757DEED-4B42-426D-8AC3-E85914E1CE7A.zip

  4. Implementēt piemērus ar laika apstākļu datu kopu, lai uzbūvētu Lēmumu pieņemšanas kokus AI Studio un BigML

    Datu Kopa:

    https://share.yellowrobot.xyz/quick/2024-12-12-CCAAB3FC-04B5-4570-B716-B6772DAB57D5.zip

3.3. Implementēt dimensiju samazināšanas un klasterizācijas modeli

Īstenot klasterizācijas modeli dzīvnieku datu kopai, krāsot klasterus pēc "sugas". Rezultātus attēlot, izmantojot PCA, t-SNE vai UMAP 2D. Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet klasteru rezultātu ekrānuzņēmumus.

Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-12-2-55C86882-AC8D-4337-9E72-E2DD88F279A1.zip

 

3.4. Implementēt lēmumu pieņemšanas koka modeli

Īstenot lēmumu pieņemšanas koka modeli pārdošanas datiem, lai prognozētu "Customer Type". Izmantot Altair RapidMiner AI Studio, Knime, Weka vai BigML (tiešsaistē). Pārliecinieties, ka funkcijas tiek iestatītas ar pareiziem datu tipiem. Iesniedziet lēmumu koka rezultātu ekrānuzņēmumus.

Izmantojamā datu kopa: https://share.yellowrobot.xyz/quick/2024-11-25-0AD938A3-C389-40BB-9FAF-80BF4E7F2D0D.zip


Rīki

Nepieciešams parādīt kā var pieinstalēt šo extension.

image-20241125141407716

 

Iedota piekļuve tāfelei edit tiesībām

image-20241212154819982

https://www.canva.com/design/DAGZFi-xVzg/vEoZyLPm9gcVs3RNvcrUxg/edit


Saturs

 

Video no lekcijas piemēra:

🟠Nerādam PCA, jo to jau izstāstīja un parādīja Gustavs pagājušajā lekcijā

Video: https://youtube.com/live/lF1Nk-pBYNQ?feature=share

Whiteboard: https://whiteboard.fi/6784a8c1-3d00-41f6-9d49-2193b3e05846

 

  1. Apskatamies iepriekšējās reizes mājasdarbus pāris un nokomentējam

  2. Izskaidrot klasterizācijas jēgu

    1. Anomāliju atpazīšana (Apple FaceID, VoiceID, Fraud detection). Izstāstīt par embeddings (iegultnes, jēdzienvektori) - viņiem jāzina ko nozīmē vektoru datu bāzes un kāpēc tās svarīgas mūsdienas

    2. Klientu segmentēšana (iepārdot, pazaudēs)

    3. Produktu segmentēšana (nekustamais īpašums, automašīnas, preces)

    4. Produktu rekomendāciju grupas

    5. Marketinga materiālu rezultātu grupas

    6. Pārdošanas rādītāju grupas

    7. Krāpnieku segmentācija

    8. Darbinieku grupas

  3. Izstāstīt soli pa solim kā strādā K-means ar bildēm (zemāk)

  4. Implementēt kopā PCA + K-means iekš AI Studio, izmantojot Iris datu kopu

  5. Implementēt kopā K-means iekš BigML

  6. Izstāstīt kur noder lēmumu pieņemšanas koki

    1. Klasifikācija - Churn prediction

    2. Rekomendācijas - Customer type prediction

  7. Parādīt un izstāstīt kādas vēl eksistē citas kategorizācijas metodes, kādas katrai īpašības (katrai ir savi plusi un mīnusi)

    1. X-means, G-means, ja ir normāla sadalījuma datu kopa, tad nevajag zināt K

    2. Spectral clustering, izmanto lokālos attālumus starp punktiem

    3. OPTICS, DBSCAN, var noteikt K un troksni, bet balstās uz blīvuma parametriem

  8. Izstāsīt soli pa solim kā strādā ID3 lēmumu pieņemšanas koka algoritms, izmantojot laika apstākļu datu kopu (aprēķinu veikšanai iesaku lieot ChatGPT Pro un CSV)

  9. Implementēt kopā Lēmumu pieņemšanas koku iekš AI Studio

  10. Implementēt kopā Lēmumu pieņemšanas koku iekš BigML

  11. Izstāstīt par Boosting un Purning (augstā līmenī) un to, ka pašlaik SOTA modelis ir XGBoost. Var parādīt kā var ieslēgt iekš AI Studio.

 

https://www.datacamp.com/blog/clustering-in-machine-learning-5-essential-clustering-algorithms

image-20230915120013087

 

 


 

Apple FaceID, VoiceID, etc.

 

image-20230921181240454

image-20230921181024761

 

 

image-20230921172607333

 

image-20230921172542187

 

image-20230921172652461

 

 

image-20230921172633087


Iris dataset

 

image-20241125180728578

image-20241125180755705

 

 

image-20240502162813632

 

K-Means algorithm

https://neptune.ai/blog/k-means-clustering

image-20230921173543087

 

image-20230921173550854

image-20230921173555737

image-20230921173603630

image-20230921173609473

 

06b92f45-b9a4-495d-8831-b9017d47be2e

Piemērs PCA + KMeans iekš AI studio

image-20241212161451016

 

Piemērs BigML klasterizācijai

image-20241212162330799

Other methods

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

image-20230921173206053

 

Piemērs kā aprēķināt ID3

Aprēķināt, izmantojot Excel Filter funkciju pa kolonām, var arī ar GPT4o Pro prasīt darīt jaunās sesijās step by step.

 

-p_g*log_2(p) = 0 => kārtība

-p_g*log_2(p) = Inf => haoss

 

Untitled (124)

5ca6c1f3-76cc-446f-a4de-97ece4497bc9

image-20241125174207270

 

image-20241125174219811

 

image-20241125174236041

 

 

image-20241125174514748

 

 

 

 

Untitled (126)

Untitled (125)

 

 

image-20240509152557237

 

ID3 iekš AI studio ar test dataset un Accuracy aprēķinu

75b18dac-5e13-417c-99a5-53ae922dd686

 

Piemērs BigML kokiem

image-20241212162549021

 

image-20241212161726825

 

Bagging

image-20240305202331955

 

 

Boosting

image-20240305202352031

 

Boosting materials

 

https://www.kdnuggets.com/2022/07/boosting-machine-learning-algorithms-overview.html

https://towardsdatascience.com/boosting-algorithms-explained-d38f56ef3f30

 

https://www.techtarget.com/searchenterpriseai/feature/What-is-boosting-in-machine-learning

 

image-20240305204504182

The algorithm then increases the weights of the misclassified samples and decreases the weights of the correctly classified ones . This way, the algorithm focuses more on the "hard" examples that the first model got wrong.

Importance sampling!! The subsequent weak learners are trained on this modified distribution, which emphasizes the previously misclassified examples

 

image-20240305204327514

 

XBoost

Ensamble method

 

image-20240305200933844

 

step by step

https://www.csias.in/explain-the-step-by-step-implementation-of-xgboost-algorithm/

Residiuals

image-20240305200847949

https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost-HowItWorks.html