2023-10-05 Meeting 14

 

Summary

ZPD: https://docs.google.com/document/d/1hd_9KJJKiWzq2F88XIga8H-9onLDPDfqqBhdcYDpY0E/edit

 

 

TODO - ZPD

  1. ZPD - nodod info Ričardam

    1. Priekš classification - izmantot:

      1. Dataset: Wine Quality Dataset - 10 classes (https://machinelearningmastery.com/standard-machine-learning-datasets/)

      2. Metric - F1 score https://www.perplexity.ai/search/sklearn-example-how-1NBew7wRRJSV9uwre69Row?s=c

    2. Priekš regression task izmantot:

      1. Dataset: Abalone Dataset - Age (https://machinelearningmastery.com/standard-machine-learning-datasets/)

      2. Metric - R2 score

  2. ZPD - piemērs kā izmantot dažādus SkLearn modeļus (sklearn ir iebūvēti vēl daudzi modeļi SVM GMM utt)

    Grid search lib piemērs arī iekļauts, bet tur nebūs pieejamas visas pieejamās hyper param search strategies https://www.perplexity.ai/search/tabular-classification-dataset-s7nHUXGtR0Wu97pxWtiVLA?s=c Vēl ieteikums izmantot Raytune - tur ir iebūvēti daudzi labi hyper param search algos https://www.perplexity.ai/search/example-of-using-d1LE4xtjR9uwHthUq0zzlg?s=c

  3. ZPD - Atsūtīt private github pieeju un sākt implementēt pirmo paraugu

    1. Dataset processing

    2. Classification / Regression models (būs dažādi katram task)

    3. Hyper param search strategies

    4. Rezultātus saglabāt kā CSV - mērķis samazināt eksperimentu skaitu līdz atrodam labāko metric value, definējam max experiment skaitu, lai nav mūžīgi jāmeklē hyper-param kombinacija

  1. ZPD - ierakstiet katrā nodāļā 1-3 paragraphs with references form original source in English, pēc tam mēs pārtulkosim un uztaisīsim plūstošu tekstu


TODO - Word cloud

  1. Aizvietot Therads ar Multiprocessing.Process un noņemt global variables (nemaz nestrādās ar Process) https://www.perplexity.ai/search/example-python-how-C54Az5adSjm0y1awdjd73A?s=c

    Izlasi par to kāpēc Threads ir pakļauti Python GIL un kāpēc tos neizmantot https://www.datacamp.com/tutorial/python-global-interpreter-lock

  2. Izveidot, ka WAV glabājas 3 folders processed, waiting, unprocessed un formātā {unix_timestamp}_{uuid}.wav, lai nebūtu jāizmanto globālie mainīgie un varētu locally vienkārši for loopā pārvietot failus un nosūtīt uz API continously procesējot

  1. Model klases uztaisīt kā dataclass, un dataclass_json (ar šo var pa taisno no JSON ielādēt)

    https://www.perplexity.ai/search/example-python-dataclassjson-MtVIOFLWTEGQgKm5.mR6QQ?s=c Piemērs OOP sarežģītākām JSON model struktūrām: http://share.yellowrobot.xyz/quick/2023-10-6-84A3839C-9427-40A0-B803-30CFE342CB22.zip

  2. Rezultātus ierakstīt SQLite ar sqlalchemy.orm, bet sagatavo jau tabulas pirms tam pats, nav nepieciešams, ka kods pirmajā reizē uztaisa tabulas, tikai datu piekļuvei un rakstīšanai. Pievieno DB git, testējot netaisīsim tik lielu, lai nevarētu. Uztaisi statistikas tabulu, kur atkārtoti vārdi uzskaitās