2023-10-05 Meeting 14

TODO - ZPD

ZPD - nodod info Ričardam
1. Priekš classification - izmantot:
  1. Dataset: Wine Quality Dataset - 10 classes (https://machinelearningmastery.com/standard-machine-learning-datasets/)
  2. Metric - F1 score https://www.perplexity.ai/search/sklearn-example-how-1NBew7wRRJSV9uwre69Row?s=c
2. Priekš regression task izmantot:
  1. Dataset: Abalone Dataset - Age (https://machinelearningmastery.com/standard-machine-learning-datasets/)
  2. Metric - R2 score
ZPD - piemērs kā izmantot dažādus SkLearn modeļus (sklearn ir iebūvēti vēl daudzi modeļi SVM GMM utt)
Grid search lib piemērs arī iekļauts, bet tur nebūs pieejamas visas pieejamās hyper param search strategies https://www.perplexity.ai/search/tabular-classification-dataset-s7nHUXGtR0Wu97pxWtiVLA?s=c Vēl ieteikums izmantot Raytune - tur ir iebūvēti daudzi labi hyper param search algos https://www.perplexity.ai/search/example-of-using-d1LE4xtjR9uwHthUq0zzlg?s=c
ZPD - Atsūtīt private github pieeju un sākt implementēt pirmo paraugu
1. Dataset processing
2. Classification / Regression models (būs dažādi katram task)
3. Hyper param search strategies
4. Rezultātus saglabāt kā CSV - mērķis samazināt eksperimentu skaitu līdz atrodam labāko metric value, definējam max experiment skaitu, lai nav mūžīgi jāmeklē hyper-param kombinacija

ZPD - ierakstiet katrā nodāļā 1-3 paragraphs with references form original source in English, pēc tam mēs pārtulkosim un uztaisīsim plūstošu tekstu

Aizvietot Therads ar Multiprocessing.Process un noņemt global variables (nemaz nestrādās ar Process) https://www.perplexity.ai/search/example-python-how-C54Az5adSjm0y1awdjd73A?s=c
Izlasi par to kāpēc Threads ir pakļauti Python GIL un kāpēc tos neizmantot https://www.datacamp.com/tutorial/python-global-interpreter-lock
Izveidot, ka WAV glabājas 3 folders processed, waiting, unprocessed un formātā {unix_timestamp}_{uuid}.wav, lai nebūtu jāizmanto globālie mainīgie un varētu locally vienkārši for loopā pārvietot failus un nosūtīt uz API continously procesējot

Model klases uztaisīt kā dataclass, un dataclass_json (ar šo var pa taisno no JSON ielādēt)
https://www.perplexity.ai/search/example-python-dataclassjson-MtVIOFLWTEGQgKm5.mR6QQ?s=c Piemērs OOP sarežģītākām JSON model struktūrām: http://share.yellowrobot.xyz/quick/2023-10-6-84A3839C-9427-40A0-B803-30CFE342CB22.zip
Rezultātus ierakstīt SQLite ar sqlalchemy.orm, bet sagatavo jau tabulas pirms tam pats, nav nepieciešams, ka kods pirmajā reizē uztaisa tabulas, tikai datu piekļuvei un rakstīšanai. Pievieno DB git, testējot netaisīsim tik lielu, lai nevarētu. Uztaisi statistikas tabulu, kur atkārtoti vārdi uzskaitās