ZPD: https://docs.google.com/document/d/1hd_9KJJKiWzq2F88XIga8H-9onLDPDfqqBhdcYDpY0E/edit
ZPD - nodod info Ričardam
Priekš classification - izmantot:
Dataset: Wine Quality Dataset - 10 classes (https://machinelearningmastery.com/standard-machine-learning-datasets/)
Metric - F1 score https://www.perplexity.ai/search/sklearn-example-how-1NBew7wRRJSV9uwre69Row?s=c
Priekš regression task izmantot:
Dataset: Abalone Dataset - Age (https://machinelearningmastery.com/standard-machine-learning-datasets/)
Metric - R2 score
ZPD - piemērs kā izmantot dažādus SkLearn modeļus (sklearn ir iebūvēti vēl daudzi modeļi SVM GMM utt)
Grid search lib piemērs arī iekļauts, bet tur nebūs pieejamas visas pieejamās hyper param search strategies https://www.perplexity.ai/search/tabular-classification-dataset-s7nHUXGtR0Wu97pxWtiVLA?s=c Vēl ieteikums izmantot Raytune - tur ir iebūvēti daudzi labi hyper param search algos https://www.perplexity.ai/search/example-of-using-d1LE4xtjR9uwHthUq0zzlg?s=c
ZPD - Atsūtīt private github pieeju un sākt implementēt pirmo paraugu
Dataset processing
Classification / Regression models (būs dažādi katram task)
Hyper param search strategies
Rezultātus saglabāt kā CSV - mērķis samazināt eksperimentu skaitu līdz atrodam labāko metric value, definējam max experiment skaitu, lai nav mūžīgi jāmeklē hyper-param kombinacija
ZPD - ierakstiet katrā nodāļā 1-3 paragraphs with references form original source in English, pēc tam mēs pārtulkosim un uztaisīsim plūstošu tekstu
Aizvietot Therads ar Multiprocessing.Process un noņemt global variables (nemaz nestrādās ar Process) https://www.perplexity.ai/search/example-python-how-C54Az5adSjm0y1awdjd73A?s=c
Izlasi par to kāpēc Threads ir pakļauti Python GIL un kāpēc tos neizmantot https://www.datacamp.com/tutorial/python-global-interpreter-lock
Izveidot, ka WAV glabājas 3 folders processed
, waiting
, unprocessed
un formātā {unix_timestamp}_{uuid}.wav
, lai nebūtu jāizmanto globālie mainīgie un varētu locally vienkārši for loopā pārvietot failus un nosūtīt uz API continously procesējot
Model klases uztaisīt kā dataclass, un dataclass_json (ar šo var pa taisno no JSON ielādēt)
https://www.perplexity.ai/search/example-python-dataclassjson-MtVIOFLWTEGQgKm5.mR6QQ?s=c Piemērs OOP sarežģītākām JSON model struktūrām: http://share.yellowrobot.xyz/quick/2023-10-6-84A3839C-9427-40A0-B803-30CFE342CB22.zip
Rezultātus ierakstīt SQLite ar sqlalchemy.orm
, bet sagatavo jau tabulas pirms tam pats, nav nepieciešams, ka kods pirmajā reizē uztaisa tabulas, tikai datu piekļuvei un rakstīšanai. Pievieno DB git, testējot netaisīsim tik lielu, lai nevarētu. Uztaisi statistikas tabulu, kur atkārtoti vārdi uzskaitās