TODO:
Aprakstīt un īstenot metodoloģijas, lai attīrītu datus no outliners https://neuraldatascience.io/5-eda/data_cleaning.html
https://www.datacamp.com/tutorial/tutorial-data-cleaning-tutorial
Univariate method: Look for data points with extreme values on a single variable and remove or transform them. This includes techniques like removing points above or below a threshold, or transforming using log or sqrt.
Multivariate method: Train a predictive model on the data and identify points with a very high error. This catches unusual combinations across multiple variables. The points can then be removed or downweighted.
Minkowski error: Use a robust error metric like Minkowski error when training models. This reduces the influence of potential outliers on the model coefficients.
Capping: Instead of removing extreme values, cap them to some maximum threshold tuned on the data distribution. This retains more information.
Clustering: Use clustering algorithms to identify outliers as points distant from cluster centers. (šeit var ar Spectral clustering/k-means un tad ar PCA verificēt)
Visualization: Manually inspect plots like boxplots, scatter plots, and parallel coordinate plots to identify outliers.
Numpy Pandas izmantot, lai aizstātu trūkstošās vērtības ar mediānas vērtibām
Salabot kategoriju inputs, noskaidrot kategoriju outputs - ko nozīmē 3 klase
Mazāk sastopamās kategorijas jāapvieno kā <any>
Output retās kategorijas paraugi vispār jānoņem
Test un validation kopās jābūt vienādam klašu skaitam, train kopā jābūt pie loss weights
Svaigs piemērs labam SLR darbam - tavs būs līdzīgs, tikai jādabon vēl dziļākā līmenī: http://share.yellowrobot.xyz/quick/2024-1-30-87D89640-5213-41B3-A5BF-602EEFB38DE1.pdf
Noskaidro kādas vēl citas metrikas bez ECE lieto un kā novērtēt vai modeļi tiešām dos nenoteiktus rezultātus, iedodot out-of domain vai noisy input
Sākt eksperimentālo daļu
Plāns salīdzināt
Random initialization same hyper-params
Izvēlēties dažādus modeļus pēc recall, F1, loss
Izvēlēties dažādas arhitektūras ansamblī
Citas metodes, kuras dokumentētas SLR
Noskaidrot vai ir pozitīva ietekme uz F1 salīdzinot ar tāda paša izmēra 1 modeli
Notes:
Vēl citi izmanto
MonteCarlo dropout
hameltonain monte carlo ķēdes
ECE nenoteiktības metrika (izejas dati, pārliecība) sadalīt 10 bins, pārliecība
Expected calibration errot
fuzzy inputs => korelācija ar outputs
Tāda paša izmēra modelis vs ansamblis pētījums