2024-01-30 Meeting #7

 

TODO:

  1. Aprakstīt un īstenot metodoloģijas, lai attīrītu datus no outliners https://neuraldatascience.io/5-eda/data_cleaning.html

    1. https://www.datacamp.com/tutorial/tutorial-data-cleaning-tutorial

    2. Univariate method: Look for data points with extreme values on a single variable and remove or transform them. This includes techniques like removing points above or below a threshold, or transforming using log or sqrt.

    3. Multivariate method: Train a predictive model on the data and identify points with a very high error. This catches unusual combinations across multiple variables. The points can then be removed or downweighted.

    4. Minkowski error: Use a robust error metric like Minkowski error when training models. This reduces the influence of potential outliers on the model coefficients.

    5. Capping: Instead of removing extreme values, cap them to some maximum threshold tuned on the data distribution. This retains more information.

    6. Clustering: Use clustering algorithms to identify outliers as points distant from cluster centers. (šeit var ar Spectral clustering/k-means un tad ar PCA verificēt)

    7. Visualization: Manually inspect plots like boxplots, scatter plots, and parallel coordinate plots to identify outliers.

 

  1. Numpy Pandas izmantot, lai aizstātu trūkstošās vērtības ar mediānas vērtibām

  2. Salabot kategoriju inputs, noskaidrot kategoriju outputs - ko nozīmē 3 klase

  3. Mazāk sastopamās kategorijas jāapvieno kā <any> image-20240130233137529

Output retās kategorijas paraugi vispār jānoņem

image-20240130182245332

  1. Test un validation kopās jābūt vienādam klašu skaitam, train kopā jābūt pie loss weights

  2. Svaigs piemērs labam SLR darbam - tavs būs līdzīgs, tikai jādabon vēl dziļākā līmenī: http://share.yellowrobot.xyz/quick/2024-1-30-87D89640-5213-41B3-A5BF-602EEFB38DE1.pdf

  3. Noskaidro kādas vēl citas metrikas bez ECE lieto un kā novērtēt vai modeļi tiešām dos nenoteiktus rezultātus, iedodot out-of domain vai noisy input

  4. Sākt eksperimentālo daļu

    1. Plāns salīdzināt

      1. Random initialization same hyper-params

      2. Izvēlēties dažādus modeļus pēc recall, F1, loss

      3. Izvēlēties dažādas arhitektūras ansamblī

      4. Citas metodes, kuras dokumentētas SLR

    2. Noskaidrot vai ir pozitīva ietekme uz F1 salīdzinot ar tāda paša izmēra 1 modeli

     

 

 

 

Notes:

Vēl citi izmanto

MonteCarlo dropout

hameltonain monte carlo ķēdes

image-20240130183851336

 

 

ECE nenoteiktības metrika (izejas dati, pārliecība) sadalīt 10 bins, pārliecība

Expected calibration errot

 

image-20240130183205286

 

 

fuzzy inputs => korelācija ar outputs

 

Tāda paša izmēra modelis vs ansamblis pētījums