2025-05-25 Meeting 68

 

Nedrīkst ne anotacijā ne tekstā izcelt, ka ar uzvednēm mēs uzlabojam modeļa simbolisko spriestspēju -> mēs uzlabojam spriestspēju ar ārēju ranking vai papildus LLM.

Anotācijā pārtaisīt, lai 50%-50% ranking un mutācijas nevis tikai par mutācijām rakstīts

CleanShot 2025-05-25 at 22.32.40@2x

 

CleanShot 2025-05-25 at 21.32.30@2x

^ Neoficālie rezultāti, labākais rezultāts zintātniskā publicēts

CleanShot 2025-05-25 at 21.43.38@2x

Vai ir kaut kas kopīgs labākajiem promtps?

CleanShot 2025-05-25 at 21.45.12@2x

 

 

Bold

CleanShot 2025-05-25 at 21.47.24@2x

 

CleanShot 2025-05-25 at 21.48.14@2x

 

CleanShot 2025-05-25 at 21.53.11@2x

 

CleanShot 2025-05-25 at 21.59.48@2x

 

 

Statistiskā analīze rezultātiem

CleanShot 2025-05-25 at 22.15.41@2x

 

 

 

Iezīmēt pelēku DYN_ANS_GT un primāri secinājumus balstīt uz pārējām metodēm

Neizmantot vārdus ”DYN_ANS ir labākais modelis” tā vietā “kā sagaidāms augstākais rezultāts”

CleanShot 2025-05-25 at 22.18.48@2x

 

Spriešnas modeļi , bet šajā pētījumā uzsvars uz izmaksu efektīviem modeļiem un uzvedņu inženieriju nevis spriešanas modeļiem, kuri paši iteratīvi izmaina uzvednes.

CleanShot 2025-05-25 at 22.27.23@2x

 

Hipotēze pierādīta daļēji

CleanShot 2025-05-25 at 22.40.17@2x

 


 

Statistical methods

https://github.com/NanioiNirusu/Main_metrics/blob/master/T-test_corelation.py

Parametrc vs Non-parametric tests

Parametric tests

https://www.healthknowledge.org.uk/public-health-textbook/research-methods/1b-statistical-methods/parametric-nonparametric-tests

 

0.0 - 1.0

0.05 < satistiski nenozīmģas atšķirības

 

Wilson Signed Rank test

 

Parametric used when Gaussian distributed Non-parametric used when not Gaussian distributed

 

Paired test if same metric compared. Unpaired test if different scale metric used.

 

 

A quick rule of thumb

  1. ≥ 30 paired samples, differences look roughly bell-shaped → paired t-test.

  2. Fewer samples or heavy tails/outliers → Wilcoxon signed-rank (or a permutation test).

  3. Binary outcomes per image → McNemar’s test.

 

 

 

 

 

One-way Anova

Kruskal-Wallis Test (Non-Parametric Test)

 

 


 

 

Idejas ko uzlabot

 

Dynamic answer mutē līdz sasniedz score

 

Reasoning modeļi -> pat tad, ja ar o3 būs ideāli, tad varam argumentēt, ka mūsu metode ir lietderīga pēc patērēto token skaita

 

Iesaku šadu virzienu:

 

Temperatūras + N

CleanShot 2025-05-25 at 21.50.30@2x

Ranking modeļi CleanShot 2025-05-25 at 21.50.54@2x