2025-04-16 Meeting 65

 

 

Done

  1. Majority vote tabulā parādīt ka nestrās

  2. Pamēģināt papildus structured COT elementus kā think_step_by_step, extract_key_variable pirms atbildes choice!

    1. Palīdz uzlabot

 

TODO

Gatavot rezultātu tabulu, kuru prezentēt arī prezentācijā (kā stabiņus)

Tabula (Katrai datu kopai):

  1. Accuracy ar prompt kas ir mutēts pret visu datu kopu Ground truth - statiski pret visu kopu: 86.22% -> Not real-life, theoretically best

  2. Accuracy ar prompt kas ir mutēts katram sample pret Ground truth - dinamiskais: 94.43%

    1. Visi paveidi 98.82% -> Not real-life

  3. Accuracy ar prompt kas ir mutēts katram sample (dynamic) - pēc vairākuma balsojuma: 77.56% (major) -> Real-life, bet vanilla

  4. Accuracy ar prompt kas ir mutēts katram sample (dynamic) - CoT+atbilde -> ranking

    1. Notestēt dažādus ranking modeļus

  5. Accuracy ar prompt kas ir mutēts katram sample (dynamic) - CoT+atbilde -> citu valodas modeli (score dodot pa vienai, rank dod visas), Gemini kā vērtētājs

 

 

Tēmas aktualitāte - zinātnisko rakstu, datu kopu, modeļu pieejamības statistika

CleanShot 2025-04-16 at 16.29.06@2x

 

Literatūra

 

Obligāti prezentācijā ielikt:

  1. Mutācijas shēmas

  2. Paris paraugu Jautājums (+ mutāciju paraugus) -> CoT, Atbilde -> GT

  3. Rezultātu salīdzinājumu tabulu (Eksperimentu skaits 346 pieraktīt)