2024-12-02 Meeting 56

https://evalds.notion.site/Meeting-02-12-02f9f6ee03d14844b971b07a44edfc0d?pvs=4

Risinājuma shēma

Vannila Loģikas uzdevumi:

Input Jautājums + Dazreiz ir Fakti
Ģenerēt atbildi uzreiz (Testēt N sampling)
Rezultāts un izmēra precizitāte

Loģikas uzdevumi:

Input Jautājums + Dazreiz ir Fakti
Dekompozēt jautājumu
Ģenerēt atbildes katrai daļai
Mutēt / N-sampling katru daļu, lai iegūtu augstāku score
Apvienot daļas un veikt gala atbildi

Izmantot šīs datu kopas:

Aritmetic: MultiArith (https://huggingface.co/datasets/ChilleD/MultiArith)
Commonsense:
StrategyQA (SQA): https://huggingface.co/datasets/voidful/StrategyQA/raw/main/strategyqa_train.json
or https://huggingface.co/datasets/ChilleD/StrategyQA
Symbolic: LastLetter: https://huggingface.co/datasets/ChilleD/LastLetterConcat

Faktu atbilžu uzdevums:

Input Jautājums + Fakti
Dekompozēt jautājumu
Ģenerēt atbildes katrai daļai
Mutēt katru daļu, lai iegūtu augstāku score
un apvienojot iegūt labāku atbildi

Simple faktu-atbilžu uzdevums:

Input Jautājums + Fakti
Ģenerēt atbildi pa tiešo
Mutēt atbildes, lai iegūtu augstāku score
Rezultāts uzreiz

Done

Ir publikācijas, kuras parāda, ka pirms jautājumu atbildes nepieciešams decomposition of question https://arxiv.org/pdf/2205.10625
Ir publikācijas, kas liecina, ka izmantojot vairākus modeļus katrā stadija labāki rezultāti

https://arxiv.org/pdf/2309.03409

TODO

Reseach paper, kur ģenerētā rezultāta novērtēšanai neizmanto to pašu LLM ar kuru ģenerē jautājumu? Der, ka izmanto citu LLM, bet vēlams būtu, ja būtu ari kāds kurš neizmanto.

Kurā no SLR papers muation neizmanto to pašu valodas modeli ar kuru ģenerē saturu? Praktiski var eksistēt risinājums, kurš sastāv no 3 valodas modeļiem: 1. ģenerēšana, 2. mutēšana, 3. validēšana
Kādu scoring / fitness viņi izmanto, lai novērtētu mutētās atbildes? Uzskaitīt arī no citiem pētījumiem vismaz 3 scoring prompt struktūras, kuras tu arī pati varētu izmantot.
https://arxiv.org/pdf/2309.08532v2
Vai visiem šiem datasets atbildes ir diskrētas kategorijas vai skaitļi? Ja jā, tad noskaidrot kā promptbreeder beigās savelk kopā ģenerētās apakš daļas atbildēm un izveido vienu konkrētu atbildi. Ja nav zināms kā to dara promptbreeder pameklēt citus github, kas izmanto šīs dataset un decomposition. https://arxiv.org/pdf/2309.16797

Atrast datu kopas, kur inputs: Jautājums, Fakti -> Outputs ir teksta atbilde nevis diskrēta atbilde
Izpētīt ar kādu metriku novērtēt atbildes, kur nav diskrētas vērtības, bet ir zināma reference atbilde - https://dugarsumit.github.io/files/evaluation_metrics_and_distance_similarity_measures.pdf Kas tas tāds “SARI score (Xu et al., 2016) as the evaluation metric, an n-gram-based scoring system extensively utilized for text editing tasks”
Ar kādu prompt citi Github veic validāciju šīm datu kopām: MultiArith, LastLetter, StrategyQA? Piemērs Classfiy using true or false. Facts: ... Question: ...