https://evalds.notion.site/Meeting-02-12-02f9f6ee03d14844b971b07a44edfc0d?pvs=4
Vannila Loģikas uzdevumi:
Input Jautājums + Dazreiz ir Fakti
Ģenerēt atbildi uzreiz (Testēt N sampling)
Rezultāts un izmēra precizitāte
Loģikas uzdevumi:
Input Jautājums + Dazreiz ir Fakti
Dekompozēt jautājumu
Ģenerēt atbildes katrai daļai
Mutēt / N-sampling katru daļu, lai iegūtu augstāku score
Apvienot daļas un veikt gala atbildi
Izmantot šīs datu kopas:
Aritmetic: MultiArith (https://huggingface.co/datasets/ChilleD/MultiArith)
Commonsense:
StrategyQA (SQA): https://huggingface.co/datasets/voidful/StrategyQA/raw/main/strategyqa_train.json
or https://huggingface.co/datasets/ChilleD/StrategyQA
Symbolic: LastLetter: https://huggingface.co/datasets/ChilleD/LastLetterConcat
Faktu atbilžu uzdevums:
Input Jautājums + Fakti
Dekompozēt jautājumu
Ģenerēt atbildes katrai daļai
Mutēt katru daļu, lai iegūtu augstāku score
un apvienojot iegūt labāku atbildi
Simple faktu-atbilžu uzdevums:
Input Jautājums + Fakti
Ģenerēt atbildi pa tiešo
Mutēt atbildes, lai iegūtu augstāku score
Rezultāts uzreiz
Ir publikācijas, kuras parāda, ka pirms jautājumu atbildes nepieciešams decomposition of question https://arxiv.org/pdf/2205.10625
Ir publikācijas, kas liecina, ka izmantojot vairākus modeļus katrā stadija labāki rezultāti
https://arxiv.org/pdf/2309.03409
Reseach paper, kur ģenerētā rezultāta novērtēšanai neizmanto to pašu LLM ar kuru ģenerē jautājumu? Der, ka izmanto citu LLM, bet vēlams būtu, ja būtu ari kāds kurš neizmanto.
Kurā no SLR papers muation neizmanto to pašu valodas modeli ar kuru ģenerē saturu? Praktiski var eksistēt risinājums, kurš sastāv no 3 valodas modeļiem: 1. ģenerēšana, 2. mutēšana, 3. validēšana
Kādu scoring / fitness viņi izmanto, lai novērtētu mutētās atbildes? Uzskaitīt arī no citiem pētījumiem vismaz 3 scoring prompt struktūras, kuras tu arī pati varētu izmantot.
Vai visiem šiem datasets atbildes ir diskrētas kategorijas vai skaitļi? Ja jā, tad noskaidrot kā promptbreeder beigās savelk kopā ģenerētās apakš daļas atbildēm un izveido vienu konkrētu atbildi. Ja nav zināms kā to dara promptbreeder pameklēt citus github, kas izmanto šīs dataset un decomposition.
https://arxiv.org/pdf/2309.16797
Atrast datu kopas, kur inputs: Jautājums, Fakti -> Outputs ir teksta atbilde nevis diskrēta atbilde
Izpētīt ar kādu metriku novērtēt atbildes, kur nav diskrētas vērtības, bet ir zināma reference atbilde - https://dugarsumit.github.io/files/evaluation_metrics_and_distance_similarity_measures.pdf Kas tas tāds “SARI score (Xu et al., 2016) as the evaluation metric, an n-gram-based scoring system extensively utilized for text editing tasks”
Ar kādu prompt citi Github veic validāciju šīm datu kopām: MultiArith, LastLetter, StrategyQA? Piemērs Classfiy using true or false. Facts: ... Question: ...