2024-12-02 Meeting 56

 

 

https://evalds.notion.site/Meeting-02-12-02f9f6ee03d14844b971b07a44edfc0d?pvs=4

 

Risinājuma shēma

 

Vannila Loģikas uzdevumi:

  1. Input Jautājums + Dazreiz ir Fakti

  2. Ģenerēt atbildi uzreiz (Testēt N sampling)

  3. Rezultāts un izmēra precizitāte

 

Loģikas uzdevumi:

  1. Input Jautājums + Dazreiz ir Fakti

  2. Dekompozēt jautājumu

  3. Ģenerēt atbildes katrai daļai

  4. Mutēt / N-sampling katru daļu, lai iegūtu augstāku score

  5. Apvienot daļas un veikt gala atbildi

 

Izmantot šīs datu kopas:

Aritmetic: MultiArith (https://huggingface.co/datasets/ChilleD/MultiArith)

Commonsense:

StrategyQA (SQA): https://huggingface.co/datasets/voidful/StrategyQA/raw/main/strategyqa_train.json

or https://huggingface.co/datasets/ChilleD/StrategyQA

Symbolic: LastLetter: https://huggingface.co/datasets/ChilleD/LastLetterConcat

 

 

Faktu atbilžu uzdevums:

  1. Input Jautājums + Fakti

  2. Dekompozēt jautājumu

  3. Ģenerēt atbildes katrai daļai

  4. Mutēt katru daļu, lai iegūtu augstāku score

  5. un apvienojot iegūt labāku atbildi

 

Simple faktu-atbilžu uzdevums:

  1. Input Jautājums + Fakti

  2. Ģenerēt atbildi pa tiešo

  3. Mutēt atbildes, lai iegūtu augstāku score

  4. Rezultāts uzreiz

 

Done

 

  1. Ir publikācijas, kuras parāda, ka pirms jautājumu atbildes nepieciešams decomposition of question https://arxiv.org/pdf/2205.10625

  2. Ir publikācijas, kas liecina, ka izmantojot vairākus modeļus katrā stadija labāki rezultāti

https://arxiv.org/pdf/2309.03409

image-20241202151910243

 

TODO

  1. Reseach paper, kur ģenerētā rezultāta novērtēšanai neizmanto to pašu LLM ar kuru ģenerē jautājumu? Der, ka izmanto citu LLM, bet vēlams būtu, ja būtu ari kāds kurš neizmanto.

  1. Kurā no SLR papers muation neizmanto to pašu valodas modeli ar kuru ģenerē saturu? Praktiski var eksistēt risinājums, kurš sastāv no 3 valodas modeļiem: 1. ģenerēšana, 2. mutēšana, 3. validēšana

  2. Kādu scoring / fitness viņi izmanto, lai novērtētu mutētās atbildes? Uzskaitīt arī no citiem pētījumiem vismaz 3 scoring prompt struktūras, kuras tu arī pati varētu izmantot.

    https://arxiv.org/pdf/2309.08532v2image-20241202152543694

  3. Vai visiem šiem datasets atbildes ir diskrētas kategorijas vai skaitļi? Ja jā, tad noskaidrot kā promptbreeder beigās savelk kopā ģenerētās apakš daļas atbildēm un izveido vienu konkrētu atbildi. Ja nav zināms kā to dara promptbreeder pameklēt citus github, kas izmanto šīs dataset un decomposition. https://arxiv.org/pdf/2309.16797 image-20241202153303747

  1. Atrast datu kopas, kur inputs: Jautājums, Fakti -> Outputs ir teksta atbilde nevis diskrēta atbilde

  2. Izpētīt ar kādu metriku novērtēt atbildes, kur nav diskrētas vērtības, bet ir zināma reference atbilde - https://dugarsumit.github.io/files/evaluation_metrics_and_distance_similarity_measures.pdf Kas tas tāds “SARI score (Xu et al., 2016) as the evaluation metric, an n-gram-based scoring system extensively utilized for text editing tasks”

  3. Ar kādu prompt citi Github veic validāciju šīm datu kopām: MultiArith, LastLetter, StrategyQA? Piemērs Classfiy using true or false. Facts: ... Question: ...