Izveidot github, share https://github.com/evaldsurtans
Implentēt Metodi A ar vairākiem rewards models balstoties uz plānu zemāk
Ievākt sākotnējos rezultātus ar vienu no datu kopām
N-Sampling ar Temperature
Mutēt prompt ar to pašu modeli atbildi
Mutēt prompt ar to pašu modeli jautājumu
Mutēt prompt ar to citu modeli atbildi
Mutēt prompt ar to citu modeli jautājumu
Metode A - ABCD jautājumi, zero-shot + N-sampling
Input Jautājums + Dazreiz ir Fakti (Common sense dataset).
Formulēt vaicājumus ar pēc iespējas mazāk vārdiem pēc piemēriem kā to dara citos pētijumos
Ģenerēt atbildi uzreiz - Zero shot
Testēt bez N sampling
Testēt ar N sampling un Reward funciton, kā rezultātu izvēloties labāko Reward atbildi
Rezultāts un izmēra precizitāte
Metode B - ABCD jautājumi, zero-shot + N-sampling + Jautājuma dekompozīcija
Input Jautājums + Dazreiz ir Fakti (Common sense dataset)
Dekompozēt jautājumu (Reiņa risinājums no eldigen - jaizmanto pēc iespējas mazāk tokens!, Guidance https://github.com/guidance-ai/guidance, Structured outputs)
Ģenerēt atbildes katrai daļai
Testēt bez N sampling
Test ar N sampling un Reward function (tādu, kas šeit derētu, jo visticamāk starp-atbildes nebūs ABCD).
Apvienot daļas un veikt gala atbildi
Metode C - Metode A,B + Mutēt N reizes atbildes ar prompt ar to pašu modeli
Metode D - Metode A,B + Mutēt N reizes atbildes ar prompt ar citu modeli (vēlams Mistral vs LLama vs DeepSeek)
Metode E - Metode A,B + Mutēt N reizes jautājumu ar prompt ar to pašu modeli
Metode F - Metode A,B + Mutēt N reizes jautājumu ar prompt ar citu modeli (vēlams Mistral vs LLama vs DeepSeek)
Visām metodēm vēl jāizmēģina dažādas Reward funckijas
Fitness pēc Frequency atbildes, kura biežāk parādās N sampling. Gan skaitļiem, gan A, B, C, D
Fitness pēc Frequency, sentence embeddings by distance, threshold - tuvas atbildes pret tālām, histogtamms ar 10 bins, kurā bin visvairāk iekrīt augstākais score
Ranking Model as score?-> HuggingFace, Nvida tā, lai kopā 3 ranking modeļi
LLM based scoring (tas pats modelis vai cits modelis) - stulbums
Kur ir diskrēta atbilde F1, Acc
Kur nav diskreta atbilde ar Fitness score Ranking vai LLM based
LLM
Mutate Answer Mutate Prompt (https://openreview.net/pdf?id=d0jQuZe6k0)
DeepSeek un Mistral kombinācija
xxxxxxxxxx
11The West-of-n approach (Pace et al., 2024) has been used to improve reward models by constructing preference pairs using the best and worst scoring pairs from an initial model.
Dumš LLM based
Paņemam datasets ar zemākajiem 1-shot LLM rezultātiem kā pamatu