2025-01-22 Meeting 57

 

TODO

  1. Izveidot github, share https://github.com/evaldsurtans

  2. Implentēt Metodi A ar vairākiem rewards models balstoties uz plānu zemāk

  3. Ievākt sākotnējos rezultātus ar vienu no datu kopām

 

Mutāciju metodes

  1. N-Sampling ar Temperature

  2. Mutēt prompt ar to pašu modeli atbildi

  3. Mutēt prompt ar to pašu modeli jautājumu

  4. Mutēt prompt ar to citu modeli atbildi

  5. Mutēt prompt ar to citu modeli jautājumu

 

Plāns

Metode A - ABCD jautājumi, zero-shot + N-sampling

  1. Input Jautājums + Dazreiz ir Fakti (Common sense dataset).

    1. Formulēt vaicājumus ar pēc iespējas mazāk vārdiem pēc piemēriem kā to dara citos pētijumos

  2. Ģenerēt atbildi uzreiz - Zero shot

    1. Testēt bez N sampling

    2. Testēt ar N sampling un Reward funciton, kā rezultātu izvēloties labāko Reward atbildi

  3. Rezultāts un izmēra precizitāte

 

Metode B - ABCD jautājumi, zero-shot + N-sampling + Jautājuma dekompozīcija

  1. Input Jautājums + Dazreiz ir Fakti (Common sense dataset)

  2. Dekompozēt jautājumu (Reiņa risinājums no eldigen - jaizmanto pēc iespējas mazāk tokens!, Guidance https://github.com/guidance-ai/guidance, Structured outputs)

  3. Ģenerēt atbildes katrai daļai

    1. Testēt bez N sampling

    2. Test ar N sampling un Reward function (tādu, kas šeit derētu, jo visticamāk starp-atbildes nebūs ABCD).

  4. Apvienot daļas un veikt gala atbildi

Metode C - Metode A,B + Mutēt N reizes atbildes ar prompt ar to pašu modeli

Metode D - Metode A,B + Mutēt N reizes atbildes ar prompt ar citu modeli (vēlams Mistral vs LLama vs DeepSeek)

Metode E - Metode A,B + Mutēt N reizes jautājumu ar prompt ar to pašu modeli

Metode F - Metode A,B + Mutēt N reizes jautājumu ar prompt ar citu modeli (vēlams Mistral vs LLama vs DeepSeek)

Visām metodēm vēl jāizmēģina dažādas Reward funckijas

 

 

Fitness score , Reward function

  1. Fitness pēc Frequency atbildes, kura biežāk parādās N sampling. Gan skaitļiem, gan A, B, C, D

  2. Fitness pēc Frequency, sentence embeddings by distance, threshold - tuvas atbildes pret tālām, histogtamms ar 10 bins, kurā bin visvairāk iekrīt augstākais score

  3. Ranking Model as score?-> HuggingFace, Nvida tā, lai kopā 3 ranking modeļi

  4. LLM based scoring (tas pats modelis vai cits modelis) - stulbums

 

Metrikas jeb rādītāji

  1. Kur ir diskrēta atbilde F1, Acc

  2. Kur nav diskreta atbilde ar Fitness score Ranking vai LLM based

 

 


 

LLM

Mutate Answer Mutate Prompt (https://openreview.net/pdf?id=d0jQuZe6k0)

 

https://artificialanalysis.ai

DeepSeek un Mistral kombinācija

 

 

Dumš LLM based

image-20250122102111472

 

Paņemam datasets ar zemākajiem 1-shot LLM rezultātiem kā pamatu