Plans:
Metrikas - 1-cos (alpaca, pirmos tasks), perplexity (alpaca), labākas vēl 3 metrikas (COPA, MULTIRC, BoolQ)
Modeļi
LLama3
Mistral
(Optional) Zepyhr https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
Add Hebo search
reward: validation loss (hugghingFaceH4/no_robots)
Quantizing dataset (GPTQ)
C4
Wiki2
Quantize each model once
Test 5 x save results - Metrikas
Test 1x ar temperature = 0
Runot orģinālos modeļus
Hipotēzes:
Salīdzinājumi esošajos pētījumos nav uzticami, jo modeļos ir temperatūras metodes, kuras ietekmē rezultātu
Kvantizējot ar GPTQ, izmantojot dažādas datu kopas ir ievērojama ietekme uz rezultātu
Semantiskās līdzības rādītājs ievērojami atšķirīgs no citiem izplatītiem LLM rādītājiem (vairāk piemērots ģeneratīviem uzdevumiem)