Kurā no SLR papers evaluation neizmanto to pašu valodas modeli ar kuru ģenerē saturu vai veic mutācijas?
Kurā no SLR papers muation neizmanto to pašu valodas modeli ar kuru ģenerē saturu?
Kādas atšķirības SLR papers ir generation daļā - kādu prompt izmanto un kādas decomposition metodes?
Pierakstīt katram paper prompts, kuri tiek izmantoti katrā no šīm 3 stadijām
Izvēlēties vienu Aritmetic, Commonsense un symbolic reasoning dataset. Sagatavot, lai var ielādēt ar python.
Kā strādā MEWR, ja man vajag salīdzināt vēlamo atbildi ar ģenerēto atbildi, ja neeksistē reference?
Pārbaudīt Python manuāli uzrakstītu atbildi ar dataset atbildi, izmantojot MEWR - apskatīties kuras vēl no jaunajām metrics ir pieejams python un uz dažiem manuāliem paraugiem labi strādā
Uztaisīt pirmo iterāciju, kur caur API var sūtīt jautājumus uz OpenAI un iegūt atbildes, kuras novērtē ar metrikām
Patestēt N-samplig efektu ar augstu temperatūru (tā varētu būt viena no mutācijas metodēm)
Uztaisīt un patestēt prompt based evaluation