Github: https://github.com/Betija13/Magistra_darbs
Benchmark GitHub un citiem darbiem, kuriem ir Github ir jāatrod prompti ar kuriem iegūst gala atbildi, vai tiešām visi izmanot 2 vaicājumus un vai tiešām nenorāda A, B, C, D
Piemērs, kuru notestēt, vai ir stabilāks rezultāts
System prompt
1Classify (A),(B),(C),(D),(E)
xxxxxxxxxx
11Solve and Classify Classify (A),(B),(C),(D),(E)
xxxxxxxxxx
11Solve and Choose Answer (A),(B),(C),(D),(E)
xxxxxxxxxx
11Solve task below. Answer with (A),(B),(C),(D),(E)
User prompt
xxxxxxxxxx
11{full task}
Izprast precīzi, kas ietekmē, ka modelis atgriež skaidrojumus! Dokumentēt eksperimentus. Skaidrojumi ir labi visticamāk, panākt, ka tie parādās arī otrā dataset
AQUA vs Math
gpt4o izmantot gpt4o-mini
Kā izskatās outputi varbūt vajag vēl vienu klasifikācijas prompt.
Netaisam manuālu atlasi atbildei, ja nevar ar string matching atrast, tad ar papuildus prompt
Salīdzināt “Do a simple computation.” ar un bez N un ar dažādām temperatūrām
Templates system promptam:
{verb} {object} {output_format}
^ Testējam mainīgos, lai saprastu prompt ietekmi, noskaidrot kas īsti ir svarīgi promptā:
Atkārtot vairākas reizes svarīgākos terminus/komandas
Svarīgākos terminus/komandas likt kā pirmos
Viens vai vairāki uzdevumi vienlaicīgi
Ļoti vispārīgi vai ļoti specifiski
Atdalošie simboli / bez simboliem
Pipeline ar vairākiem secīgiem prompts
Structured output
Ieviest mutāciju līdz nākamai reizei:
Source Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)
Example:
Do a simple computation. -> Rewrite -> Calculate task
Do a simple computation. -> Rewrite -> Calculate computation
Current Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)
Example:
Do a simple computation. -> Rewrite -> Calculate task
Calculate task -> Rewrite -> Calculate computation
Fitness score vajag!
Aprēķināt caur random samples no tā paša dataset ar jauno prompt
Aprēķināt caur random samples no tā cita dataset ar jauno prompt
Ieviest un Testēt OPRO ar dažādiem atkārtojumu skaitiem
\todo[inline, color=green]{Matrica ar datu kopām cik bieži izmantotas un labākais rezultāts}
prompt piemēri
Aprakstīt kā tiek apstrādātas atbildes pie metodoloģijas