2025-02-27 Meeting 59

Github: https://github.com/Betija13/Magistra_darbs

Benchmark GitHub un citiem darbiem, kuriem ir Github ir jāatrod prompti ar kuriem iegūst gala atbildi, vai tiešām visi izmanot 2 vaicājumus un vai tiešām nenorāda A, B, C, D

Piemērs, kuru notestēt, vai ir stabilāks rezultāts

System prompt


1
Classify (A),(B),(C),(D),(E)


xxxxxxxxxx
1
1
Solve and Classify Classify (A),(B),(C),(D),(E)


xxxxxxxxxx
1
1
Solve and Choose Answer (A),(B),(C),(D),(E)


xxxxxxxxxx
1
1
Solve task below. Answer with (A),(B),(C),(D),(E)

User prompt


xxxxxxxxxx
1
1
{full task}

Izprast precīzi, kas ietekmē, ka modelis atgriež skaidrojumus! Dokumentēt eksperimentus. Skaidrojumi ir labi visticamāk, panākt, ka tie parādās arī otrā dataset

AQUA vs Math

gpt4o izmantot gpt4o-mini

Kā izskatās outputi varbūt vajag vēl vienu klasifikācijas prompt.

Netaisam manuālu atlasi atbildei, ja nevar ar string matching atrast, tad ar papuildus prompt

Salīdzināt “Do a simple computation.” ar un bez N un ar dažādām temperatūrām

Templates system promptam:

{verb} {object} {output_format}

^ Testējam mainīgos, lai saprastu prompt ietekmi, noskaidrot kas īsti ir svarīgi promptā:

Atkārtot vairākas reizes svarīgākos terminus/komandas
Svarīgākos terminus/komandas likt kā pirmos
Viens vai vairāki uzdevumi vienlaicīgi
Ļoti vispārīgi vai ļoti specifiski
Atdalošie simboli / bez simboliem

Pipeline ar vairākiem secīgiem prompts

Structured output

Ieviest mutāciju līdz nākamai reizei:

Source Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)
1. Example:
  1. Do a simple computation. -> Rewrite -> Calculate task
  2. Do a simple computation. -> Rewrite -> Calculate computation
Current Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)
Example:
1. Do a simple computation. -> Rewrite -> Calculate task
2. Calculate task -> Rewrite -> Calculate computation
Fitness score vajag!
1. Aprēķināt caur random samples no tā paša dataset ar jauno prompt
2. Aprēķināt caur random samples no tā cita dataset ar jauno prompt
3. Ieviest un Testēt OPRO ar dažādiem atkārtojumu skaitiem

\todo[inline, color=green]{Matrica ar datu kopām cik bieži izmantotas un labākais rezultāts}

prompt piemēri

Aprakstīt kā tiek apstrādātas atbildes pie metodoloģijas