2025-02-27 Meeting 59

Github: https://github.com/Betija13/Magistra_darbs

 

Benchmark GitHub un citiem darbiem, kuriem ir Github ir jāatrod prompti ar kuriem iegūst gala atbildi, vai tiešām visi izmanot 2 vaicājumus un vai tiešām nenorāda A, B, C, D

CleanShot 2025-02-27 at 11.22.25

 

Piemērs, kuru notestēt, vai ir stabilāks rezultāts

System prompt

 

User prompt

 

Izprast precīzi, kas ietekmē, ka modelis atgriež skaidrojumus! Dokumentēt eksperimentus. Skaidrojumi ir labi visticamāk, panākt, ka tie parādās arī otrā dataset

AQUA vs Math

 

CleanShot 2025-02-27 at 11.24.05

 

 

gpt4o izmantot gpt4o-mini

 

 

Kā izskatās outputi varbūt vajag vēl vienu klasifikācijas prompt. CleanShot 2025-02-27 at 14.07.45

 

Netaisam manuālu atlasi atbildei, ja nevar ar string matching atrast, tad ar papuildus prompt

 

Salīdzināt “Do a simple computation.” ar un bez N un ar dažādām temperatūrām

 

CleanShot 2025-02-27 at 14.13.30

CleanShot 2025-02-27 at 14.14.27

 

 

Templates system promptam:

{verb} {object} {output_format}

^ Testējam mainīgos, lai saprastu prompt ietekmi, noskaidrot kas īsti ir svarīgi promptā:

  1. Atkārtot vairākas reizes svarīgākos terminus/komandas

  2. Svarīgākos terminus/komandas likt kā pirmos

  3. Viens vai vairāki uzdevumi vienlaicīgi

  4. Ļoti vispārīgi vai ļoti specifiski

  5. Atdalošie simboli / bez simboliem

 

 

Pipeline ar vairākiem secīgiem prompts

Structured output

Ieviest mutāciju līdz nākamai reizei:

  1. Source Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)

    1. Example:

      1. Do a simple computation. -> Rewrite -> Calculate task

      2. Do a simple computation. -> Rewrite -> Calculate computation

  2. Current Prompts -> Mutē Prompt N reizes (līdzigi kā N sampling)

    Example:

    1. Do a simple computation. -> Rewrite -> Calculate task

    2. Calculate task -> Rewrite -> Calculate computation

  3. Fitness score vajag!

    1. Aprēķināt caur random samples no tā paša dataset ar jauno prompt

    2. Aprēķināt caur random samples no tā cita dataset ar jauno prompt

    3. Ieviest un Testēt OPRO ar dažādiem atkārtojumu skaitiem

 

 

\todo[inline, color=green]{Matrica ar datu kopām cik bieži izmantotas un labākais rezultāts}

 

prompt piemēri

 

 

Aprakstīt kā tiek apstrādātas atbildes pie metodoloģijas

 

CleanShot 2025-02-27 at 14.29.01

 

CleanShot 2025-02-27 at 14.35.19