2023-03-08 Meeting 5

 

 

TODO

  1. Pierakstīt kurām datu kopām ir validācijas kopa vai vispār izdalītas datu kopas

  2. Pierakstīt kuras datu kopas ir balansētas

  3. Pierakstīt cik lielas datu kopas un cik katrā klasē paraugu

  4. Evalds noskaidros kā lejupielādēt korpuss.lv datu kopas no LUMI

  5. Atrast vismaz 5 publikācijas kas pašlaik ir SOTA angļu valodas text sentiment classifier - kāds dataset, metric un modelis (vairāku veidu modeļus būtu vērts atrast), ideāli ja open-source pieejami (mums noderētu PP angļu valodai arī varbūt ir huggingface)

  6. Atrast vismaz 5 publikācijas LLM prompt engineering uz jebkādu valodas klasifikācijas uzdevumu

  7. Izstrādāt pāris hipotēzes / metodes kā step-by-step var iegūt stabilu data mining prompt uz sentiment classifier Latviešu valodai (espējams prompt būs angliski - jātestē)

    Piem: Atlasa 50 positive, 50 negative words, ieleik 5 dažādās prompt struktūrās, ievāc rezultātu ar 500 vaicājumiem - nosaka sentiment. Var lietot arī tos words weights kā daļu no metodes.

  8. Izveidot Redit datu scraper (ja paliek laiks)