Pierakstīt kurām datu kopām ir validācijas kopa vai vispār izdalītas datu kopas
Pierakstīt kuras datu kopas ir balansētas
Pierakstīt cik lielas datu kopas un cik katrā klasē paraugu
Evalds noskaidros kā lejupielādēt korpuss.lv datu kopas no LUMI
Atrast vismaz 5 publikācijas kas pašlaik ir SOTA angļu valodas text sentiment classifier - kāds dataset, metric un modelis (vairāku veidu modeļus būtu vērts atrast), ideāli ja open-source pieejami (mums noderētu PP angļu valodai arī varbūt ir huggingface)
Atrast vismaz 5 publikācijas LLM prompt engineering uz jebkādu valodas klasifikācijas uzdevumu
Izstrādāt pāris hipotēzes / metodes kā step-by-step var iegūt stabilu data mining prompt uz sentiment classifier Latviešu valodai (espējams prompt būs angliski - jātestē)
Piem: Atlasa 50 positive, 50 negative words, ieleik 5 dažādās prompt struktūrās, ievāc rezultātu ar 500 vaicājumiem - nosaka sentiment. Var lietot arī tos words weights kā daļu no metodes.
Izveidot Redit datu scraper (ja paliek laiks)