2023-03-24 Meeting 6

 

https://lvreddit.puupuls.lv/ https://github.com/Puupuls/LVRedditCorpus

Pierakstīt kā nopietnu problēmu, ka nebija balansēta datu kopas

 

TODO

  1. Nosūtīt TĒMAS izmaiņu un eparakstus datiem

  2. Noskaidrot priekšaizstāvēšanās datumu un prasības - cik lapas, kādi?

  3. Atrast vismaz 5 publikācijas kas pašlaik ir SOTA angļu valodas text sentiment classifier - kāds dataset, metric un modelis (vairāku veidu modeļus būtu vērts atrast), ideāli ja open-source pieejami (mums noderētu PP angļu valodai arī varbūt ir huggingface)

  4. Atrast vismaz 5 publikācijas LLM prompt engineering uz jebkādu valodas klasifikācijas uzdevumu

  5. Izstrādāt pāris hipotēzes PROMPTIEM / metodes kā step-by-step var iegūt stabilu data mining prompt uz sentiment classifier Latviešu valodai (espējams prompt būs angliski - jātestē)

    Piem: Atlasa 50 positive, 50 negative words, ieleik 5 dažādās prompt struktūrās, ievāc rezultātu ar 500 vaicājumiem - nosaka sentiment. Var lietot arī tos words weights kā daļu no metodes.

    OpenAI API

 

Strādā latviski:

https://huggingface.co/cardiffnlp/twitter-xlm-roberta-base-sentiment