2023-02-17 Bakalaurs - 8. marts

 

Tēma: Teksta sentimenta klasificēšana angļu un latviešu valodās, izmantojot lielos valodas modeļus.

Topic: Text sentiment classification in English and Latvian languages, using LLM models.

 

Problēmas nostādne:

Teksta sentimenta klasifikācija ir datorzinātnes joma, kas nodarbojas ar teksta analīzi, lai noteiktu teksta saturu un klasificētu izteiksmes toni kā pozitīvu, negatīvu vai neitrālu. Šīs metodes tiek izmantotas dažādās jomās, piemēram, mārketingā, pētniecībā un sabiedriskajās attiecībās, lai izprastu cilvēku reakcijas uz noteiktām situācijām un objektiem. Līdz šim teksta sentimenta klasifikāciju veica dziļajā mašīnmācīšanās, izmantojot valodas modeļus, kuriem pa virsu tika apmācīta klasifikācijas galva, izmantojot parraudzīto mašīnmācīšanos. Taču, kopš lielo valodas modeļu izlaišanas (LLM), ir iespējams veikt nulles-šāviena inferenci, kas ļauj iepriekš apmācītus modeļus pielāgot jauniem uzdevumiem, ja tie ir aprakstāmi ar dabīgo valodu. LLM tiek apmācīti uz dažādām valodām, taču saprot galvenokārt tieši angļu valodu, bet zināšanu pārnese ir novērojama arī citās valodās. Ar īpaši izveidotiem vaicājumiem ir iespējams panākt, ka ar šiem modeļiem var veikt sentimenta klasifikāciju, lai izmantotu produkcijā vai, lai lētāk iegūtu sākotnējo datu kopu, kuru tālāk iztīra cilvēki jeb marķētāji. Tomēr, nav skaidrs, kādu precizitāti var sasniegt teksta sentimenta klasifikācijas uzdevumā un kādi ir precīzākie vaicājumi un LLM modeļi, gan tie, kas ir publiski pieejami, gan tie, kas pieejami komerciāli.

 

Raw:

 

 

Plāns:

  1. SLR par esošajiem pētījumiem sentimenta klasifikāciju. Mērķis identificēt datu kopas, metrikas, klasiskos dziļās mašīnmācīšanās modeļus un labākos rezultātus

    1. torchtext klasifikatori, paperswithcode

  2. Metadoloģija

    1. Apmācīšanas un testēšanas protokols

    2. Vaicājumu sastādīšana LLM, lai panāktu klasifikāciju

    3. Angļu datu kopas apraksti, analīze

    4. Latviešu valodas sentimenta datu kopas izveide, izmantojot LLM

    5. Latviešu valodas modeļa apmācība

  3. Rezultāti

    1. Angļu valodā - Salīdzinājums starp klasisko dziļās māšīnmācīšanās modeli un LLM vaicājumiem (dažādos modeļos, tai skaitā ChatGPT)

    2. Latviešu valodā - Datu kopas tīrība attiecībā pret cilvēku marķētājiem

    3. Latviešu valodā - Salīdzinājums starp attīrītu datu kopu un paša apmācītu modeli prt LLM uz atsevišķas validācijas kopas