Tēma: Teksta sentimenta klasificēšana angļu un latviešu valodās, izmantojot lielos valodas modeļus.
Topic: Text sentiment classification in English and Latvian languages, using LLM models.
Problēmas nostādne:
Teksta sentimenta klasifikācija ir datorzinātnes joma, kas nodarbojas ar teksta analīzi, lai noteiktu teksta saturu un klasificētu izteiksmes toni kā pozitīvu, negatīvu vai neitrālu. Šīs metodes tiek izmantotas dažādās jomās, piemēram, mārketingā, pētniecībā un sabiedriskajās attiecībās, lai izprastu cilvēku reakcijas uz noteiktām situācijām un objektiem. Līdz šim teksta sentimenta klasifikāciju veica dziļajā mašīnmācīšanās, izmantojot valodas modeļus, kuriem pa virsu tika apmācīta klasifikācijas galva, izmantojot parraudzīto mašīnmācīšanos. Taču, kopš lielo valodas modeļu izlaišanas (LLM), ir iespējams veikt nulles-šāviena inferenci, kas ļauj iepriekš apmācītus modeļus pielāgot jauniem uzdevumiem, ja tie ir aprakstāmi ar dabīgo valodu. LLM tiek apmācīti uz dažādām valodām, taču saprot galvenokārt tieši angļu valodu, bet zināšanu pārnese ir novērojama arī citās valodās. Ar īpaši izveidotiem vaicājumiem ir iespējams panākt, ka ar šiem modeļiem var veikt sentimenta klasifikāciju, lai izmantotu produkcijā vai, lai lētāk iegūtu sākotnējo datu kopu, kuru tālāk iztīra cilvēki jeb marķētāji. Tomēr, nav skaidrs, kādu precizitāti var sasniegt teksta sentimenta klasifikācijas uzdevumā un kādi ir precīzākie vaicājumi un LLM modeļi, gan tie, kas ir publiski pieejami, gan tie, kas pieejami komerciāli.
Raw:
Teksta sentimenta klasificēšana ir datorzinātnes joma, kas nodarbojas ar tekstu analīzi, lai noteiktu teksta saturu un klasificētu izteiksmes toni to kā pozitīvu, negatīvu vai neitrālu. Šīs metodes tiek izmantotas, lai saprastu cilvēku viedokļus, attieksmes un emocijas attiecībā uz konkrētu tēmu, produktu, pakalpojumu vai citu objektu.
To izmanto dažādās jomās, piemēram, mārketingā, pētniecībā un sabiedriskajās attiecībās, lai izprastu cilvēku reakcijas uz noteiktām situācijām un objektiem.
Līdz šim teksta sentimenta klasifikāciju dziļajā mašīnmācīšnās veica, izmantojot valodas modeļus, kuriem pa virsu tika apmācīt klasifikācijas galva, izmantojot parraudzīto mašīnmācīšanos.
Līdz ar lielo valodas modeļu izlaišanu (LLM) ir pārādījusies iespēja veikt nulles-šāviena inferenci, iepriekš apmācītu modeli jauniem uzdevumiem, ja šos uzdevumus var aprakstīt ar dabīgo valodu.
Šie modeļi parasti tiek apmācīti uz dažādām valodām, bet galvenokārt tie saprot tieši angļu valodu, taču zināšanu pārnese ir novērojama arī citās valodās.
Sastādot īpaši izveidotus vaicājumus var panākt, ka ar šiem modeļiem var veikt sentimenta klasifikāciju, lai izmantotu produkcijā vai, lai lētāk iegūtu sākotnējo datu kopu, kuru tālāk iztīra cilvēki jeb marķētāji.
Šobrīd nav kādu precizitāti var sasniegts teksta sentimenta klasifikācijas uzdevumā.
Nav skaidrs kādi ir precīzākie vaicājumi un kādi ir precīzākie LLM modeļi, gan tie kas ir publiski pieejami, gan tie, kas pieejami komerciāli.
Plāns:
SLR par esošajiem pētījumiem sentimenta klasifikāciju. Mērķis identificēt datu kopas, metrikas, klasiskos dziļās mašīnmācīšanās modeļus un labākos rezultātus
torchtext klasifikatori, paperswithcode
Metadoloģija
Apmācīšanas un testēšanas protokols
Vaicājumu sastādīšana LLM, lai panāktu klasifikāciju
Angļu datu kopas apraksti, analīze
Latviešu valodas sentimenta datu kopas izveide, izmantojot LLM
Latviešu valodas modeļa apmācība
Rezultāti
Angļu valodā - Salīdzinājums starp klasisko dziļās māšīnmācīšanās modeli un LLM vaicājumiem (dažādos modeļos, tai skaitā ChatGPT)
Latviešu valodā - Datu kopas tīrība attiecībā pret cilvēku marķētājiem
Latviešu valodā - Salīdzinājums starp attīrītu datu kopu un paša apmācītu modeli prt LLM uz atsevišķas validācijas kopas