2023-07-14 Mārcis

Notes

LLaMA 7b hf kā language modelling izmanto template structure, neder mūsu text corpus data (https://www.notion.so/evalds/2023-07-14-0648b4fb12e0470189b7c0917e67eb4a?pvs=4)

Pievienotas funkcijas ar kurām var ziņot par labojumiem transkriptā.

TODOs

LLMs
1. Noskaidrot kāpēc LLaMa lieto templates kā inputs un kāpēc tiek lietota “Instruction” daļa? Kād ieguvums accuracy no šīm?
2. Noskaidrot kā LLaMa sagatavo datus priekš followup jautājumiem?
3. Atrast kādu citu lielāko un SOTA language modelling modeli, kura neizmantotu templates, piemēram, Bloom (https://huggingface.co/bigscience/bloom). Bet modelim jābūt tik lielam, lai to varētu apmācīt ar LORA un būtu kāds piemērs kā to dara. Vēlams modelim būtu jābūt redzējušam latviešu valodu.
4. Notestēt un balstīties uz few shot risinājumu, lai panāktu intent classification - https://arxiv.org/pdf/2005.14165.pdf
5. Atrast cik daudz dialog praugi latviešu valodā ir pieejami OpenAssistant (https://open-assistant.io/chat/064b14c8-074c-7c60-8000-b49018f26a54)
STT
1. Uzlikt uz production jaunu STT modeli
2. Papildināt validācijas datu kopu (ar jaunajiem paraugiem - ne tiem, kas bija iekļauti vecajā modelī)
3. Nomērīt CER, WER uz plašākās validācijas datu kopas ar veco modeli, jauno, kurš nav redzējis šo kopu un ar/bez assistentis datiem
API
1. Palaist TRUNCATE uz tasks (un saistītajām dinamiskajām tabulām, tikai nedzēst users tabulu, iespējams nedrīkst ar CASCADE), lai attīrītu production datu bāzi, DELETE funkcija mūžīgi izpildās
2. Salabot coordinator bug, kur piešķir worker_uuid audio_text workerim ar nepareizu valodu. Ieviest ar error logging backup risinājumu, kurš atstāj tasku WAITING, vet noņem worker_uuid, ja iedod nepareizajam workerim
3. Tā kā report un data labelling endpoints strādā, kad rezultāts jau ir atgriezts uztasīt, ka cron dzēš nost processed audio failus ar N dienu intervālu, sākotnēji visticamāk 7 dienas. BET šis attiecas tikai uz oracle-4, uz worker serveriem tas neattiecas, tur jādzēš nost visi processed.
4. Pievienot endpoint ar kuru var iesniegt text_grammar vai text_sentiment labojumus
5. Pievienot endpoints ar kuriem var ziņot par kļūdām / pareizi atpazītām lietām konkrētā feature jebkurā task, piemēram, ja lietotājs nospiež PitchPatterns “report problem” uz emociju atpazīšanu. Šādā gadījuma saglabāt audio vai text sample un info par to kāda kļūda tika piefiksēta. Šis būs aktuāli arī grammarly, kur atnāks feedback, ka nepareizi atpazīts. Vajag arī iespēju, ziņot, ka pareizi atpazīts.
6. Multiprocessing update. Nepieciešams izveidot divus multiprocess controllers, kuri novērš, ka workerim jāgaida uz DB -> ControllerTasksFetcher un ControllerTasksSubmitter,
  ControllerTasksFetcher paņem un uztur sarakstu ar worker_uuid piešķirtajiem tasks (nevis pēdējam tikai, bet prioritārā secībā), jāņem vērā, ka coordinator var pārdalīt esošo workeru tasks, tāpēc uzreiz jāpaņem noteikts skaits tasks un jāpārliek ar vienu DB query statusā PROCESSING, piemēran hyperparam varētu būt, ka 10 tasks vienmēr tiek paņemti uz processing pie katra update. Vēl jāņem vērā, ka tasks var ATCELT vai arī paralēli kamēr update list main workeris var tos pabeigt jau.
  ControllerTasksSubmitter savukārt rezultātu ievieto datu bāzē paralēli kamēr izpildās nākamais uzdevums
  Svarīgi, ka ar Ctrl+C abi controlleri aizveras graciosly nepazaudējot datus savos sarkstos.
  Atceries, ka run() daļa multiprocessing controllers nav pieejama caur pointer mainīgajiem, bet tikai caur īpašajiem multiprocessing mainīgajiem, šajā gadījumā varētu noderēt multiprocessing.Queue
  Jāieliek arī time.sleep starp pieprasījumiem, lai nepārtraukti nebombardē DB