2024-04-09 Meeting #22

Atrastas problēmas STT LV datu kopās

Youtube
- Fona mūzika - vajag izmantot audio_denoise, sagatavot denoised kopu
- Runā viens otram pāri - vajag izmantot audio_diarization, nezimantot apgabalus, kur strauji mainās runātāji
Larko
- Runā viens otram pāri - vajag izmantot audio_diarization, nezimantot apgabalus, kur strauji mainās runātāji
Books
- Kaut arī API rāda mazu CER daudzviet transkrpits nesakrīt ar sacīto - varbūt var ar MarryTTS (concatenaded metodi) ģenerēt audio no teksta, tad STT un salīdzināt mūsu modeļa source STT - tur kur atšķirības, tur notīrīt, jo šobrīd mūsu modeļi ir iemācījušies nepareizi atpazīt
- Vēl variants apmācīt uz sub-kopām, kuras ir tīras CommonVoice un Assistentis un tad ar šo sub kopu tīrīt books

Ar esošajiem datiem nebija iespējams apmācīt kvalitatīvu TTS modeli

TODO:

Apmācīt uz sub-kopām VITS1 (panākt līdzvērtīgus rezultātus, jau pre-trained modeļiem)
Apmācīt VITS2, kad veiksmīga VITS1
Salīdzināt LV kopas ar MarryTTS LV un gTTS LV
Sistemātiskā literatūras analīze - TTS Latviešu valodā https://www.semanticscholar.org/search?q=Latvian%20TTS&sort=relevance
Pārnest pārfrāzētu tekstu no kursa darba bakalaura darbā
Pamēģini palaist uz Windows manu Concat LV TTS modeli no 2012 gada (windows exe, caur DLL iespējams var automatizēt ģenerēšanu viegli) https://share.yellowrobot.xyz/quick/balss-2012-07.zip