Atrastas problēmas STT LV datu kopās
Youtube
Fona mūzika - vajag izmantot audio_denoise, sagatavot denoised kopu
Runā viens otram pāri - vajag izmantot audio_diarization, nezimantot apgabalus, kur strauji mainās runātāji
Larko
Runā viens otram pāri - vajag izmantot audio_diarization, nezimantot apgabalus, kur strauji mainās runātāji
Books
Kaut arī API rāda mazu CER daudzviet transkrpits nesakrīt ar sacīto - varbūt var ar MarryTTS (concatenaded metodi) ģenerēt audio no teksta, tad STT un salīdzināt mūsu modeļa source STT - tur kur atšķirības, tur notīrīt, jo šobrīd mūsu modeļi ir iemācījušies nepareizi atpazīt
Vēl variants apmācīt uz sub-kopām, kuras ir tīras CommonVoice un Assistentis un tad ar šo sub kopu tīrīt books
Ar esošajiem datiem nebija iespējams apmācīt kvalitatīvu TTS modeli
TODO:
Apmācīt uz sub-kopām VITS1 (panākt līdzvērtīgus rezultātus, jau pre-trained modeļiem)
Apmācīt VITS2, kad veiksmīga VITS1
Salīdzināt LV kopas ar MarryTTS LV un gTTS LV
Sistemātiskā literatūras analīze - TTS Latviešu valodā https://www.semanticscholar.org/search?q=Latvian%20TTS&sort=relevance
Pārnest pārfrāzētu tekstu no kursa darba bakalaura darbā
Pamēģini palaist uz Windows manu Concat LV TTS modeli no 2012 gada (windows exe, caur DLL iespējams var automatizēt ģenerēšanu viegli) https://share.yellowrobot.xyz/quick/balss-2012-07.zip