2023-10-05 - Meeting #9

 

Par TTS: https://github.com/Edresson/YourTTS Savukārt ļoti labus TTS modeļu no nulles var uztrenēt ar VITS: https://github.com/jaywalnut310/vits
Example:

Input text: Kā 51 miljardu pārvērst nullē? Kad mēs runājam par klimata pārmaiņām, jāpatur prātā divi skaitļi - pirmais, 51 miljards, otrs nulle. 51 miljards - tik daudz siltumnīcas efektu izraisošo gāzu ik gadu nonāk atmosfērā. Protams, šis skaitlis, gadu no gada svārstās, taču kopumā palielinās - tāda ir mūsu realitāte. Nulle, tas ir skaitlis uz kuru vajadzētu tiekties. Lai apstādinātu globālo sasilšanu un izvairītos no klimata katastrofas, nāksies pārtraukt siltumnīcas efekta izraisošo gāzu emisiju atmosfērā. Pat īpaši neiedziļinoties ir skaidrs, ka tas nebūs viegli, tik grandiozs uzdevums cilvēces dienaskārtībā ir pirmo reizi.

Generated audio using ViTS model: http://share.yellowrobot.xyz/quick/2023-5-18-B4A61D52-3EDA-4ECF-95F5-D3EC7A3E029F.wav

jā, trenējām tikai uz viena runātāja datiem. VITS izmantošanu iedvesmoja viena projekta partneri, kuri bija uztrenējuši kvalitatīvu TTS priekš Brazilian Portuguese tikai ar 8h datiem un pat ne perfekti sastatītiem (ziņu podkāstu skripti, kas līdzīgi subtitriem 100% neatbilst tam, ko diktors beigās norunā). Viņu modelim gan iespējams tādēļ mēdz būt nesakarīgas un neartikulētas murmināšanas problēmas. LV modeli trenējām ar ~20h (ja pareizi atceros) audiogrāmatām, un ar murmināšanas problēmu pagaidām neesam saskārušies, bet šļupstēšana gan mēdz kaut kādos kontekstos vai teikumu sāumā parādīties. Tādā ziņa YourTTS EN modeļa izmantošana ar voice conversion uz LV šķiet strādā stabilāk, taču ar nelielu Amerikas latvieša akcentiņu (pamatā uz r burtiem).

https://github.com/jaywalnut310/vits

 

  1. Praktiski pamēģināt apmācīt ar Mozzila Common voice TTS Latvian

    1. Private Github Repo iedot man pieeju

    2. Kad tev vajag GPUs dod ziņu

  2. SLR tabula

    1. Datu kopas un metrics (kā novērtēt, jo robota balss arī nav laba, kā ar metrics nosaka)

    2. Tieši LT, LV, ES

    3. SOTA English (ViTS vai nav kaut kas jau labāks)

    4. Mums ir arī ļoti interesanti apvienot TTS ar voice conv un accent removal


Voice conversion resarch

 


SLR piemēri

https://www.perplexity.ai (search and files) https://www.chatpdf.com