Notion: https://krsaulitis.notion.site/d82e63f704b74b0d814fdc84746e0984?v=73634c63c7934bb8a6c2f1daa9b820fe
MOS (Mean Opinion Score), dažāds skaits klausītāju 10, 20, vienā publikācijā 200
HiFiGAN vocoder models tiek lietoti, lai no MelSpectra dabūtu WAV
Igauņu TTS https://tartunlp.github.io/TransformerTTS/bhlt2022/
SLR - Pievienot kolonu paraugi/samples , kur links kur paklausīties
SLR - Pievienot kolonu - Github Repo
SLR - Pievienot kolonu - Kur ir pieejams Pre-trained model
SLR - Pievienot kolonu - Vai modelis ir mult-speaker?
Dokumentēt ”why latest STT research do not use WER/CER as metric?” https://www.perplexity.ai/search/list-of-typical-HoB0Aet2SP2I9Ti6azldzQ?s=c https://www.perplexity.ai/search/why-latest-STT-5rPIh1ORTG6WvJuTxDEo6g?s=c
Kādā veidā tiek rēķināts “pronounciation error rate”?
Implementēt kodu, kas ģenerē Latviešu STT ar difonu metodi (divu skaņu sapludināšanu) - dokumentēt, ko precīzi izmanot gTTS
11from gtts import gTTS
21tts = gTTS(text=text, lang='lv', slow=False)
2 tts.save('temp.mp3')
Kāds ir uzdevums Monotonic Alignement Search?
Izveodot GIT repo un share uz https://github.com/evaldsurtans
Vai uz gTTS (difonu metodes) uzliekot pa virsu DL metodes var iegūt labu rezultātu vieglāk un ērtāk? Uztaisīt eksperimentus
uz robotiskā gTTS uzlikt voice conversion
no robotiskā gTTS iegūt mel-spectogramu un tad ar HiFiGAN (starp citu HiFiGAN alternatīva ir Griffin-Lin algoritms)
Apmācīt ar single speaker STT un tad pielietot Voice Conversion vai arī normalizēt visus audio ar single speaker STT - kā tas ietekmē rezultātu, itsevišķi pie mazas datu kopas. kāda ir ietekme, ja nav speaker encoder
Labākais voice conversion - SoftVC ViTS
Šeit bija pētījums par voice conversion “normalizācijas” ietekmi uz STT, bet iespējams vēl lielāka ietekme ir uz TTS
http://share.yellowrobot.xyz/quick/2023-10-31-A3204F22-2419-4472-83DD-8107438D6964.pdf
Eksperiments pievienot LoRA transfer-learning kādiem jau esošiem TTS modeļiem, lai apmācību varētu veikt uz mazāka GPU un iegūtu labāku rezultātu - apvienot kādu no esošajiem modeļiem ar LoRA metodi (kā to izmanto attēlu modēļos tikai piriekš TTS) https://ar5iv.labs.arxiv.org/html/2106.09685
Salīdzināt Difonu (gTTS), Glow/Flow, WaveNet metodes?