2023-10-25 - Meeting #11

MOS (Mean Opinion Score), dažāds skaits klausītāju 10, 20, vienā publikācijā 200

HiFiGAN vocoder models tiek lietoti, lai no MelSpectra dabūtu WAV

SLR - Pievienot kolonu paraugi/samples , kur links kur paklausīties
SLR - Pievienot kolonu - Github Repo
SLR - Pievienot kolonu - Kur ir pieejams Pre-trained model
SLR - Pievienot kolonu - Vai modelis ir mult-speaker?
Dokumentēt ”why latest STT research do not use WER/CER as metric?” https://www.perplexity.ai/search/list-of-typical-HoB0Aet2SP2I9Ti6azldzQ?s=c https://www.perplexity.ai/search/why-latest-STT-5rPIh1ORTG6WvJuTxDEo6g?s=c
Kādā veidā tiek rēķināts “pronounciation error rate”?

Implementēt kodu, kas ģenerē Latviešu STT ar difonu metodi (divu skaņu sapludināšanu) - dokumentēt, ko precīzi izmanot gTTS


1
1
from gtts import gTTS


2
1
tts = gTTS(text=text, lang='lv', slow=False)
2
        tts.save('temp.mp3')

Izveodot GIT repo un share uz https://github.com/evaldsurtans
Vai uz gTTS (difonu metodes) uzliekot pa virsu DL metodes var iegūt labu rezultātu vieglāk un ērtāk? Uztaisīt eksperimentus
1. uz robotiskā gTTS uzlikt voice conversion
2. no robotiskā gTTS iegūt mel-spectogramu un tad ar HiFiGAN (starp citu HiFiGAN alternatīva ir Griffin-Lin algoritms)
Apmācīt ar single speaker STT un tad pielietot Voice Conversion vai arī normalizēt visus audio ar single speaker STT - kā tas ietekmē rezultātu, itsevišķi pie mazas datu kopas. kāda ir ietekme, ja nav speaker encoder
- Labākais voice conversion - SoftVC ViTS
- Šeit bija pētījums par voice conversion “normalizācijas” ietekmi uz STT, bet iespējams vēl lielāka ietekme ir uz TTS
- http://share.yellowrobot.xyz/quick/2023-10-31-A3204F22-2419-4472-83DD-8107438D6964.pdf
Eksperiments pievienot LoRA transfer-learning kādiem jau esošiem TTS modeļiem, lai apmācību varētu veikt uz mazāka GPU un iegūtu labāku rezultātu - apvienot kādu no esošajiem modeļiem ar LoRA metodi (kā to izmanto attēlu modēļos tikai piriekš TTS) https://ar5iv.labs.arxiv.org/html/2106.09685
Salīdzināt Difonu (gTTS), Glow/Flow, WaveNet metodes?