2023-10-25 - Meeting #11

Notion: https://krsaulitis.notion.site/d82e63f704b74b0d814fdc84746e0984?v=73634c63c7934bb8a6c2f1daa9b820fe

MOS (Mean Opinion Score), dažāds skaits klausītāju 10, 20, vienā publikācijā 200

HiFiGAN vocoder models tiek lietoti, lai no MelSpectra dabūtu WAV

Igauņu TTS https://tartunlp.github.io/TransformerTTS/bhlt2022/

 

TODO

  1. SLR - Pievienot kolonu paraugi/samples , kur links kur paklausīties

  2. SLR - Pievienot kolonu - Github Repo

  3. SLR - Pievienot kolonu - Kur ir pieejams Pre-trained model

  4. SLR - Pievienot kolonu - Vai modelis ir mult-speaker?

  5. Dokumentēt ”why latest STT research do not use WER/CER as metric?” https://www.perplexity.ai/search/list-of-typical-HoB0Aet2SP2I9Ti6azldzQ?s=c https://www.perplexity.ai/search/why-latest-STT-5rPIh1ORTG6WvJuTxDEo6g?s=c

  6. Kādā veidā tiek rēķināts “pronounciation error rate”?

image-20231025181456935

  1. Implementēt kodu, kas ģenerē Latviešu STT ar difonu metodi (divu skaņu sapludināšanu) - dokumentēt, ko precīzi izmanot gTTS

  1. Kāds ir uzdevums Monotonic Alignement Search? image-20231025183307423

 

 

Research directions, experiments

  1. Izveodot GIT repo un share uz https://github.com/evaldsurtans

  2. Vai uz gTTS (difonu metodes) uzliekot pa virsu DL metodes var iegūt labu rezultātu vieglāk un ērtāk? Uztaisīt eksperimentus

    1. uz robotiskā gTTS uzlikt voice conversion

    2. no robotiskā gTTS iegūt mel-spectogramu un tad ar HiFiGAN (starp citu HiFiGAN alternatīva ir Griffin-Lin algoritms)

  3. Apmācīt ar single speaker STT un tad pielietot Voice Conversion vai arī normalizēt visus audio ar single speaker STT - kā tas ietekmē rezultātu, itsevišķi pie mazas datu kopas. kāda ir ietekme, ja nav speaker encoder

  4. Eksperiments pievienot LoRA transfer-learning kādiem jau esošiem TTS modeļiem, lai apmācību varētu veikt uz mazāka GPU un iegūtu labāku rezultātu - apvienot kādu no esošajiem modeļiem ar LoRA metodi (kā to izmanto attēlu modēļos tikai piriekš TTS) https://ar5iv.labs.arxiv.org/html/2106.09685

  5. Salīdzināt Difonu (gTTS), Glow/Flow, WaveNet metodes?