2024-04-23 Meeting #23

TODO

Pašam iziet cauri komentāriem publikācijai un pēc labojumiem dod ziņu Evaldam, lai finalizētu iesniegšanu (Evalds fonā jau gatavo finansiālo pusi) - 11 jūlijs
1. Atsauce uz ASYA TTS https://explorer.asya.ai (vēlāk pievienosim reģistrāciju)
Implementēt NISQA metriku apmācības laikā pēc katra epoch uz 50-100 ģenerētiem paraugiem
Pabeigt multi-speaker experiments ar esošajiem datiem
Aprakstīt bakalaurā un spēt izksaidrot pielietojuma jēgu un normālu apmācības līkni visām loss daļām
FM Loss? KL Loss? https://www.perplexity.ai/search/explain-FM-Loss-E_SJwBTLQ16AvhM6swfwFg
https://github.com/jaywalnut310/vits/issues/14
Veikt jauno datu sagatavošanas procesu
1. Mārcis ir satīrījis datus, kur pārklājas runātāji, nepieciešams tos izmantot apmācībai
2. Ar Asya API audio_denois + save_after_processing notestēt kvalitātes izmaiņas un skaņas līmeņu nolīmeņošanu
  1. Ja nav pietiekami audio kvalitātes uzlabojumi, tad notestēt: Adobe podcast hq audio filter (https://podcast.adobe.com/enhance)
  2. https://github.com/shahules786/mayavoz
  3. https://github.com/teo-sl/Audio-Super-Resolution-ViT
  4. https://github.com/galgreshler/Catch-A-Waveform
3. Vispirms apmācīt ar vienu balsi, kurai var dabūt HQ 10-20min šo voice conversion modeli https://github.com/PlayVoice/so-vits-svc-5.0 vai šo https://github.com/svc-develop-team/so-vits-svc
  1. Nokonvertēt visus audio paraugus uz vienu balsi, jauno datu kopu saglabāt priekš apmācības
4. Pārbaudīt, lai visiem failiem vienāds skaņas līmenis
5. Nofiltrēt pēc NISQA un citām metrikām, lai ir labas kvalitātes audio

Comments

Free VC Voice Conversion nestrādā labi uz to nedrīkst paļauties

Audio kvalitātei jābūt labai, lai iegūtu labu saturu

Visiem failiem jābūt vienā skaņas līmenī