Aprakstīt Mag darbā un report kāpēc Discriminator ir MSE, vai visiem Discriminators jābūt MSE tiešām?
MAE jau citur ir by default, jo tas piemērots trokšņainiem, neprecīziem datiem
Hidden size palielināts, uzlabo rezultātus, kas ir loģiski (arī valodas modeļos)
Aprakstīt, ka aptuveni pie 100000 samples palaidās sakarīgi audio paraugi
Mārci informēt par datu problēmām:
Iztīrīto grāmatu nosūtīt mārcim
Grāmatās atkārtojas teikumi (datu procesēšanas skripts nav nostrādājis pareizi, vajag salabot un pa jaunu noprocesēt un salinkot tekstu ar izrunāto 20sek fragmentos)
Fragmentos nedrīkst noraut sākumā un beigās vārdu pusvārdā jāizmanto STT timesamps
LUMI izmanto Latvijas Radio ierakstus, esot augstākā kvalitātē un atšķirībā no grāmatām izrunājot nēpārveido balsis
CommonVoice arī satur ievērojamas problēmas! ar jautājumzīmēm aizstātas garumzīmes, ar regex jaīztīra, nosūtīt lūdzu mārcim satīrītos
Mārcim jāuzstāda uz Vast STT only API ar kuru testēt CER negaidot rindā, iekļaut katrā 10 epoch vismaz 100 samples testēt, rģistēr rezultātus
RVC labākais voice conversion, dokumentēt un aprakstīt apmācības parametrus.
Saglabāt Source audio, Target audio, generated audio paraugus, lai var novērtēt reāli atšķirību
Dabūt no Mārča kodu Speaker Embeddings noteikšanai pēc tā cosine distance var izmantot, lai novērtētu vai generated balss atbilst source balsij uz 100 paraugiem, būtu labi salīdzināt vairākus modeļus piem, to zero-shot sūdu FreeVC
Hipotēzes (iekļaut ievadāt un aptiprināt vai neapstiprināt)
Lai novērtētu sintezētās balss kvalitāti nepietiek tikai ar NISQA, bet nepieciešams arī CER.
Lai uzlabotu NISQA nepieciešams palielināt modeļa parametru skaitu līdzīgi kā citos modeļos, kur parametru skaits korelē ar kvalitāti.
Runas uzlabošanas modeļu izmantojums datu priekšapstrādē uzlabo NISQA rādītājus.
Veicot balss toņa pārveidi uz vienu runātāju iespējams sasniegt augstāku NISQA un zemāku CER.
Single voice modelim atrisināt problēmu, ka nunique sentences nav pietiekami, dabūt, ka mārcis salabo audio grāmatas, sākt skrāpēt Radio (Evalds dabūs labelers, kas pielabos transkriptus)