2024-05-07 Meeting #24

 

TODO

  1. Pabeigt uzdevumus no ieprējā note

  2. No Mārča dabūt apmācītu Voice Conversation modeli / API, ja nav dod ziņu, viņam tas ir TODO

  3. Iegūt kvantitatīvus rezultātus salīdzināt NISQA pirms un pēc audio enhancement (lūdzu salīdzināt arī citas metodes, īpaši asya audio_denoise)

  4. Apnācīt modeli ar

    1. kļūdas funkcijās MSE nomainīt uz MAE, kas piemērots netīriem datiem

    2. Pievienot koeficientus kļūdas funkciju daļām (1.0 default koeficienti, pārbaudīt +/- 0.1)

    3. Izmantot normalizētu MelSpec (ar dabīgām amplitūrdām filtriem)

  5. Fonā turpināt modeļa un loss funkciju izpēti

    1. Izpētīt iepriekšējos modeļus pirms ViTS, kuri neizmanto Flow un Variational inference

    2. Kāpēc vispār vajag Flow elementus modelī, kāpēc nevar bez tiem, kādu funkciju tie veic?

    3. Pašam uzzīmēt Monotonic Alignment Search (MAS) diagrammu pa soļiem phonemes vs audio inputs, lai va var izprast precīzāk kā tas strādā

    4. Kāpēc precīzi vajag Variational inference pie MAS? Vai tiešām to nevar apmācīt ar vienkāršāku loss function? Vajadzētu varēt bez. Var arī pamēģināt pieslēgt šo lib, kur var mainīt dažādus priors https://github.com/ctallec/pyvarinf

 

Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. https://docs.coqui.ai/en/dev/models/vits.html

 

image-20240507184910963

 

 

 

image-20240507191346499