2023-03-23 Meeting 38

 

Git:

https://github.com/Betija13/Bakalaura_darbs_kods

 

Report: https://www.evernote.com/shard/s736/sh/84edb1bb-a03d-5556-ea2c-61bf022d9047/9JVnbsTukbLENz6gucjBjQkgXIUDYWXuRG8SaZhq-8YWniRfRapYKQWmQA

 

Summary

VCTK datu kopa ar original Whisper strādā labāk kā pēc fine-tunning uz visa veida paraugiem (šobrīd fokusējamies uz salīdzinājumu tikai starp mūsu pašu apmācītajiem modeļiem, vēlāk noskaidrosim kā piedzīt rezultātu)

image-20230323142017637

 

 

 

image-20230323143604384

 

image-20230323143534343

 

 

 

TODO

  1. Inferencē ievākt WER, CER tieši arī uz paša traget samples un target models, balstoties uz reālajiem paraugiem, piem. priekš p269

  2. Dokumentēt un uzmanīgi implementēt eksperimentu, lai noteiktu kurām no balsīm iekš VCTK voice conversion strādā labāk https://github.com/asya-ai/asya-master-api

controller_diarization.py kā voiceID embeddings izmantot šo:

Puseodo code ekspermentam, kas ir jāvēic:

 

  1. Pārliecināties Seq2SeqTrainer ielādē un saglabā optimizer svarus (nevis paša modeļa tikai):

    1. Lai būtu droši, ka fine-tunning sākas ar whisper optimizer pozīciju, jo tad, ja sākam no whisper ar ZEMU LR (iespējams pa augstu tagad), tad CER nevajadzētu samazināties. Noskaidro no Mārča kā viņam mainās CER pie fine tunning un kā uzlabot situāciju

    2. Saglabāt svarus, lai ja nobrūk apmācība var atjaunot apmācības procesu image-20230323142944772

    3. Kad abas problēmas 1 un 2 atrisinātas apmācīt pa jaunu fine-tunning modeli uz runātājiem

 

  1. Teksta darbi:

    1. https://github.com/openai/whisper/discussions/486 - neizmanto CTC, bet gan CCE loss, jo tiek izmantoti pus-vārdu tokens nevis burti STT outputā

    2. Atsauču veidošanai izmantot https://www.zotero.org

    3. Excel export macros (add-ins) https://ctan.org/pkg/excel2latex?lang=en

    4. Sadalīt SLR multi tabulās - katra tabula par konkrētu salīdzinājumu Var pagriezt lapu \begin{landscape}

    5. csvautotabular formatting iespējas https://tex.stackexchange.com/questions/292512/csvsimple-csvautotabular-and-csvautobooktabular-with-centered-columns-content

    6. Pabeigt Ievadu, SLR, Metodoloģijas daļas

    7. Papildināta terminu vārdnīca: http://share.yellowrobot.xyz/quick/2023-3-23-75FFFD5B-C006-4A0B-A7A4-6AE08F5C5253.html