2023-03-23 Meeting 38

Git:

https://github.com/Betija13/Bakalaura_darbs_kods

Report: https://www.evernote.com/shard/s736/sh/84edb1bb-a03d-5556-ea2c-61bf022d9047/9JVnbsTukbLENz6gucjBjQkgXIUDYWXuRG8SaZhq-8YWniRfRapYKQWmQA

Summary

VCTK datu kopa ar original Whisper strādā labāk kā pēc fine-tunning uz visa veida paraugiem (šobrīd fokusējamies uz salīdzinājumu tikai starp mūsu pašu apmācītajiem modeļiem, vēlāk noskaidrosim kā piedzīt rezultātu)

TODO

Inferencē ievākt WER, CER tieši arī uz paša traget samples un target models, balstoties uz reālajiem paraugiem, piem. priekš p269
Dokumentēt un uzmanīgi implementēt eksperimentu, lai noteiktu kurām no balsīm iekš VCTK voice conversion strādā labāk https://github.com/asya-ai/asya-master-api

controller_diarization.py kā voiceID embeddings izmantot šo:


x
1
checkpoint_path = "../pretrained_models/audio_diarisation/EncoderClassifier"
2
            FileUtils.createDir(checkpoint_path)
3
            self.speech_brain_1 = EncoderClassifier.from_hparams(
4
                source="speechbrain/spkrec-ecapa-voxceleb",
5
                run_opts={"device": args.device},
6
                savedir=checkpoint_path
7
            )

Puseodo code ekspermentam, kas ir jāvēic:

original samples p269 => pre-trained voiceid => speaker embeddings => median(Z_real, 1)
original samples all - p269 => pre-trained voiceid => speaker embeddings => median(Z_other, 1)
original samples all - p269 => voice conv_version(p269) => pre-trained voiceid => speaker embeddings => median(Z_conv, 1)
dist_cos_other = 1 + cos_sim(Z_real, Z_oth)
dist_cos_conv = 1 + cos_sim(Z_real, Z_conv)
Piemērs formulai, kas noteiktu cik labs paraugs: score_p = 0.5 * dist_cos_other + 2 - dist_cos_conv
- dist_cos_other - cik balss ir atšķirīga no vidējās balss datu kopā
- dist_cos_conv - cik labi strādā voice conversion konkrētai balsij
Dokumentēt rezultātus katram Person iekš VCTK un izvēlēties top5 ar lielāko score_p, JO mēs gribam, lai pārveidotā balss pēc iespējas atškirtos no vidēji visām balsīm datasetā, lai var iegūt ievērojamāku rezultātu

Pārliecināties Seq2SeqTrainer ielādē un saglabā optimizer svarus (nevis paša modeļa tikai):
1. Lai būtu droši, ka fine-tunning sākas ar whisper optimizer pozīciju, jo tad, ja sākam no whisper ar ZEMU LR (iespējams pa augstu tagad), tad CER nevajadzētu samazināties. Noskaidro no Mārča kā viņam mainās CER pie fine tunning un kā uzlabot situāciju
2. Saglabāt svarus, lai ja nobrūk apmācība var atjaunot apmācības procesu
3. Kad abas problēmas 1 un 2 atrisinātas apmācīt pa jaunu fine-tunning modeli uz runātājiem

Teksta darbi:
1. https://github.com/openai/whisper/discussions/486 - neizmanto CTC, bet gan CCE loss, jo tiek izmantoti pus-vārdu tokens nevis burti STT outputā
2. Atsauču veidošanai izmantot https://www.zotero.org
3. Excel export macros (add-ins) https://ctan.org/pkg/excel2latex?lang=en
4. Sadalīt SLR multi tabulās - katra tabula par konkrētu salīdzinājumu Var pagriezt lapu \begin{landscape}
5. csvautotabular formatting iespējas https://tex.stackexchange.com/questions/292512/csvsimple-csvautotabular-and-csvautobooktabular-with-centered-columns-content
6. Pabeigt Ievadu, SLR, Metodoloģijas daļas
7. Papildināta terminu vārdnīca: http://share.yellowrobot.xyz/quick/2023-3-23-75FFFD5B-C006-4A0B-A7A4-6AE08F5C5253.html