Git:
https://github.com/Betija13/Bakalaura_darbs_kods
VCTK datu kopa ar original Whisper strādā labāk kā pēc fine-tunning uz visa veida paraugiem (šobrīd fokusējamies uz salīdzinājumu tikai starp mūsu pašu apmācītajiem modeļiem, vēlāk noskaidrosim kā piedzīt rezultātu)
Inferencē ievākt WER, CER tieši arī uz paša traget samples un target models, balstoties uz reālajiem paraugiem, piem. priekš p269
Dokumentēt un uzmanīgi implementēt eksperimentu, lai noteiktu kurām no balsīm iekš VCTK voice conversion strādā labāk https://github.com/asya-ai/asya-master-api
controller_diarization.py kā voiceID embeddings izmantot šo:
x1checkpoint_path = "../pretrained_models/audio_diarisation/EncoderClassifier"
2 FileUtils.createDir(checkpoint_path)
3 self.speech_brain_1 = EncoderClassifier.from_hparams(
4 source="speechbrain/spkrec-ecapa-voxceleb",
5 run_opts={"device": args.device},
6 savedir=checkpoint_path
7 )
Puseodo code ekspermentam, kas ir jāvēic:
original samples p269 => pre-trained voiceid => speaker embeddings => median(Z_real, 1)
original samples all - p269 => pre-trained voiceid => speaker embeddings => median(Z_other, 1)
original samples all - p269 => voice conv_version(p269) => pre-trained voiceid => speaker embeddings => median(Z_conv, 1)
dist_cos_other = 1 + cos_sim(Z_real, Z_oth)
dist_cos_conv = 1 + cos_sim(Z_real, Z_conv)
Piemērs formulai, kas noteiktu cik labs paraugs: score_p = 0.5 * dist_cos_other + 2 - dist_cos_conv
dist_cos_other - cik balss ir atšķirīga no vidējās balss datu kopā
dist_cos_conv - cik labi strādā voice conversion konkrētai balsij
Dokumentēt rezultātus katram Person iekš VCTK un izvēlēties top5 ar lielāko score_p, JO mēs gribam, lai pārveidotā balss pēc iespējas atškirtos no vidēji visām balsīm datasetā, lai var iegūt ievērojamāku rezultātu
Pārliecināties Seq2SeqTrainer ielādē un saglabā optimizer svarus (nevis paša modeļa tikai):
Lai būtu droši, ka fine-tunning sākas ar whisper optimizer pozīciju, jo tad, ja sākam no whisper ar ZEMU LR (iespējams pa augstu tagad), tad CER nevajadzētu samazināties. Noskaidro no Mārča kā viņam mainās CER pie fine tunning un kā uzlabot situāciju
Saglabāt svarus, lai ja nobrūk apmācība var atjaunot apmācības procesu
Kad abas problēmas 1 un 2 atrisinātas apmācīt pa jaunu fine-tunning modeli uz runātājiem
Teksta darbi:
https://github.com/openai/whisper/discussions/486 - neizmanto CTC, bet gan CCE loss, jo tiek izmantoti pus-vārdu tokens nevis burti STT outputā
Atsauču veidošanai izmantot https://www.zotero.org
Excel export macros (add-ins) https://ctan.org/pkg/excel2latex?lang=en
Sadalīt SLR multi tabulās - katra tabula par konkrētu salīdzinājumu
Var pagriezt lapu \begin{landscape}
csvautotabular formatting iespējas https://tex.stackexchange.com/questions/292512/csvsimple-csvautotabular-and-csvautobooktabular-with-centered-columns-content
Pabeigt Ievadu, SLR, Metodoloģijas daļas
Papildināta terminu vārdnīca: http://share.yellowrobot.xyz/quick/2023-3-23-75FFFD5B-C006-4A0B-A7A4-6AE08F5C5253.html