2023-03-09 Meeting 37

Jautājumi

Varbūt labāk izveidot datu kopu no 3 citām bet ar ~50 runātājiem?

Izmantojam

Ļoti līdzīgs darbs, bet nav tāds pats, jo netika apmācīti STT modeļi

Voice Conv experiment izmantot tīro VCTK Priekš denoiser varēs šo izmantot DR-VCTK

Cik saprotu ir 2 GPU.. kā var palaist uz 2.? Es uztaisīju 2 screenus bet viņi abi laikam izpildīja uz 1? (Jo otram bija 0% usage)

CUDA_VISIBLE_DEVICES=1 python ./main.py

CUDA_VISIBLE_DEVICES=0,1 python ./main.py

Mel-spectogram? latviski?

Mela spektrogramma

To kas ir pie "Izmantotā literatūrā" un atsauces labošana?

RTU formatējums mainījies

🔴 Egona studenta piemērs darbam (Ievada piemērs, citas sadaļas gan vāji uztaisītas): http://share.yellowrobot.xyz/quick/2023-3-9-82FA9D39-EBFE-4272-A158-814B2D62A815.pdf

Ievadu viņi grib citādāku!

Apjoms:

Nomērīt WER un CER ar priekšapmācītu Medium/Small Whisper uz English datu kopai, kurai nav veiktas modifākcijas.

104 + 5

Plāns:

Inference Whisper WER, CER uz VCTK
“normalizācijas metode” - VC uz 5 no VCTK (train/test split) - VC-VCTK-P1, VC-VCTK-P2, VC-VCTK-P3 .. VC-VCTK-P5
Full model - Fine Tune Whisper uz visiem VCTK (train/test split)
Fine Tune VC-VCTK-P1, VC-VCTK-P2
Inference WER, CER permutāciju eksperimenti (pieltojam “normalizācijas metode”)

Pēc 2 nedēļām:

GIT repo uzaicinājumu atsūtīt