Varbūt labāk izveidot datu kopu no 3 citām bet ar ~50 runātājiem?
Izmantojam
Ļoti līdzīgs darbs, bet nav tāds pats, jo netika apmācīti STT modeļi
https://arxiv.org/pdf/2212.09730.pdf
Voice Conv experiment izmantot tīro VCTK Priekš denoiser varēs šo izmantot DR-VCTK
Cik saprotu ir 2 GPU.. kā var palaist uz 2.? Es uztaisīju 2 screenus bet viņi abi laikam izpildīja uz 1? (Jo otram bija 0% usage)
CUDA_VISIBLE_DEVICES=1 python ./main.py
CUDA_VISIBLE_DEVICES=0,1 python ./main.py
Mel-spectogram? latviski?
Mela spektrogramma
To kas ir pie "Izmantotā literatūrā" un atsauces labošana?
RTU formatējums mainījies
https://www.overleaf.com/learn/latex/Biblatex_bibliography_styles
🔴 Egona studenta piemērs darbam (Ievada piemērs, citas sadaļas gan vāji uztaisītas): http://share.yellowrobot.xyz/quick/2023-3-9-82FA9D39-EBFE-4272-A158-814B2D62A815.pdf
Ievadu viņi grib citādāku!
Apjoms:
50% - 2 nedēļām - 25
75% - 4 nedēļām - 40
50-80 lpp
Ievads (bez apakš nodaļām) - 1lpp
Super vienkāršots ievads
Uzdevumi
Mērķi
Saistītie pētījumi - 15lpp
Metodoloģija - 15 lpp
Datu kopa
Apmācību un testēšanas protokls
Shēma kā tiks apmācīts un testēts rezultāts
Metrikas
Modeļu arhitektūras
Modeļu shemas
Rezultāti - 10 lpp
Tabulas
Loss / metric plots
Candle / Distribution plots
Conf matrices
Tālākie pētījumi - 1lpp
Secinājumi - 1lpp
Nomērīt WER un CER ar priekšapmācītu Medium/Small Whisper uz English datu kopai, kurai nav veiktas modifākcijas.
104 + 5
https://github.com/OlaWod/FreeVC
Plāns:
Inference Whisper WER, CER uz VCTK
“normalizācijas metode” - VC uz 5 no VCTK (train/test split) - VC-VCTK-P1, VC-VCTK-P2, VC-VCTK-P3 .. VC-VCTK-P5
Full model - Fine Tune Whisper uz visiem VCTK (train/test split)
Fine Tune VC-VCTK-P1, VC-VCTK-P2
Inference WER, CER permutāciju eksperimenti (pieltojam “normalizācijas metode”)
VC
Pēc 2 nedēļām:
Sagatavot vajadzīgo teksta apjomu pēc struktūras kuru sūtiju
Dabūt pirmo fine-tunned modeli
GIT repo uzaicinājumu atsūtīt