Izvēlēties un lejupielādēt validācijas testa kopu STT English (piemēram Mozzila Common Speech, LibriSpeech)
Libri-Light
LibriSpeech - https://paperswithcode.com/dataset/librispeech
Dataset released in 2015 from audiobooks
REVERB -
VoxForge - https://paperswithcode.com/dataset/voxforge
...
VoxPopuli
CHiME - noisy far-field multi-ch conversational
TED-LIUM 3 - https://arxiv.org/abs/1805.04699
Dataset released in 2018 from ted talks
Sazināties ar Mārci (asya AI researcher) kādu mazāku angļu valodas datu kopu viņš iesaka Marcis Teodors Upenieks, +37128782204 (atsaukties uz Evaldu)
Izvēlēties gala metriku un saprogrammēt vienu vai vairākas NISQA, CER
API pieeja TTS, lai varētu pārbaudīt CER, WER
API key: 39dfef49-92a2-47c6-94d9-2ff81381526e
Nosūta requests ar POST . http://api.asya.ai/docs
/task_submit
Ja viens runātājs uzliec:
known_and_unknown_users_count = 1
language_codes: ['en'] (citus params nelietot šim lūdzu, piemēram, šo nelietot language_code)
features jābūt:
audio_denoise
audio_diarisation (arī ja speaker =1)
audio_text
text_grammar (testē ar un bez)
pēc tam /task_status
Izpilde vienam task var prasīt 10-30min, tāpēc uztaisi skriptu, kas fonā palaiž vairākus, vēlams reizē par kadiem 100 nelaist, lai mūsu API nepārslogotu
Inferencē palaist:
Datu kopa -> gTTS, ViTS -> Metrics
Dokumentēt rezultātus
Sagalabāt audio paraugus kvalitatīvai salīdzināšanai
Veikt rakstu darbus:
Priekš Latex tabulām izmantot - Excel2Latex /tables/slr_1.text
Ievads (bez apakš nodaļām) - 1lpp
Super vienkāršots ievads
Mērķis
Veikt sistemātisko zinātniskās literatūras analīzi un salīdzinājumu starp runas ģenerēšanas modeļiem angļu valodā
Uzdevumi
Iepazīties ar runas ģenerēšanas modeļiem, kuri nebalstās dziļajā māšinmācīšanā
Iepazīties nebalstās dziļajā māšinmācīšanās
…
Datu kopas apraksts (histogrammas vārdiem utt)
Sistemātiskā literatūras analīze
Dokumentēt - Kāds ir uzdevums Monotonic Alignement Search? Izskaidrot ko dara nevis kā strādā precīzi - Kā nosaka score? Katra kolona, rows
Mel Spec