Mūsu modelis (balstīts uz mūsu pašu anotētiem un ievāktiem datiem 172h)
Primāri telefonu sarunu dati ar sliktu kvalitāti un izrunu
ASR / STT:
10 GB GPU RAM
1.5m parameters
Balstīts uz modificētas Whisper arhitektūras
Speech enhancment modelis: Pirms STT ieliekam modeli, kas satīra audio, to jau izstrādājām gadu atpakaļ, labāks kā krisp.ai
asya.ai PESQ: 2.595
krisp.ai PESQ: 2.266
asya.ai PESQ: 0.862
krisp.ai STOI: 0.823
Our STT model metrics on PP validation set:
WER: 26 % , CER: 12 %
Tilde STT API metrics on PP validation set:
WER: 44 %
CER: 25 %
Kā var redzēt mūsu modelis dod ievērojami labākus rezultātus un nav Kaldi izraisītie defekti ar encoding.
Sample 1:
Real text:
jau tā jums gribu informēt ka man ir viss sagādāts jau kas man ir vai cik jauki un nevajag paldies vai cik jauki
Our model:
labi es jums gribu informēt ka man ir viss sagādāts jo tas man ir tik jauki man neko nevajag paldies lai cik jauki
WER: 39 %
CER: 18 %
Tilde:
ja tā ir informēta ka man nevis visam strādā cilvēki kas man ir vajadzīgi sia balteneko nevajag šaubīties cik jauki
WER: 61 %
CER: 46 %
Sample 2:
Real text:
kad tāds un ko jūs pati vēlētos stiprināt vai atbalstīt savā veselībā
Our model:
tātad ko jūs pati vēlētos stiprināt vai atbalstīt savā veselībā
WER: 25 %
CER: 13 %
Tilde:
kad sāc karjeru pati vēlētos stiprināt tajā stāstīts par nepilnībām
WER: 66 %
CER: 39 %
Sample 3:
Real text:
aha saprotu labi tad nekavēšu jūs visu labu jauku dienu jums
Our model:
saprotu labi tad nekavēšu jūs visu labu jauku dienu jums
WER: 11 %
CER: 8 %
Tilde:
es saprotu labi tad nekavējoši visa laba jauka diena jums
WER: 55 %
CER: 20 %
Sample 4:
Real text:
jums zvana anna no helvetia dm vai runāju ar vitu
Our model:
jums zvana anna no helvetia dm vai runāju ar
WER: 10 %
CER: 10 %
Tilde:
anna vecie vara uzvä�rdi
WER: 89%
CER: 71 %
Sample 5:
Real text:
jā tad ē nākamreiz kad sazināsimies varēsim tad piefiksēt arī epastu
Our model:
jā tad nākamreiz tad sazināsimies varēsim tad pieskicēt arī epastā
WER: 35 %
CER: 11 %
Tilde:
tad nākamreiz sazināsimies tad piefiksēta arī ēka
WER: 54 %
CER: 36 %
Sample 6:
Real text:
jums zvana agija no indekso pensijas pārvaldītāja zvanu par otro pensijas līmeni
Our model:
jums zvana agija no indekso pensijas pārvaldītāja zvana par otro pensijas līmeni
WER: 8 %
CER: 1 %
Tilde:
ja ēka ieroindeksēt pensiju pārvaldītājus par otro pensiju līmeni
WER: 75%
CER: 33 %
Sample 7:
Real text:
jums zvana anna no helvetia dm vai runāju ar zani
Our model:
jums zvana anna no helvetia dm vai runāju ar zani
WER: 0 %
CER: 0 %
Tilde:
jums zvana no šo vecie em vai runā zane
WER: 69%
CER: 32 %
Sample 8:
Real text:
jā jā ļoti patīkami prieks jūs dzirdēt
Our model:
jā jā ļoti patīkami prieks jūs dzirdēt
WER: 0 %
CER: 0 %
Tilde:
jā nu jā ļoti patīkams skriet
WER: 83%
CER: 60 %