2023-02-17 asya.ai STT

 

Dati

Mūsu modelis (balstīts uz mūsu pašu anotētiem un ievāktiem datiem 172h)

Primāri telefonu sarunu dati ar sliktu kvalitāti un izrunu

 

Modelis

 

ASR / STT:

10 GB GPU RAM

1.5m parameters

Balstīts uz modificētas Whisper arhitektūras

 

Speech enhancment modelis: Pirms STT ieliekam modeli, kas satīra audio, to jau izstrādājām gadu atpakaļ, labāks kā krisp.ai

asya.ai PESQ: 2.595

krisp.ai PESQ: 2.266

asya.ai PESQ: 0.862

krisp.ai STOI: 0.823

 

 

Rezultāti

 

Our STT model metrics on PP validation set:

WER: 26 % , CER: 12 %

 

Tilde STT API metrics on PP validation set:

WER: 44 %

CER: 25 %

 

Piemēri

Kā var redzēt mūsu modelis dod ievērojami labākus rezultātus un nav Kaldi izraisītie defekti ar encoding.

 


Sample 1:

Real text:

jau tā jums gribu informēt ka man ir viss sagādāts jau kas man ir vai cik jauki un nevajag paldies vai cik jauki

Our model:

labi es jums gribu informēt ka man ir viss sagādāts jo tas man ir tik jauki man neko nevajag paldies lai cik jauki

WER: 39 %

CER: 18 %

Tilde:

ja tā ir informēta ka man nevis visam strādā cilvēki kas man ir vajadzīgi sia balteneko nevajag šaubīties cik jauki

WER: 61 %

CER: 46 %


Sample 2:

Real text:

kad tāds un ko jūs pati vēlētos stiprināt vai atbalstīt savā veselībā

Our model:

tātad ko jūs pati vēlētos stiprināt vai atbalstīt savā veselībā

WER: 25 %

CER: 13 %

Tilde:

kad sāc karjeru pati vēlētos stiprināt tajā stāstīts par nepilnībām

WER: 66 %

CER: 39 %


Sample 3:

Real text:

aha saprotu labi tad nekavēšu jūs visu labu jauku dienu jums

Our model:

saprotu labi tad nekavēšu jūs visu labu jauku dienu jums

WER: 11 %

CER: 8 %

Tilde:

es saprotu labi tad nekavējoši visa laba jauka diena jums

WER: 55 %

CER: 20 %


Sample 4:

Real text:

jums zvana anna no helvetia dm vai runāju ar vitu

Our model:

jums zvana anna no helvetia dm vai runāju ar

WER: 10 %

CER: 10 %

Tilde:

anna vecie vara uzvä�rdi

WER: 89%

CER: 71 %


Sample 5:

 

Real text:

jā tad ē nākamreiz kad sazināsimies varēsim tad piefiksēt arī epastu

Our model:

jā tad nākamreiz tad sazināsimies varēsim tad pieskicēt arī epastā

WER: 35 %

CER: 11 %

Tilde:

tad nākamreiz sazināsimies tad piefiksēta arī ēka

WER: 54 %

CER: 36 %


Sample 6:

Real text:

jums zvana agija no indekso pensijas pārvaldītāja zvanu par otro pensijas līmeni

Our model:

jums zvana agija no indekso pensijas pārvaldītāja zvana par otro pensijas līmeni

WER: 8 %

CER: 1 %

Tilde:

ja ēka ieroindeksēt pensiju pārvaldītājus par otro pensiju līmeni

WER: 75%

CER: 33 %


Sample 7:

Real text:

jums zvana anna no helvetia dm vai runāju ar zani

Our model:

jums zvana anna no helvetia dm vai runāju ar zani

WER: 0 %

CER: 0 %

Tilde:

jums zvana no šo vecie em vai runā zane

WER: 69%

CER: 32 %


Sample 8:

Real text:

jā jā ļoti patīkami prieks jūs dzirdēt

Our model:

jā jā ļoti patīkami prieks jūs dzirdēt

WER: 0 %

CER: 0 %

Tilde:

jā nu jā ļoti patīkams skriet

WER: 83%

CER: 60 %