2023-11-23 - Meeting #13

 

 

TODO

  1. Izvēlēties un lejupielādēt validācijas testa kopu STT English (piemēram Mozzila Common Speech, LibriSpeech)

  2. Izvēlēties gala metriku un saprogrammēt vienu vai vairākas NISQA, CER

  3. API pieeja TTS, lai varētu pārbaudīt CER, WER API key: 39dfef49-92a2-47c6-94d9-2ff81381526e

    Nosūta requests ar POST . http://api.asya.ai/docs /task_submit

    Ja viens runātājs uzliec:

    • known_and_unknown_users_count = 1

    • language_codes: ['en'] (citus params nelietot šim lūdzu, piemēram, šo nelietot language_code)

    • features jābūt:

      • audio_denoise

      • audio_diarisation (arī ja speaker =1)

      • audio_text

      • text_grammar (testē ar un bez)

    pēc tam /task_status

    Izpilde vienam task var prasīt 10-30min, tāpēc uztaisi skriptu, kas fonā palaiž vairākus, vēlams reizē par kadiem 100 nelaist, lai mūsu API nepārslogotu

  4. Inferencē palaist:

    1. Datu kopa -> gTTS, ViTS -> Metrics

    2. Dokumentēt rezultātus

    3. Sagalabāt audio paraugus kvalitatīvai salīdzināšanai

  5. Veikt rakstu darbus:

    1. Priekš Latex tabulām izmantot - Excel2Latex /tables/slr_1.text

    2. Ievads (bez apakš nodaļām) - 1lpp

      • Super vienkāršots ievads

      • Mērķis

        • Veikt sistemātisko zinātniskās literatūras analīzi un salīdzinājumu starp runas ģenerēšanas modeļiem angļu valodā

      • Uzdevumi

        • Iepazīties ar runas ģenerēšanas modeļiem, kuri nebalstās dziļajā māšinmācīšanā

        • Iepazīties nebalstās dziļajā māšinmācīšanās

    3. Datu kopas apraksts (histogrammas vārdiem utt)

    4. Sistemātiskā literatūras analīze

  1. Dokumentēt - Kāds ir uzdevums Monotonic Alignement Search? Izskaidrot ko dara nevis kā strādā precīzi - Kā nosaka score? Katra kolona, rows Mel Spec image-20231025183307423