2023-11-08 - Meeting #12

SLR: https://krsaulitis.notion.site/SLR-d5f432b90c8b49aa83de786c879b0a94

Github: https://github.com/krsaulitis/course-project

Atziņas:

  1. Inference https://github.com/jaywalnut310/vits (robotic)

 

TODO:

  1. SLR pāraisīt Multi-speaker kolona nevis tag, jo nevar saprast vai pielikts

  2. Atrast validācijas teksta kopu uz kuras testēt nelielu (ar ko bija apmācīti) un vienu uz kuras nebija apmācīts piemēram (Turmp tweets vai kaut kas tāds)

  3. Inferencē pārbāudīt visus modeļus (pašam klausīties vienu un otru paraugus) arī ViT2 strukturizēt Github

    1. Speaker z - jāņem no tiem, kurus viņi paši iesaka

    2. Github: /inference_test /vit.py /glow_tts.py

  4. Palaist uz paraugiem ViSQL metriku - noteikt kuri pieejamie pre-trained modeļi ir labākie

  5. Pēc tā izveidot kvalitātes kritērijus literatūrai un tabulu

  6. Pārnest tabulas iekš Overleaf - nodzēst paula saturu https://www.overleaf.com/project/654bb8edd43eb0ea752346cb

  7. Vēlams SLR rakstīt šādā veidā (vertikālas tabulas): http://share.yellowrobot.xyz/quick/2023-11-8-C8BA5CFB-675C-477E-82B8-8E9BD405488A.pdf

  8. Dokumentēt ”why latest STT research do not use WER/CER as metric?” https://www.perplexity.ai/search/list-of-typical-HoB0Aet2SP2I9Ti6azldzQ?s=c https://www.perplexity.ai/search/why-latest-STT-5rPIh1ORTG6WvJuTxDEo6g?s=c ^ Kvalitāte - robota balss

  9. Dokumentēt - ViSQL

  1. Dokumentēt - Kādā veidā tiek rēķināts “pronounciation error rate”?

image-20231025181456935

 

  1. Dokumentēt - Kāds ir uzdevums Monotonic Alignement Search? Izskaidrot ko dara nevis kā strādā precīzi image-20231025183307423

 

  1. Visa darba nodaļas

Darba struktūra:

 

 

Some of books to use:

https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf https://www.deeplearningbook.org/contents/mlp.html https://d2l.ai/d2l-en.pdf http://152.67.89.169/1629722468-deep-learning-theory

Great explanations of basic maths: http://mathproofs.blogspot.com/2006/07/dot-product-and-cosine.html