2024-Q4-AI-LV-Business 7. Audio and Balss modeļi

 

7.1. Video / Materiāli (29 Jan 2025 18:00)

Video: https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.figma.com/board/FWC8VpJTVEEYBUN2tHttAM/2024-Q4-AI-LV-Business-7.-Audio-and-Balss-mode%C4%BCi?node-id=0-1&t=J7aHzpWjk4m1dIn5-1

Iedotas edit tiesības Gustavs.Evalds@rtu.lv

 

7.2. Izmēģināt TTS un STT rīkus

Uzdevums:

  1. Atrodi jaunumos rakstu ar vienu rindkopu vietnē https://www.perplexity.ai/discover

  2. Izmanto Elevenlabs vai RunwayML, lai ģenerētu ierunātu audio no jaunumu raksta

  3. Izmanto Lipsync rīku RunwayML, lai ģenerētu video ar runājošu ģenerēto audio kā mp4 video

  4. Augšupielādē mp4 video platformā subkick, izmantojot iestatījumus (kā redzams ekrānuzņēmumā). Nosauc to ar savu vārdu, norādi subtitru runāto valodu (nevis tulkojuma valodu). SRT ir biežs subtitru formāts

  5. Pagaidi apstrādi (tas var aizņemt līdz stundas laikam, atkarībā no video garuma) un iesniedz ekrānuzņēmumus

https://subkick.com u: student@student.lv p: utwEPuEnh1nrqkn8J7or

Uzstādījumu piemērs

Wait for processing

image-20241223210326203

View results and send screenshot image-20241223230159587

image-20241223230206547

 

 


Iepriekšējās lekcijas piemērs

Video: https://youtube.com/live/089-gjtTFsA?feature=share

Whiteboard: https://www.canva.com/design/DAGZe38sM6k/Old08f2JA-HWWZQeT14HQQ/view?utm_content=DAGZe38sM6k&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h008f8a57e5


Saturs

  1. Izstāstīt par audio signālu kā tādu, ka tas ir 1D laika rindas signāls

    image-20241223181044435

    image-20241223181117672

     

  2. Izstāstīt par to kādi parasti ir ievades un izvades dati audio modeļiem

Ievades dati:

Izvaded dati:

 

Pielietojumi

  1. PitchPatterns zvanu centru sistēmas, kvalitātes kontrole, motivācijas un automatizācijas. Klientu apkalpošanas automatizācija zvanos.

    prezentācija un demo:

    https://share.yellowrobot.xyz/quick/2025-1-25-FDB1C0C7-000C-415E-9E0C-D24B94632470.pdf

     

    Audio piemēri home page:

    https://www.pitchpatterns.com/en

     

    Audio piemēri home page:

    https://dev.pitchpatterns.com/conversation/3670662/frozen/1734958548.805196

     

    Funkcijas:

    1. Runātāju atpazīšana

    2. Automātiska valodas atpazīšaNA

    3. Transkripts 10+ valodās (īpaši Baltijas valodās)

    4. Tēmu atpazīšana no transkripta

    5. Kopsavilkumi

    6. Emociju atpazīšana

    7. Omni-kanāla komunikācija Telegram, Whatsapp, Epasts, Telefons vienuviet

    8. Robotzvani

    9. Darbinieku motivācijas sistēma

     

    🔴 Pievienot onepager!

     

  2. Emociju atpazīšana

    1. No balss toņa pēc audio image-20250125131811620

    2. No teksta

      image-20241223173242375

       

  3. Balss aktivitātes noteikšana - Voice Activity Detection (VAD), sākt procesēt balsi, tikai, kad runātājs runā

  4. VoiceID, Speech diarization, speaker recognition - asya demo https://yellowrobot.xyz/asya_demo.html

    image-20250125132029106

     

  5. STT (Speech to Text), ASR (Automatic Speech Recognition) , subkick examples subtitriem

    1. Kaldi - vecā pieeja, ka ir Akustiskais modelis, Valodas modelis, zema precizitāte image-20241223172720537

    2. Whisper - jaunā jaunā pieeja end-to-end, Augsta precizitāte rietumu valodām, Latviešu valodai vajag pielāgot modeli kā mēs to daram pitchpatterns.com

      https://github.com/openai/whisper image-20241223165442698

      image-20241223172849533

  6. Sound Event Detection (SED) - Noderīgs ražotnēs, drošības sitēmās, var uzstādīt uz lētākām iekārtām

    https://www.youtube.com/watch?v=QyFNIhRxFrY image-20250125132243235

  7. Keyword Spotting - līdzīgs STT modeļi, bet var uzstādīt uz lētākām iekārātm https://www.youtube.com/watch?v=PbYO6EciPo0

    image-20250125132439519

  8. TTS (Text to speech) - Balss ģenerēšanas piemēri. Noderīgi Robotzvanos, kuri dinamiski komunicē ar klientu.

    1. Elevenlabs demo (Evalds iedos pieeju) ar Evalds Pro voice Angliski, Latviski

      1. https://elevenlabs.io/app/home

    2. Tildes balss demo

    3. Asya TTS demo (Evalss iedos pieeju) ar Balsīm Latviski image-20250125133623463

  9. ChatGPT Voice (Speech-to-Speech models)

    1. https://www.youtube.com/watch?v=vk4bG5QOoVQ

    2. Speech-to-Speech modeļiem ir nopietni ierobežojumi, līdzīgi kā darbināt LLM bez RAG, jo nav iespējams pa vidu pirms atbildes ģenerēsanas savienot ar klienta datiem un kontrolēt sarunas plūsmu image-20250125132814167

  10. Speech enhancement - Demonstēt ar kādu trokšņainu piemēru šo (labākais tirgū): https://podcast.adobe.com,

    Audio piemēri Catchbox denoising examples (asya model) https://www.evernote.com/shard/s41/client/snv?isnewsnv=true¬eGuid=8a6c2f10-e154-c8e0-4dbc-fa74ce45767b¬eKey=99048dc6198c708de5f6744dc81a5c37&sn=https%3A%2F%2Fwww.evernote.com%2Fshard%2Fs41%2Fsh%2F8a6c2f10-e154-c8e0-4dbc-fa74ce45767b%2F99048dc6198c708de5f6744dc81a5c37&title=%25F0%259F%258E%25A7%2BCatchbox%2Bsamples%2Bdenoised%2B-%2B9%2BSeptember%2B2021

    Parādī Kirsp.ai demo: https://www.youtube.com/watch?v=ILfTrUreS00

  11. Voice conversion, Accent removal: https://www.youtube.com/shorts/2J-62CGPN4g

    Atrast vēl kādu piemēru

  12. Music Transcription

    1. ChordAI transcription

    2. https://www.youtube.com/watch?v=mkwZ48ZuUqE

    3. https://youtu.be/b_HrOCiQohc

    4. https://klang.io/piano2notes/

    5. Atrast vēl kādu piemēru

  13. Isolate music instruments, tracks

    1. https://www.youtube.com/watch?v=ue7gLw4Nmyg&t=160s

    2. https://www.lalal.ai/

    3. Atrast vēl kādu piemēru

  14. AI generated music, sheet music and direct audio. https://www.xxlmag.com/a-i-hip-hop-songs/

    1. Atrast vēl kādu piemēru

 


 

 

Untitled (201)