2024-Q4-AI-LV-Business 7. Audio and Balss modeļi

7.1. Video / Materiāli (29 Jan 2025 18:00)

Video: https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.figma.com/board/FWC8VpJTVEEYBUN2tHttAM/2024-Q4-AI-LV-Business-7.-Audio-and-Balss-mode%C4%BCi?node-id=0-1&t=J7aHzpWjk4m1dIn5-1

Iedotas edit tiesības Gustavs.Evalds@rtu.lv

7.2. Izmēģināt TTS un STT rīkus

Uzdevums:

Atrodi jaunumos rakstu ar vienu rindkopu vietnē https://www.perplexity.ai/discover
Izmanto Elevenlabs vai RunwayML, lai ģenerētu ierunātu audio no jaunumu raksta
Izmanto Lipsync rīku RunwayML, lai ģenerētu video ar runājošu ģenerēto audio kā mp4 video
Augšupielādē mp4 video platformā subkick, izmantojot iestatījumus (kā redzams ekrānuzņēmumā). Nosauc to ar savu vārdu, norādi subtitru runāto valodu (nevis tulkojuma valodu). SRT ir biežs subtitru formāts
Pagaidi apstrādi (tas var aizņemt līdz stundas laikam, atkarībā no video garuma) un iesniedz ekrānuzņēmumus

https://subkick.com u: student@student.lv p: utwEPuEnh1nrqkn8J7or

Uzstādījumu piemērs

Wait for processing

View results and send screenshot

Iepriekšējās lekcijas piemērs

Video: https://youtube.com/live/089-gjtTFsA?feature=share

Whiteboard: https://www.canva.com/design/DAGZe38sM6k/Old08f2JA-HWWZQeT14HQQ/view?utm_content=DAGZe38sM6k&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h008f8a57e5

Saturs

Izstāstīt par audio signālu kā tādu, ka tas ir 1D laika rindas signāls
Izstāstīt par to kādi parasti ir ievades un izvades dati audio modeļiem

Ievades dati:

Time Domain - Var deomnstrēt audio signālu ar Audacity, Pastāstīt par Mono, Stereo un citiem raksturlielumiem, ko tie nozīmē un kā ietekmē kvalitāti - būtu labi iedot paklausīties audio piemērus:
1. Sample rate, jeb frekvence (4kHz Rācija, 8kHz telefons, 16kHz mūzika)
2. Bitrate un resolution Int32, Int16, Int8 (signāls nav analogs bet sastāv no diskrētiem lēcieniem)
Audio envelopes
Frequency domain - Spectra
Short-time Fourier Transform
Video kā strādā: https://www.youtube.com/watch?v=-Yxj3yfvY-4&t=495s
https://www.originlab.com/doc/Tutorials/STFT
Mel Spectra filters
Filtri kuri imitē cilvēka ausi
MFCC
Text

Izvaded dati:

STT, ASR (Text)
TTS (Audio)
VoiceID runātāju atpazīšana
Trokšņu noņemšana, runas kvalitātes uzlabošana (Audio)
Balss, Mūzikas pārveidošana (Audio)
Akcentu noņemšana (Audio)
Ģenerēta mūzika (Audio)

Pielietojumi

PitchPatterns zvanu centru sistēmas, kvalitātes kontrole, motivācijas un automatizācijas. Klientu apkalpošanas automatizācija zvanos.
prezentācija un demo:
https://share.yellowrobot.xyz/quick/2025-1-25-FDB1C0C7-000C-415E-9E0C-D24B94632470.pdf

Audio piemēri home page:
https://www.pitchpatterns.com/en

Audio piemēri home page:
https://dev.pitchpatterns.com/conversation/3670662/frozen/1734958548.805196

Funkcijas:
1. Runātāju atpazīšana
2. Automātiska valodas atpazīšaNA
3. Transkripts 10+ valodās (īpaši Baltijas valodās)
4. Tēmu atpazīšana no transkripta
5. Kopsavilkumi
6. Emociju atpazīšana
7. Omni-kanāla komunikācija Telegram, Whatsapp, Epasts, Telefons vienuviet
8. Robotzvani
9. Darbinieku motivācijas sistēma
🔴 Pievienot onepager!
Emociju atpazīšana
1. No balss toņa pēc audio
2. No teksta
Balss aktivitātes noteikšana - Voice Activity Detection (VAD), sākt procesēt balsi, tikai, kad runātājs runā
VoiceID, Speech diarization, speaker recognition - asya demo https://yellowrobot.xyz/asya_demo.html
STT (Speech to Text), ASR (Automatic Speech Recognition) , subkick examples subtitriem
1. Kaldi - vecā pieeja, ka ir Akustiskais modelis, Valodas modelis, zema precizitāte
2. Whisper - jaunā jaunā pieeja end-to-end, Augsta precizitāte rietumu valodām, Latviešu valodai vajag pielāgot modeli kā mēs to daram pitchpatterns.com
  https://github.com/openai/whisper
Sound Event Detection (SED) - Noderīgs ražotnēs, drošības sitēmās, var uzstādīt uz lētākām iekārtām
https://www.youtube.com/watch?v=QyFNIhRxFrY
Keyword Spotting - līdzīgs STT modeļi, bet var uzstādīt uz lētākām iekārātm https://www.youtube.com/watch?v=PbYO6EciPo0
TTS (Text to speech) - Balss ģenerēšanas piemēri. Noderīgi Robotzvanos, kuri dinamiski komunicē ar klientu.
1. Elevenlabs demo (Evalds iedos pieeju) ar Evalds Pro voice Angliski, Latviski
  1. https://elevenlabs.io/app/home
2. Tildes balss demo
3. Asya TTS demo (Evalss iedos pieeju) ar Balsīm Latviski
ChatGPT Voice (Speech-to-Speech models)
1. https://www.youtube.com/watch?v=vk4bG5QOoVQ
2. Speech-to-Speech modeļiem ir nopietni ierobežojumi, līdzīgi kā darbināt LLM bez RAG, jo nav iespējams pa vidu pirms atbildes ģenerēsanas savienot ar klienta datiem un kontrolēt sarunas plūsmu
Speech enhancement - Demonstēt ar kādu trokšņainu piemēru šo (labākais tirgū): https://podcast.adobe.com,
Audio piemēri Catchbox denoising examples (asya model) https://www.evernote.com/shard/s41/client/snv?isnewsnv=true¬eGuid=8a6c2f10-e154-c8e0-4dbc-fa74ce45767b¬eKey=99048dc6198c708de5f6744dc81a5c37&sn=https%3A%2F%2Fwww.evernote.com%2Fshard%2Fs41%2Fsh%2F8a6c2f10-e154-c8e0-4dbc-fa74ce45767b%2F99048dc6198c708de5f6744dc81a5c37&title=%25F0%259F%258E%25A7%2BCatchbox%2Bsamples%2Bdenoised%2B-%2B9%2BSeptember%2B2021
Parādī Kirsp.ai demo: https://www.youtube.com/watch?v=ILfTrUreS00
Voice conversion, Accent removal: https://www.youtube.com/shorts/2J-62CGPN4g
Atrast vēl kādu piemēru
Music Transcription
1. ChordAI transcription
2. https://www.youtube.com/watch?v=mkwZ48ZuUqE
3. https://youtu.be/b_HrOCiQohc
4. https://klang.io/piano2notes/
5. Atrast vēl kādu piemēru
Isolate music instruments, tracks
1. https://www.youtube.com/watch?v=ue7gLw4Nmyg&t=160s
2. https://www.lalal.ai/
3. Atrast vēl kādu piemēru
AI generated music, sheet music and direct audio. https://www.xxlmag.com/a-i-hip-hop-songs/
1. Atrast vēl kādu piemēru