Video: https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048
Iedotas edit tiesības Gustavs.Evalds@rtu.lv
Uzdevums:
Atrodi jaunumos rakstu ar vienu rindkopu vietnē https://www.perplexity.ai/discover
Izmanto Elevenlabs vai RunwayML, lai ģenerētu ierunātu audio no jaunumu raksta
Izmanto Lipsync rīku RunwayML, lai ģenerētu video ar runājošu ģenerēto audio kā mp4 video
Augšupielādē mp4 video platformā subkick, izmantojot iestatījumus (kā redzams ekrānuzņēmumā). Nosauc to ar savu vārdu, norādi subtitru runāto valodu (nevis tulkojuma valodu). SRT ir biežs subtitru formāts
Pagaidi apstrādi (tas var aizņemt līdz stundas laikam, atkarībā no video garuma) un iesniedz ekrānuzņēmumus
https://subkick.com u: student@student.lv p: utwEPuEnh1nrqkn8J7or
Uzstādījumu piemērs
Wait for processing
View results and send screenshot
Video: https://youtube.com/live/089-gjtTFsA?feature=share
Izstāstīt par audio signālu kā tādu, ka tas ir 1D laika rindas signāls
Izstāstīt par to kādi parasti ir ievades un izvades dati audio modeļiem
Ievades dati:
Time Domain - Var deomnstrēt audio signālu ar Audacity, Pastāstīt par Mono, Stereo un citiem raksturlielumiem, ko tie nozīmē un kā ietekmē kvalitāti - būtu labi iedot paklausīties audio piemērus:
Sample rate, jeb frekvence (4kHz Rācija, 8kHz telefons, 16kHz mūzika)
Bitrate un resolution Int32, Int16, Int8 (signāls nav analogs bet sastāv no diskrētiem lēcieniem)
Audio envelopes
Frequency domain - Spectra
Short-time Fourier Transform
Video kā strādā: https://www.youtube.com/watch?v=-Yxj3yfvY-4&t=495s
https://www.originlab.com/doc/Tutorials/STFT
Mel Spectra filters
Filtri kuri imitē cilvēka ausi
MFCC
Text
Izvaded dati:
STT, ASR (Text)
TTS (Audio)
VoiceID runātāju atpazīšana
Trokšņu noņemšana, runas kvalitātes uzlabošana (Audio)
Balss, Mūzikas pārveidošana (Audio)
Akcentu noņemšana (Audio)
Ģenerēta mūzika (Audio)
PitchPatterns zvanu centru sistēmas, kvalitātes kontrole, motivācijas un automatizācijas. Klientu apkalpošanas automatizācija zvanos.
prezentācija un demo:
https://share.yellowrobot.xyz/quick/2025-1-25-FDB1C0C7-000C-415E-9E0C-D24B94632470.pdf
Audio piemēri home page:
https://www.pitchpatterns.com/en
Audio piemēri home page:
https://dev.pitchpatterns.com/conversation/3670662/frozen/1734958548.805196
Funkcijas:
Runātāju atpazīšana
Automātiska valodas atpazīšaNA
Transkripts 10+ valodās (īpaši Baltijas valodās)
Tēmu atpazīšana no transkripta
Kopsavilkumi
Emociju atpazīšana
Omni-kanāla komunikācija Telegram, Whatsapp, Epasts, Telefons vienuviet
Robotzvani
Darbinieku motivācijas sistēma
🔴 Pievienot onepager!
Emociju atpazīšana
No balss toņa pēc audio
No teksta
Balss aktivitātes noteikšana - Voice Activity Detection (VAD), sākt procesēt balsi, tikai, kad runātājs runā
VoiceID, Speech diarization, speaker recognition - asya demo https://yellowrobot.xyz/asya_demo.html
STT (Speech to Text), ASR (Automatic Speech Recognition) , subkick examples subtitriem
Kaldi - vecā pieeja, ka ir Akustiskais modelis, Valodas modelis, zema precizitāte
Whisper - jaunā jaunā pieeja end-to-end, Augsta precizitāte rietumu valodām, Latviešu valodai vajag pielāgot modeli kā mēs to daram pitchpatterns.com
https://github.com/openai/whisper
Sound Event Detection (SED) - Noderīgs ražotnēs, drošības sitēmās, var uzstādīt uz lētākām iekārtām
Keyword Spotting - līdzīgs STT modeļi, bet var uzstādīt uz lētākām iekārātm https://www.youtube.com/watch?v=PbYO6EciPo0
TTS (Text to speech) - Balss ģenerēšanas piemēri. Noderīgi Robotzvanos, kuri dinamiski komunicē ar klientu.
Elevenlabs demo (Evalds iedos pieeju) ar Evalds Pro voice Angliski, Latviski
Tildes balss demo
Asya TTS demo (Evalss iedos pieeju) ar Balsīm Latviski
ChatGPT Voice (Speech-to-Speech models)
Speech-to-Speech modeļiem ir nopietni ierobežojumi, līdzīgi kā darbināt LLM bez RAG, jo nav iespējams pa vidu pirms atbildes ģenerēsanas savienot ar klienta datiem un kontrolēt sarunas plūsmu
Speech enhancement - Demonstēt ar kādu trokšņainu piemēru šo (labākais tirgū): https://podcast.adobe.com,
Audio piemēri Catchbox denoising examples (asya model) https://www.evernote.com/shard/s41/client/snv?isnewsnv=true¬eGuid=8a6c2f10-e154-c8e0-4dbc-fa74ce45767b¬eKey=99048dc6198c708de5f6744dc81a5c37&sn=https%3A%2F%2Fwww.evernote.com%2Fshard%2Fs41%2Fsh%2F8a6c2f10-e154-c8e0-4dbc-fa74ce45767b%2F99048dc6198c708de5f6744dc81a5c37&title=%25F0%259F%258E%25A7%2BCatchbox%2Bsamples%2Bdenoised%2B-%2B9%2BSeptember%2B2021
Parādī Kirsp.ai demo: https://www.youtube.com/watch?v=ILfTrUreS00
Voice conversion, Accent removal: https://www.youtube.com/shorts/2J-62CGPN4g
Atrast vēl kādu piemēru
Music Transcription
ChordAI transcription
Atrast vēl kādu piemēru
Isolate music instruments, tracks
Atrast vēl kādu piemēru
AI generated music, sheet music and direct audio. https://www.xxlmag.com/a-i-hip-hop-songs/
Atrast vēl kādu piemēru