2023-09-27 Word Cloud Task #1

 

  1. Kodu iepušot šajā GIT https://github.com/asya-ai/word-cloud-demo

  2. Nepieciešams izveidot Web sistēmu, kas klausās konferences livestream un iegūst Vārdu bubuļus par biežak izmantotajiem vārdiem konferencē

  3. Nepieciešams implementēt 2 workers

    1. RTMP server, kas saņem audio latviešu valodā (izmanto OBS vai kādu citu rīku, lai testētu streamot audio)

    2. Flask based app, kas attēlo vārdu mākoni kā Web app (sākotnēji debug režīmā uztaisi arī, ka var redzēt transcript)

  4. RTMP worker

    1. Izveidot RTMP server un WAV decoder - https://www.perplexity.ai/search/example-python-rtmp-N1ZAgS4bTjCAefMLb7uVnQ?s=c (ja kaut kas nesanāk uzreiz zvani Evaldam)

    2. WAV saglabāt ik pa 30 sek. un nosūtīt uz asya API

    3. audio faili tiek nosūtīti uz API ari HTTP POST /task_submit (nepieciešams aizpildīt pēc iespējas vairāk parametrus, sākotnēji lūdzu sūti tikai features: audio_denoise, audio_diarization, audio_text; obligāti sūtīt arī language_codes: ['en'] un known_user_ids: [1]) - vēlāk uzliksim 'lv' - šis kā konstantes

    4. Iegūto JSON un WAV tu vari ielikt šajā toolī un palaist kā visual debugging (šo rīku nevajag iekodēt, app, bet tas tev palīdzēs saprast vai pareizi izmantots) http://share.yellowrobot.xyz/quick/2023-9-27-1F4EEE0A-ECFB-47DD-930B-46EDF4F25A05.zip image-20230920140340101

    5. Rezultātus no katra chunk vajag strukturizēt un saglābāt SQLLite file based datu bāzē (to arī pievienot git)

    6. Datu struktūra datu bāzē varētu būt aptuveni šāda (source filenames kā UUID4)

      words
      word_id: PK
      source_filename: varchar[500]
      word: varchar[200]
      language: varchar[3]
      created: datestamp
      words_stats
      words_stat_id: PK
      word_id: FK
      count: 0
      1. Abas tabulas aizpilda workeris, bet Flask based app tikai lasa!

  5. Flask based app, apmēram izskatās šādi (atrodi JS, CSS based library, kura zīmē šādus grafikus, ja nav tad netērē uz to laiku, primāri sakodēt RTMP worker) image-20230927125322130