2023-09-11 AI Marcis Tasks

TODO:

API fixes deploy
Apmācīt jaunos modēļus
- Intent classification (open questions)
- LV->EN, EN-LV
- LT STT
LT sarunas nedzēst uz API, saglabāt uzreiz sagrieztā WAV + transkripta formātā
Atrast metriku, lai novērtētu rephrasing modeļus (Amir?)
Izveidot validation kopu, manuāli atlastot 100 atvērtos un 100 aizvērtos jautājumus
- Veikt prompt engineering research balstoties uz guidelines: http://share.yellowrobot.xyz/quick/2023-9-11-F1B1EF12-EC43-40FC-B3FD-8AC486BC8196.html
- Dokumentēt rezultātus
- ^ šo arī Amir varētu?
Amir: Atrast LV, LT, ES (Estonian) to English translation competions, STT competitions LV, LT, ES
Amir: Research turpināt meklēt Summarization, Rephrase models
Mārcim - Izveidot text_summarization
- Pievienot pie conversation_result:
  - { 'text_summary': '' }
- EN: Summarization
- LV: LV-> EN, Summarization, EN-> LV (pēc tam, kad notestēsim šādā veidā nākamais būs apmācīt uz mined datu kopas LV summarization)
- LT, RU (Google translate pagaidām)
Mārcim - Gramatiņš API update
- Piedāvāt arhitektūras plānojumu, kur būtu šāds flow (taisīsim jaunā GIT repo ārpus PP api)
- Postgres izskatās labāks kā citi risinājumi tomēr: https://www.cybertec-postgresql.com/en/postgresql-vs-redis-vs-memcached-performance/
- Jāparedz, ka būs uz viena šāda servera vairāki text_grammar, text_sentiment, text_summarization workeri, bet DB pieliks uzreiz assignment balstoties uz workeru pieejamību bez coordinator, lai paātrinātu darbību
- Doma, ka savāc batch 0.5sek laikā cik vien pieejami requests un reizē aizsūta uz GPU, ja nav jaunu requests, tad uzreiz aizsūta, mērķis dabūt client atpakaļ atbildi vēlākais 2-3sek laikā
- Vēlāk pieliksim load balancer, kurš klientus nosūtīs uz dažādām šādām nodēm un saglabās savienujumu sesijas ietvaros ar izvēlēto nodi
- User subscription / login status pārbaudīs tikai vienu reizi sessijas laikā
- Iespējamais plānojums:
- Jaunais github: https://github.com/asya-ai/api_gramatins