2024-10-04 AI Meeting

Krišs

Done:

TTS pārnests uz asya-1 (nav vērts hyper-param search)
Voice Conversion ieviešana

TODO:

Problēmas esošajā dataset - neprecizitātes ierakstīt => updeito mārcim
ViTS2 apmācīt
Full Dataset savest kārtībā, lai visus datus var izmantot
Robocall pipeline izveidot

Artūrs Uldis

Done:

ParkExpert
1. V3, automatic dataset mining
  1. Kameru + Modelis - 200k
  2. Tie kas nesakrīt Kamera + Modelis tiek doti uz GPT4 - 45k -> Final dabūjām -> 30k
2. GPT 10% rāda nepareizi, dod maz False Positives
FaradAI
1. SAM, Captioning slikts

TODO:

ParkExpert
1. Padzēst ārā skiktos paraugus pie manual minig
2. Nav vēl full dataset - Justīne? kad būs?
FaradAI
1. LLama3.2 Multimodal captioning
2. YOLO fine ja ātra
3. Laikā Sekunde A-Sekunde B, 2sek, un pie reizes atpazīt cilvēkus un blur, FFPMEG
4. frame bildes, JPEG, json
5. Katru frame JSON, final rezultāt

Gustavs

Done:

FaradAI
1. Piekļuva datiem
Waterson
1. Pārbaudīja dataset
2. Nav nav Nitrates un DOX
3. ORP nevar ņemt

TODO:

Waterson
1. 15min mapping baseline
Farad
1. Sakārtot datu kopas (balanced test/val)
2. DataSet klasei augmentācijas ar iespeju On/Off
3. Modeļa arhitektūra, kura atbalsta dažadus izmērus FCN pirms logits uzlikt 2D Adaptive Avg Pooling F const. Testēt ar un bez izmēra maiņas. Testēt padding, resize, no-resize.
4. Loss functions - weighted CCE, weigthed sampler + sample mining + triplet vai contrastive, proxyNCA (pytorch deep metric learning library)
5. Pēc katra epoha DML F1 izrēķināt embedding mean/median centroids no training set un lietot uz test set
6. Pēc apmācības
  1. Transfer-learning Locked CCE logits / DML modelis + Train uz XGBoostClassifcation pa virsu => F1
    1. DML labāks pie zemāka paraugu skaita - frugal
  2. Zero-shot transfer => F1 izrēķināt embedding mean/median centroids no training set (nelietot priekš apmācības) un inferencē ar iepiekš apmācītu modeli lietot uz test set
    1. DML var sasniegt jēgpilnu F1 vispār bez apmācības - frugal

Info no Reiņa:

Metode nelineārai kalibrēšanai var būt SINDy (Sparse Identification of Nonlinear Dynamics). Idejiski ja ir divas nelineāri offsetotas laika sērijas, tiek izveidots kandidāt funkciju saraksts (visi varianti ar sin(x), tan(x), x^n, x^2*tan(x)...) un izmantojot lineāru optimizāciju ar spēcīgu penalty term priekš sparsity (pēc iespējas mazāk funkciju) var noteikt kādu funkciju kombinācija un ar kādiem koeficientiem vislabāk der. Bet nu pa tiešo tas darbojas tikai bez time-lag. https://pysindy.readthedocs.io/en/latest/examples/2_introduction_to_sindy/example.html

Reinis

Done:

Information extraction from Clarifying Questions

TODO:

Noņemt extracted tekstiem pēdiņas
Ieviest Output structure scaffolding, structured outputs, varbūt it vēl kāds veids https://platform.openai.com/docs/guides/structured-outputs
Ļoti nepieciešams Eldigen:
1. Entity detection ieviest beidzot, lai uz BM25 sūta vairākus requests ar keywords nevis pilnu tekstu
2. Noskaidrot vai klienta uzdoto jautājumu nevajag sadalīt vairākās daļās un veikt 2x vai 3x Retrieval requests, ja uzdod 2 jautājumus vienā teikumā
3. Nepieciešams atjaunot funkciju, kas atrod pretrunas faktos un pretrunīgo faktu gadījumā uzdod papildus jautājumus vai arī tos neizmanto kā arī flaggo tos
Tiklīdz būs Printful AI vai ZippyVision AI uzdevumi pārslēgties uz tiem

Adrians

Done:

Sabio pārnests uz dashboard

TODO:

Izprast pareizi context generation un izpētīt rezultātus vai uzlabo

uzlabot faktu kvalitati
1. bezjedzigos aizvakt - cookies, 404, footers utt
2. Nedrīkst retrieved faktu sarakstā būt duplikāti
3. mums vajag no faktiem vilkt araa meta data un tags, lai filtretu retrieved facts un varetu graph idejas pievienot faktus pec jautajums tags. blog facts jau tas sakodets, vajag citiem sources ari. Ar tags un citiem meta datiem var iegūt graph database

Mārcis

Done:

Summarize model apmāca
Eldigen jauns translation modelis -

TODO:

Whisper-v3 Large uz visām 3 valodām
Paulam un Justīnei pārabaudīt jaunu grāmatiņš modeli. Uzlabot vēl dataset, salīdzinoši viegli vēljoprojām salauzt grammar modeli, bet ir jau daudz labāk
Summary model uzstādīt un dot notestēt

Betija

TODO:

Implementēt jautājumu ģenerēšanu Valodu vēstniecībai pirmajā nedēļas pusē
Sagatavot report par embeddings un izvēlēties labāko pieeju