2024-10-04 AI Meeting

 

Krišs

Done:

  1. TTS pārnests uz asya-1 (nav vērts hyper-param search)

  2. Voice Conversion ieviešana

 

TODO:

  1. Problēmas esošajā dataset - neprecizitātes ierakstīt => updeito mārcim

  2. ViTS2 apmācīt

  3. Full Dataset savest kārtībā, lai visus datus var izmantot

  4. Robocall pipeline izveidot

 


Artūrs Uldis

Done:

  1. ParkExpert

    1. V3, automatic dataset mining

      1. Kameru + Modelis - 200k

      2. Tie kas nesakrīt Kamera + Modelis tiek doti uz GPT4 - 45k -> Final dabūjām -> 30k

    2. GPT 10% rāda nepareizi, dod maz False Positives

  2. FaradAI

    1. SAM, Captioning slikts

TODO:

  1. ParkExpert

    1. Padzēst ārā skiktos paraugus pie manual minig

    2. Nav vēl full dataset - Justīne? kad būs?

  2. FaradAI

    1. LLama3.2 Multimodal captioning

    2. YOLO fine ja ātra

    3. Laikā Sekunde A-Sekunde B, 2sek, un pie reizes atpazīt cilvēkus un blur, FFPMEG

    4. frame bildes, JPEG, json

    5. Katru frame JSON, final rezultāt


 

Gustavs

Done:

  1. FaradAI

    1. Piekļuva datiem

  2. Waterson

    1. Pārbaudīja dataset

    2. Nav nav Nitrates un DOX

    3. ORP nevar ņemt

 

TODO:

  1. Waterson

    1. 15min mapping baseline

  2. Farad

    1. Sakārtot datu kopas (balanced test/val)

    2. DataSet klasei augmentācijas ar iespeju On/Off

    3. Modeļa arhitektūra, kura atbalsta dažadus izmērus FCN pirms logits uzlikt 2D Adaptive Avg Pooling F const. Testēt ar un bez izmēra maiņas. Testēt padding, resize, no-resize.

    4. Loss functions - weighted CCE, weigthed sampler + sample mining + triplet vai contrastive, proxyNCA (pytorch deep metric learning library)

    5. Pēc katra epoha DML F1 izrēķināt embedding mean/median centroids no training set un lietot uz test set

    6. Pēc apmācības

      1. Transfer-learning Locked CCE logits / DML modelis + Train uz XGBoostClassifcation pa virsu => F1

        1. DML labāks pie zemāka paraugu skaita - frugal

      2. Zero-shot transfer => F1 izrēķināt embedding mean/median centroids no training set (nelietot priekš apmācības) un inferencē ar iepiekš apmācītu modeli lietot uz test set

        1. DML var sasniegt jēgpilnu F1 vispār bez apmācības - frugal

 

Info no Reiņa:

Metode nelineārai kalibrēšanai var būt SINDy (Sparse Identification of Nonlinear Dynamics). Idejiski ja ir divas nelineāri offsetotas laika sērijas, tiek izveidots kandidāt funkciju saraksts (visi varianti ar sin(x), tan(x), x^n, x^2*tan(x)...) un izmantojot lineāru optimizāciju ar spēcīgu penalty term priekš sparsity (pēc iespējas mazāk funkciju) var noteikt kādu funkciju kombinācija un ar kādiem koeficientiem vislabāk der. Bet nu pa tiešo tas darbojas tikai bez time-lag. https://pysindy.readthedocs.io/en/latest/examples/2_introduction_to_sindy/example.html

 


 

Reinis

 

Done:

  1. Information extraction from Clarifying Questions

TODO:

  1. Noņemt extracted tekstiem pēdiņas

  2. Ieviest Output structure scaffolding, structured outputs, varbūt it vēl kāds veids https://platform.openai.com/docs/guides/structured-outputs

  3. Ļoti nepieciešams Eldigen:

    1. Entity detection ieviest beidzot, lai uz BM25 sūta vairākus requests ar keywords nevis pilnu tekstu

    2. Noskaidrot vai klienta uzdoto jautājumu nevajag sadalīt vairākās daļās un veikt 2x vai 3x Retrieval requests, ja uzdod 2 jautājumus vienā teikumā

    3. Nepieciešams atjaunot funkciju, kas atrod pretrunas faktos un pretrunīgo faktu gadījumā uzdod papildus jautājumus vai arī tos neizmanto kā arī flaggo tos

  4. Tiklīdz būs Printful AI vai ZippyVision AI uzdevumi pārslēgties uz tiem

 

Adrians

 

Done:

  1. Sabio pārnests uz dashboard

 

TODO:

  1. Izprast pareizi context generation un izpētīt rezultātus vai uzlabo

image-20241004145416690

  1. uzlabot faktu kvalitati

    1. bezjedzigos aizvakt - cookies, 404, footers utt

    2. Nedrīkst retrieved faktu sarakstā būt duplikāti

    3. mums vajag no faktiem vilkt araa meta data un tags, lai filtretu retrieved facts un varetu graph idejas pievienot faktus pec jautajums tags. blog facts jau tas sakodets, vajag citiem sources ari. Ar tags un citiem meta datiem var iegūt graph database

 

Mārcis

 

Done:

  1. Summarize model apmāca

  2. Eldigen jauns translation modelis -

TODO:

  1. Whisper-v3 Large uz visām 3 valodām

  2. Paulam un Justīnei pārabaudīt jaunu grāmatiņš modeli. Uzlabot vēl dataset, salīdzinoši viegli vēljoprojām salauzt grammar modeli, bet ir jau daudz labāk image-20241004145944866

  3. Summary model uzstādīt un dot notestēt

 

 


 

Betija

TODO:

  1. Implementēt jautājumu ģenerēšanu Valodu vēstniecībai pirmajā nedēļas pusē

  2. Sagatavot report par embeddings un izvēlēties labāko pieeju