Metriku validācijas rezultāti
Sākotnējie modeļa rezultāti
Vienāds jautājums vairākiem tekstiem -> Izpētīt vai var novērst ar prompt engineering
Notestēt q->a rating metriku uz Delloite validācijas kopas
Atrast 5 publikācijas par teikumu līdzības noteikšanu pēc semantiskās jēgas vai teikuma struktūras - noskaidrot vai ir jēga uzrakstīt par šo publikāciju (atgādinājums arī par STT publikāciju)
Paplašināt score ar visām metrikām, dokumentēt formulu un visas metriku daļas, dokumentēt baseline rezultātu uz 2023-08-08 datu kopas un modeli
Iegūt tags no datu kopas (izveidot histogrammu ar predicted tags / topics / categories, izmantojot vismaz 5 dažādus prompts)
Noņemt fact chunked code - tam jābūt tikai aleksandra pusē
Flask deployment (evalds iedos vidi)
Balstoties uz score noskaidrot:
Pārbaudīt vai meklējot pēc cosine similarity pret answer, ne tikai questions var uzlabot rezultātus?
Kā ietekmē rezultātu cosine thresholds, salīdzināt ar eiklīda attālumiem, kā ietekmē rezultātu multi answer mining ar temperature (varbūt ar 0 temperature labāk)?
Vai paprasot pārfrāzēt vai paplašināt ienākošā jautājumu un tad veicot N reizes mining ar dažādiem jautājumiem var uzlabot rezultātu?
Pievienot filtrēšanu pēc tags, palīdzēt aleksandram izveidot prompts
Sagatavot datu kopu ar embedding mining (izmantot visus 3 embedding modeļus, kurus iedos betija)
Histogram ar katriem 2 teikumiem savā starpā, lai noteiktu kādu threshold izvēlēties
Sadalīt tekstu pēc embedding līdzības (izmantot visus 3 modeļus reizē)
Sagatavot tags based datu kopu (konsultēties ar Betiju)
Sagatavot datu kopu ar https://huggingface.co/spaces/pritish/BookGPT/blob/main/app.py
Balstoties uz rezultātiem izdomāt nākamos variantus datu kopām