2023-07-31 Manual Asya-Delloite Chatbot

 

Whiteboard notes image-20230731203211935

 

TODO

Betija

  1. Chat repo: https://github.com/asya-ai/delloite-chatbot

  2. Izveidot un dokumentēt datu kopu semantic similarity modeļiem, nepieciešams salīdzināt struktūru attālumus un semantiskās līdzības attālumus (semantiskās līdzības modeļiem jābūt ar atšķirīgu struktūru) Embedding modelis ar kuru sākt: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

    Salīdzināt arī ar OpenAI benchmark modeli Pārbaudīt arī uz šī dataset, meklēt kādi vēl citi datasets pieejami (STS tasks) http://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark

    Izveidot report note

  3. Izveidot validation metrics code (kā funkcijas atsevišķā python file)

    1. Ērti maināms validācijas dataset (JSON formātā ar followup jautājumiem)

    2. Cosine distance pret Ground truth answer un generated answer

    3. GPT4 validator - vairāku promptu versijas “Do both statements above are matching by the meaning? Answer only using: “Yes”, “No”, “Maybe””. Ja Yes = 1.0, Maybe = 0.5, No = 0.0; Var izrēķināt kopējo vidējo un median value. Notestē dažādus prompts. Var pamēģināt arī scale.

    4. Sagalbāt abu metrics results

  4. Dokumentēt un vadīt procesu, testējot Aleksandra JSONs

  5. Pārbaudīt vai meklējot pēc cosine similarity pret answer, ne tikai questions var uzlabot rezultātus?

  6. Pievienot filtrēšanu pēc tags, palīdzēt aleksandram izveidot prompts

Aleksandrs

  1. Atsūtīt Evaldam email, telefonu un Github username, lai varu pievienot repos

  2. Chroma splitter pēc dokumentācijas ir pilnīgi primītīvs vanilla 1000 word splitter - https://python.langchain.com/docs/integrations/vectorstores/chroma

  3. Implementēt PDF scraper pa paragrāfiem (var ievērot headings, loģisku sadalījumu), salabot code, kas ir šeit: https://github.com/asya-ai/delloite-data-scraper

    1. Nepieciešama struktūra:

      1. questions: str[]

      2. answer: str

      3. reference_page: int

      4. reference_from_to_char: int []

      5. tags: str[]

  4. Implementēt versiju, kas sadala PDF, izmantojot GPT4 ar prompt, kas pārbauda vai katrs nākamais teikums / paragraph ir līdzīgs vai attiecas uz iepriekšējo funkcionalitāti rokas grāmatā - sagatavot atsevišķu python script un JSON

  5. Implementēt versiju, kas sadala PDF, izmantojot Embedding model, salīdzināt teikumu/paragraph līdzību. Lai atrastu thresholds uztaisīt histogram starp visu teikumu līdzībām dokumentā un izvēlēties threshold. Dokumentēt procesu.

  6. Sagatavot code kā ielādēt un iegūt JSON saturu Exasol https://www.exasol.com, izveidot testa code kā iegūt tuvākos vector records by cosine similarity

Igor / Romans

  1. Atsūtīt ASAP validation benchmark Jautājums-Atbilde ar PDF reference lpp

  2. Atsūtīt 2 līmeņu jautājumu kopu ar vismaz 3 followup Jautājumiem-Atbildēm katram validation jautājumiem

Veidojot ChatGPT prompts, ņemt vērā šīs vadlīnijas: http://share.yellowrobot.xyz/quick/2023-7-31-C03D9F0E-2F88-4AF1-B8BB-C7D99E760561.html

 

Mārcis

  1. Pabeigt uzstādīt LLaMa chatbot API

  2. Notestēt pēc benchmark jaunākos modeļus https://gpt4all.io/index.html

  3. The LLaMA model comes in different versions, including 7B, 13B, 33B, and 65B parameters

  4. LLaMA 2 izpētīt

 


 

 

Dr. Evalds Urtans is specializing in applied Deep Learning research and have built multiple commercial products. Latest product pitchpatterns.com automatically monitor audio and video calls and gives transparency of all sales or customer service calls with clear KPIs and metrics. Evalds has published dozens of scientific papers and is assistant professor in multiple universities.

 


 

24 years as Equity Partner at Deloitte. Multiple senior management positions, including deputy CEO for Central Europe

Business experience and customer projects across Central Europe, UK and DACH region. Customers included leading investment firms such as EQT, Blackstone, Ripplewood

MSc degree and research background in data science. One of pioneers in advanced analytics and AI in Central European market

Teaching AI and Strategy course at Riga Business School (JV with University of Buffalo) and Economics of AI at Transport and Communications Institute (joint program with University of West England)

Multiple civic commitments included external advisor to Prime Minister of Latvia, chair of audit committee for the large public company, trusteeships and academic advisory roles at several universities