2023-10-14 AI PitchPatterns Conversation Flow

Piemērs grafam (mermaidjs valodā)


xxxxxxxxxx
40
1
%%{ init: { 'flowchart': { 'curve': 'basis' } } }%%
2
graph TD
3

4
1_1(Locksmith services how can I help you?)
5
1_2(I have a problem here with the door)
6
1_3(I am calling to cancel)
7
1_3 --> c1_3(No)
8

9
1_1 --> 2_1(I need my door to get fixed)
10
1_1 --> 2_2(I need a qoute for the service)
11

12
2_1 --> 3_1(Ok this will be 99.99)
13
2_1 --> 3_2(Sorry cannot fix this type of door)
14

15
3_1 --> yes_1(Yes)
16
3_2 --> no_1(No)
17

18
1_2 --> b_2_1(This is car door)
19
1_2 --> b_2_2(Ok this will be 99.99)
20

21
b_2_1 --> b_no_1(No)
22
b_2_2 --> b_3_1(Too Expensive)
23
b_2_2 --> b_no_2(No)
24

25
b_3_1 --> b_4_1(Can I offer discount?)
26
b_3_1 --> b_4_2(What is your budget)
27
b_3_1 --> b_no_3(No)
28

29
b_4_1 --> b_5_1(Yes)
30
b_4_2 --> b_5_2(Yes)
31

32
classDef classClient fill:lightyellow;
33
classDef classAgent fill:lightblue;
34
classDef classYes fill:lime;
35
classDef classNo fill:pink;
36
class 1_2,1_3,2_1,2_2,b_2_1,b_3_1 classClient;
37
class 1_1,3_1,3_2,b_2_2,b_4_1,b_4_2 classAgent;
38
class yes_1,b_5_1,b_5_2 classYes;
39
class no_1,b_no_1,b_no_2,c1_3,b_no_3 classNo;
40

Jāizveido jauna datubāze no kuras tālāk var ērti ģenerēt šāda veida grafiku visu nepārprocesējot:

flow_conversations, flow_segmenets => akumulē worker_aggregator

flow_graph, flow_graph_nodes, flow_graph_filters, flow_graph_nodes_flow_segments => ieraksta flask_app frontend

next_flow_segmenet_id = NULL nozīmē pēdējais segments sarunā YES saruna ir tāda, kurai conversation_id iekš tags_in_conversations satur YES

Lai paātrinātu darbību vēlams daļu PP tabulu datus pārkopēt agregējot db_pp_conv_flow

Saglabāt uzreiz vairākus embedding formātus, lai var testēt dažādas clustering metodes un tos kombinēt savā starpā

flow_graph un flow_graph_nodes ir gatavie rezultāti, lai pēc tam varam debuggot

flow_graph_filters satur pa vienam filtra elementam no UI (nemēģināt vienā ierakstā salikt visus filtra elementus)

Vektoru meklēšanai izmantot arī PostgreSQL Database extensions, lai ātrāk strādātu, bet pirmajā versijā var izmantot default PostgreSQL https://github.com/pgvector/pgvector

Kritēriji kā dala sarunu koku:

Katra nākamā sarunu koka līmenis veidojas no secīgiem sarunu segmentiem, kuri ir ne īsāki kā definēts segmenta garums, iespējams, 10sek (īsos secīgos segmentus izlaižam)
Visām conversation flow daļām obligāti jābūt maksimāli daudz relācijām uz orģinālo DB projectx
Katra koka nodes veidosies no median embedding tovākā prototipiskā pateiktā teikuma vai frāzes
Nākotnē jāņem vērā, ka pie katra koka virsotnes glabāsim arī emocijas, intention, topics utt!
Garas pauzes nākotnē arī varētu ielikt kā nodes

Sistēmas arhitektūra

worker_aggregator - no PP galvenās DB projectx periodiski savāc datus un sarēķina embeddings, strukturizē, lai ātri varētu iegūt atskaites. Latviešu sarunu gadījumā būs jāveic LV->EN tulkošana
flask_app frontend, autentificē lietotājus balsototies uz PP datubāzi un ģenerēr kokus no pp_conv_flow DB (tags, projects, agents nāk no PP datu bāzes priekš UI atlasīšanas)
Nākotnē jāparedz, ka atskaites varētu ģenerēt arī fonā un sūtīt uz epastu vai rādīt pāšā PP sistēmā

Clustering

Nākotnē izmantosim HDBSCAN, lai clusterizētu tēmas ar nezināmu N skaitu katrā līmenī, bet šobrīd lūdzu izmantot:

Definēts K cluster count katrā slānī:
1. Pirmajā: 5
2. Otrais, Trešais slānis: 3
3. Ceturtais piektais slānis: 2
Kopā lietojam maksimums 5 slāņus (graph_layer_count)
Klasterizāciju veicam tikai ar sklearn SpectralClustering algoritmu (uzmanību, nepieciešams pārmeklēt tā parametrus, liela ietekme rezultātam)
Lai pārbaudītu rezultātus lūdzu lietojoet vizualizācijas katrā layer (sub tree) tensorboard vai weights and biases emebddings projector . Vizuāla clasterizācijas pārbaude ir obligāti jāveic, jo no tekstiem mēs nevarēsim debuggot
Ja cluster ietver vairāk kā pusi pēdējo node conversation flow, tad to klasificējam kā terminal state: yes, no