2025-01-23 Waterson Bactosense Modelēšanas Rezultāti #1

 

1. Modeļa darbības princips

Modelis kā ievades datus ņem 2 fizikālo sensoru (Waterson) rādījumus 10min intervālā (Flow, Pressure, Temp, TOC, Turbidity, pH, ORP, Conductivity) Katram Bactosense parametram ir savs modelis, bet visi kā ievades datus ņem 2 periodus pa 10 minūtēm. Visiem modeļiem izvades dati ir konkrētā bactosense rādījuma izmaiņas laika solī.

Piemērs zemāk ievades un izvades datiem. ICC modelim, bet šādi modeļi ir izveidoti katram Bactosense mērījumamL: ICC, DCC, TCC, HNAP, ICC/TCC.

Attālums starp P1 un P2 laikā var būt 30min, 180min vai 360min, bet nav noteikts viens specifisks laika atālums. Svarīgi, ka nav īsāks par 30min vai garāks par 360min.

P1, 10min: Flow, Pressure, Temp, TOC, Turbidity, pH, ORP, Conductivity
P2, 10min: Flow, Pressure, Temp, TOC, Turbidity, pH, ORP, Conductivity
Modelis
t2+10min: ICC

 

image-20250123004833972

2. Datu priekšapstrāde

Līdz ar nodevumu data direktorijā ir satīrīti un salāgoti CSV faili ar Waterson un Bactosense datiem. Sākotnējā Sensoru datu un Bactosense datu pārklāšanās pēc ID.

image-20250123005925399

Sākotnēji iedotie dati izskatījās šādi laika nogriežņos

image-20250123010030914

 

Diemžēl visiem WT_DB3 punktiem, kas pārklājās ar Waterson SensorData, iztrūka TCC vērtības, tādēļ tie netika izmantoti apmācībā (bet labi noder testēšanai)

image-20250123010159477

Datu kopu paraugi, kuriem izdevās izveidot periodus un salāgot Waterson ar Bactosense datiem

image-20250123010212616

Tā pati informācija, bet pēc paraugu skaita filtrētajās datu kopās. Vairāk kā puse derīgo eksperimentu datu, kurus varēja salāgot nāk no WT1 datu kopas

image (1)

Lai pavairotu deltu datu punktus izmantojot faktu, ka laika solis starp Bactosense punktiem variē, tika izmantota slīdoša loga metode ar dažādiem laika intervāliem. Līdz ar to modelim nav viens specifisks laika intervāls starp intervāliem t_1 un t_2 ar kuru tas tikai spētu strādāt. Šādā veidā mēs ieguvām ievērojami vairāk datu paraugu. CSV faili jau satur visus intervālus.

upsampling

Tika iegūti 3,787,949 Waterson datu paraugi kā ievades dati un 14,466 Bactosense datu paraugi kā izvades dati.

4. Datu iezīmju analīze

Absolūto vērtību sadalījumi Bactosense mērījumiem, uzliekot vērtību griestus (viss, kas lielāks tiek uzlikts par griestiem). Lai noteiktu izmaiņu intervālus bija jānosaka kādos vērtību apgabalos sadalīt šos sadalījumus, lai modelētu izmaiņas ar XGBoost lēmumu koka modeli, kas ir īpaši piemērots mazām datu kopām, jo Bactosense dati ir tikai 14k datu punkti. Ja butu 100k+ varētu sākt veidot regresijas modeļus.

Ar oranžu un zaļu iekrāsoti apgabali, kuros notika Waterson eksperimenti un ir zināms noticis piesārņojums.

Histogramās attēlotas absolūto vērtību izmaiņas starp laika punktiem intervālos 360min, 180min, 30min vienuviet.

image (2)

Iedalījums pa apgabaliem, kurus modelis prognozē jeb katram rādījumam. Kateam rādījumam ir savi vērtību apgabali, bet visiem ir 11 klases, kuras iedalās secīgi:

  1. -drop, extreme

  2. -drop, level3

  3. -drop, level2

  4. -drop, level1

  5. -drop, level0

  6. minimal change

  7. +spike, level0

  8. +spike, level1

  9. +spike, level2

  10. +spike, level3

  11. +spike, extreme

Zinot intervālu vidus vērtību katrai klasei pie katra senosora rādījuma var modelēt izmaiņu absolūtās vērtībās produkcijā.

image (3)klasēm

5. Apmācību rezultāti

F1 un precizitāte katram Bactosense rādījumam apmācību kopā (zils un oranžs) un test kopā (zaļš un sarkans).

Vislabākie radītāji ir DCC, ICC, TCC, ICC/TCC.

Kaut arī HNAP ir zemi vidējie rādītāji, zemāk apjukuma matricās var redzēt, ka HNAP ļoti labi strādā uz ekstrēmām vērtībām un uz situācijām, kur vērtības nemainās.

DCC, ICC, TCC, ICC/TCC rezultāti ir tuvu pie 60%, kas ir ievērojami augstāk par nejaušu atpazīšanu, kas būtu 9% (100/11=9% klasēm)

image (4)

Apjukuma matricas katram sensora rādījumam pa intervāliem dotas zemāk.

TCC Apmācbu matrica pa kreisi, Testa matrica pa labi. Ideālā gadījumā jābūt visām vērtībām pa trace līniju vidū.

image (6)

ICC Apmācbu matrica pa kreisi, Testa matrica pa labi.

image (7)

ICC/TCC Apmācbu matrica pa kreisi, Testa matrica pa labi.

image (8)

DCC Apmācbu matrica pa kreisi, Testa matrica pa labi.image (9)

HNAP Apmācbu matrica pa kreisi, Testa matrica pa labi. Kaut arī HNAP ir zemi vidējie rādītāji, zemāk apjukuma matricās var redzēt, ka HNAP ļoti labi strādā uz ekstrēmām vērtībām un uz situācijām, kur vērtības nemainās, kas liek domāt, ka šo modeli arī var izmantot, lai modelētu Bactosense datus.

image (10)

6. Rollout vizuālizācijas

Lai vizualizētu modeļu veiktspēju tika veikti eksperimenti ar marķētiem datiem (apgabalos, kuros notika Waterson eksperimenti) no testa kopām attēlojot līknēs modelētās Bactosense vērtības laikā pie dažādiem pārliecību sliekšņiem (jo augstāks slieksnis, jo konservatīvākas prognozes, bet stabilākas).

Piezīme secinājumiem:

rollouti

6.1. WT_DB3 Normal

Ļoti neliels posms pirms eksperimentu sākuma, kurā ir Bactosense vērtības un kurā ir normāli ūdens apstāķi bez anomālijām.

Ar krāsainām līnijām attēloti dažādi pārliecību līmeņi, pie kuriem pieņemt prognozēto delta izmaiņu.

Zaļā līnija p=0.5 izskatās labi balansēta starp konservatīvu un ļoti jūtīgu slieksni. Ideālā gadījumā līnija normālā ūdens gadījumā stāvētu uz vietas vai minimāli mainītos.

Taču pēcāk šajā atskaitē attēlots, ka piesārņojuma gadījumā maksimālā pārliecība, kura dot ticamu rezultātu ir p=0.3 (oranžā līnija)

Tas, ka krāsainās līnijas “aizpeld” un akumulē kļūdu ir normāli, produkcijas vidē būtu nepieciešams noteikt Bactosense modelētās anomālijas laika intervālos 360min, 180min, vai 30min nevis tik garos Rollouts. Jo mazak līnija aizpeld normālos ūdens apstākļos, jo labāks modelis.

Melnie punkti ir orģinālie Bactosense rādījumi.

NORMAL_event_2024-02-09_to_2024-02-13

NORMAL_event_2024-02-05_to_2024-02-07

NORMAL_event_2024-02-07_to_2024-02-09

6.2 WT_DB1 Normal

Posms pirms eksperimentu sākuma, kurā ir Bactosense vērtības un kurā ir normāli ūdens apstāķi bez anomālijām.

NORMAL_event_2022-01-01_to_2022-01-05

NORMAL_event_2022-02-01_to_2022-02-02

NORMAL_event_2021-11-25_to_2021-11-26 (1)

NORMAL_event_2021-11-27_to_2021-11-28

6.3. WT_DB1 Wastewater

Ar dzelteno lauku ir iezīmēts Waterson marķētais eksperiments. Jāievēro, ka melnie punkti, jeb patiesās Bactosense vērtības strauji mainās. Ideālā gadījumā arī modelētās vērtības strauji mainītos. Pie sliekšņa p=0.3 (oranžā līnija) var lai redzēt izmaiņas un līdzīgas tendences.

Wastewater primāri reaģē uz HNAP un ICC/TCC, izmantojot modeļus. Patiesajos datos arī citi sensori reaģē.

WASTEWATER_event_2021-09-22_to_2021-09-23

WASTEWATER_event_2021-09-29_to_2021-09-30

WASTEWATER_event_2021-09-28_to_2021-09-29

WASTEWATER_event_2021-09-27_to_2021-09-28

 

6.4. WT_DB1 Surfacewater

Arī Surfacewater eksperimentos var vērot sakarības starp prognozēm un patiesajiem notikumiem. Surfacewater reaģē labāk arī uz pārējiem sensoriem ne tikai HNAP un ICC/TCC.

SURFACE_WATER_event_2022-01-17_to_2022-01-21

SURFACE_WATER_event_2021-10-20_to_2021-10-21

SURFACE_WATER_event_2021-10-13_to_2021-10-14

SURFACE_WATER_event_2021-10-12_to_2021-10-13

SURFACE_WATER_event_2021-10-11_to_2021-10-12

SURFACE_WATER_event_2021-10-06_to_2021-10-07

SURFACE_WATER_event_2021-10-05_to_2021-10-06

SURFACE_WATER_event_2021-10-04_to_2021-10-05

6.5. WT_DB1 Groundwater

Groundwater arī visi sensori, pie p=0.3, p=0.5 reaģē

GROUNDWATER_event_2022-01-12_to_2022-01-13

GROUNDWATER_event_2021-11-08_to_2021-11-12

GROUNDWATER_event_2021-11-03_to_2021-11-04

GROUNDWATER_event_2021-11-02_to_2021-11-03

GROUNDWATER_event_2021-11-01_to_2021-11-04

GROUNDWATER_event_2021-11-01_to_2021-11-02

GROUNDWATER_event_2021-10-27_to_2021-10-28

GROUNDWATER_event_2021-10-26_to_2021-10-27

GROUNDWATER_event_2021-10-25_to_2021-10-26

6.6. WT_DB1 Discoloration

Discoloration arī diezgan labi reaģē uz visiem sensoru tipiem.

DISCOLORATION_event_2021-12-19_to_2021-12-21

DISCOLORATION_event_2021-12-15_to_2021-12-16

DISCOLORATION_event_2021-12-13_to_2021-12-14

DISCOLORATION_event_2021-12-08_to_2021-12-09

DISCOLORATION_event_2021-12-07_to_2021-12-08

DISCOLORATION_event_2021-12-06_to_2021-12-07

DISCOLORATION_event_2021-11-22_to_2021-11-23

7. Secinājumi un tālākie pētījumi

Var secināt, ka Bactosense mērijumu modelēšana, izmantojot Waterson sensoru datus ir iespējama un rezultāti ir apmierinoši.

Visos Bactosense modelētajos sensoros vērojam aktivitāte piesārņojuma notikumos pie pārleicību sliekšņiem p=0.3 līdz p=0.5. Tikai Wastewater labāk reaģē tieši ICC/TCC un HNAP.

Lielākais ieguvums šādai metodei salīdzinot ar vienkāršu notikumu klasifikāciju, izmantojot tikai Waterson datus ir tajā, ka nav nepieciešami marķējumi datos, pieņemot, ka Bactosense rādījumu straujas izmaiņas tiešām liecina par piesārņojumu.

No iepriekšējās sarakstes vienojāmies, ka Bactosense var lasīt:

  1. Ja tiek piešeārņots ūdens, palielinās jebkurš no TCC, ICC, DCC. Tieši ICC palielinājums norāda uz piesārņojumu.

  1. Ja tiek attīrīts ūdens, ja samazinās TCC un ICC reizē. Tieši ICC samazinājums norāda uz tīrīšanu.

Pēkšņi TCC vai ICC pieaugumi norāda uz potenciālu piesārņojumu.

Augsts ICC ar stabilu DCC: ICC pieaugums bez tam atbilstoša DCC pieauguma liecina par dzīvotspējīgu mikroorganismu izplatīšanos, kas varētu norādīt uz piesārņojumu. Augsts DCC ar stabilu ICC: DCC pieaugums, kamēr ICC paliek stabils, varētu norādīt uz efektīviem dezinfekcijas procesiem, kas iznīcina mikroorganismus.

Vēl nav skaidrs kā lasīt HNAP izmaiņas?

Tajā pašā laikā vienkaršs Waterson klasifikators noteikti būs precīzāks par šadu Bactosense modelēšans sistēmu. Dotā sistēma tikai liecina, ka tik tiešām no fizikāliem rādījumiem var prognozēt bioloģiskos rādītājus, bet šie rādītāaji nav ļoti precīzi. Tomēr piesārņojuma notikumus tie var atpazīt.

Ja vēlaties Bactosense modeli uzlabot ir nepieciešams:

  1. Ievākt ievērojami vairāk tieši Bactosense datus 14k datu punktu vietā 100k

  2. Ļoti svarīgi veikt mērijumus konstantos intervālos arī Normālos ūdens apstākļos nevis mainīt mērījumu fekvenci līdz ar piesārņojuma sākšanos.

  3. Pie lielākas un kvalitatīvas datu kopas var sākt izstrādāt laika rindu vai/un regresijas modeļus