2024-Q4-AI-LV-Business 2. Datu apstrāde, vizualizācija, dimensiju samazināšana

2.1. Video / Materials (11.12.2024 18:00)

Zoom (jānospiež ieraksts sākumā, pēc tam tiks ielikts youtube unlisted mode): https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.canva.com/design/DAGYW-pbqUY/r_WYOlKCNi4fHBeSC5u-bw/view?utm_content=DAGYW-pbqUY&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h05782d3aa8

Nepieciešamie rīki:

Altair RapidMiner AI studio, https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer
ChatGPT Pro versija http://chatgpt.com

Materiāli: https://neptune.ai/blog/data-preprocessing-guide https://estuary.dev/data-normalization/ https://dimensionless.in/principal-component-analysis-in-r/ https://medium.com/@ashwin8april/dimensionality-reduction-and-visualization-using-pca-principal-component-analysis-8489b46c2ae0 https://dimensionless.in/principal-component-analysis-in-r/

Nosūtīts invite uz canva tāfeli

2.2. Datu kopas sagatavošana, vadoties pēc instrukcijām

Ievērojiet video instrukcijas un iesniedziet CSV vai Excel formātā, lai nodrošinātu datu tīrīšanu:

Noņemiet datus no "Price" kolonnas, kas nebūtu jāievada mākslīgā intelekta modeļiem.
Aizpildiet trūkstošos datus ar mediānas vērtībām "Prod. year." kolonnā (Nodoklis).
Aprēķiniet p-vērtību "Price" kolonnai un nosakiet, vai šīs kolonnas dati ir statistiski nozīmīgi vai iegūti nejauši, salīdzinot ar "Prod. year."
Konvertējiet "Manufacturer" sarakstu vektora formātā, lai būtu jaunas kolonnas "LEXUS" (vērtības 0 vai 1), "CHEVROLET" (vērtības 0 vai 1), utt. Nav nepieciešams manuāli konvertēt visas markas vektoru formātā, pietiek konvertēt vismaz 3 šādā veidā.
Pārveidojiet "Mileage" kolonnu skaitliskās vērtībās bez "km" beigās.

Datu kopa: http://share.yellowrobot.xyz/quick/2023-9-14-9E29D326-E0C8-408B-8739-73316969F288.zip

2.3. Dimensiju samazināšana īrisu datu kopā

Implementējiet dimensiju samazināšanu, izmantojot PCA, t-SNE vai UMAP 2D formātā. Izmantojiet Altair RapidMiner AI studio. Pārliecinieties, ka iestatāt iezīmes, izmantojot pareizus datu tipus. Iekrāsojot klasterus pēc "spieces" kolonnas.

Iesniedziet klasterizācijas rezultātu ekrānšāviņus un Design ekrānšāviņus.

Obligāti izmantotais datu kopums: https://share.yellowrobot.xyz/quick/2024-12-4-50532E3A-4F77-437D-B4E8-DDA87942AF46.zip

2.4. Mājasdarbs: Dimensiju samazināšana pingvīnu datu kopā

Iesniedziet klasterizācijas rezultātu ekrānšāviņus un Design ekrānšāviņus.

Obligāti izmantotais datu kopums: https://share.yellowrobot.xyz/quick/2024-12-2-55C86882-AC8D-4337-9E72-E2DD88F279A1.zip

2.5. Mājasdarbs: Analizēt un attīrīt ETF datu kopu (akciju tirgus tirdzniecība)

Izmantot laika rindas datu kopu par ETF (Exchange Traded Funds):

https://share.yellowrobot.xyz/quick/2024-5-2-9EABDAEB-3067-4BE9-A8F9-BC9464F360B4.zip

Manipulēt datu kopu, izmantojot Excel:

Atlasīt tikai tos simbolus, kuriem dati ir pieejami no 2021. gada 1. oktobra līdz 2021. gada 1. novembrim.
Kārtot simbolus pēc cenu svārstībām (noslēguma cenas standartnovirze vai vidējā vērtība) visā periodā un atlasīt 10 visvairāk svārstīgo simbolus.
Grupēt pēc fonda simbola.
Kārtot pēc cenas.
Normalizēt cenu katram fonda simbolam individuāli (no 0 līdz 1).

Vizualizēt datu kopu:

Histogrammas katram fonda simbolam, kas rāda cenas.
Līniju diagramma ar pārklātiem 10 visvairāk svārstīgajiem simboliem, Y-asī izmantojot noslēguma cenu un X-asī datumu (ar simbolu nosaukumiem).

Iepriekšējo lekciju video piemēri

Video Live (par datu apstrādi) https://youtube.com/live/I5EFQd67le4?feature=share

Video (par PCA un dimension reduction izmantojot Altair AI studio). Nepaspēju korekti izstāstīt pirmajā video, bet vajadzētu smuki izstāstīt kā otrajā sākumā. https://youtube.com/live/lF1Nk-pBYNQ?feature=share

Whiteboard: https://whiteboard.fi/6784a8c1-3d00-41f6-9d49-2193b3e05846

Rīki

Rīks ar kuru demonstrēt datu apstrādi ChatGPT Pro (ar CSV upload)
Rīks ar kuru demonstrēt PCA, t-SNE: “Altair RapidMiner AI studio” (https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer) un https://biit.cs.ut.ee/clustvis/

Saturs

Auditorija pārsvarā ir uzņēmēji, nevis programmētāji, tāpēc demonstrēt visu ar ChatGPT Pro un Altair AI studio. Skaidrot jēgu nevis programmēšanas kodu. Mērķis iedot sapratni, ka ir jāveic datu priekš apstrāde, lai iegūtu labāko rezultātu modelēšanā, un ja māki vizualizēt, tad vari daudz labāk saprast datus. Uzdevumus lekcijas laikā un pēc tās pievienot moodle sistēmā.

Lekcijas sākumā apskatīties prezentācijas mājasdarbu no iepriekšējās lekcijas, parādīt dažas labākās prezentācijas un nokomentēt no savas perspektīvas.
Tabulāri dati, kas tas ir kā glabā CSV (Demonstrēt visu ar ChatGPT Pro). Excel var parādīt kā var filtrēt kolonas, iekrāsot pēc vērtību lieluma (jau sākt vizualizēt).
Datu tipi - skalāri, kategoriju dati, kolonas kuras ir bezjēdzīgas (numurs pēc kārtas, čeku numurs, utt.)
Trūkstošie dati - noņemt, mean, median, mode (parādīt vizuāli, ko nozīmē mean, median, mode uz eksponenciāla algu sadalījuma kā piemēru)
Kategorisko datu apstrāde - one-hot encoding (pārvērst par kolonām brand_bmw, brand_chevrolet, utt.), embeddings (lai mākslīgā intelekta modeļi saprastu kategoriju datus). Skaidrojot index based classes, one-hot encoding, embeddings izmantot piemēru ar vektoru attālumiem, skaidrot, ka indexes attālumi ir dažādi atkarībā no pozīcijas, one-hot encoding ir vienāds attālums visām vērtībām, embeddings attālumi izvietojas pēc līdzības apmācību laikā.
Parādīt kā novērtēt datu tīrību, atrast outliners vizuāli izmantojot histogrammas (ģenerēt ar ChatGPT Pro)
Attīrīt outliner datus ar ChatGPT Pro (hard set limits, quantile method) pēc attīrīšanas parādīt histogrammas
Datu normalizēšana. Kā piemēru dot, ka modelim nevar dot pilnīgi dāžādu skalu datus, ražošanas gadu un nobraukumu. Min-Max Normalization, Standardization.
Paskaidrot kā strādā statistiskie testi, piemēram t-Test (p-test). Ar ChatGPT Pro pārādīt kā veikt t-testu starp 2 kolonnām, lai noteiktu vai ir statistiski nozīmīgas atšķirības starp tām. Ja nav statistiski nozīmīgas atšķirības, tad var izslēgt no modelēšanas. Excel arī ir vienkārši parādīt kā veikt t-testu =TTEST(A:A,B:B,2,1)
Pastāstīt intuitīvi kā strādā PCA (ēnas piemērs), GIF ar projekcijas plakni un varianci. Paskaidrot par iespējām samazinot dimensiju skaitu labāk izprast datus, piemēram aptaujas, automašīnu pārdošanas datus. Pieminēt arī citas metodes: LDA, Linear PCA, Kernel PCA, t-SNE, UMAP. Paskaidrot, ka pirmā dimensija ir visvairāk variācijas, otrā dimensija ir vismazāk variācijas, un tā tālāk. Demonstrēt prakstiski visu ar Altair AI studio.

Parādīt Tensorboard piemēri, kurus var palaist un pademonstrēt kā daudzdimensiju datu vizualizāciju PCA, t-SNE, UMAP: https://share.yellowrobot.xyz/quick/2024-12-4-D8204305-C4F0-4A30-BB83-4F7B5EAE525F.zip šiem var palaist:


xxxxxxxxxx
1
1
tensorboard --logdir=./

Ja paliek laiks parādīt dažādus datu vizualizācijas piemērus ar ChatGPT Pro:

Box plot
Scatter plot
Heatmap
Pair plot
Violin plot
Bar chart
Pie chart
Line chart
Area chart
Radar chart
Bubble chart
Sankey diagram
Choropleth map
Tree map
Word cloud
Pareto chart
Waterfall chart

Vizualizēt un skaidrot kategorisko datu sagatavošanu modeļos

Veids kā Excel aizpildīt trūkstošos datus. Nevajag obligāti rādīt kā Excel darīt.


xxxxxxxxxx
3
1
=IF(ISBLANK(A1),MEDIAN(A:A),"")
2
=IF(ISNUMBER(C2),C2, MEDIAN(C:C))
3
=IF(EQ(C2, "-"),MEDIAN(C:C), C2)

Correlation cooficient. Šo arī var parādīt un izskaidrot ar ChatGPT Pro.


xxxxxxxxxx
1
1
=CORREL(A:A,B:B)

Valstī vidējās algas piemērs (X ass alga, Y ass cilvēku skaits) mean, vidējais - augstāks līmenis, skaisti dati atskaitēm median, mediāna - zemāks līmenis, tuvāk realitāte mode, moda - visbiežāk sastopamais skaitlis, ļoti slikts rādītājs

Veids kā Excel veikt ONE hot encoding


xxxxxxxxxx
1
1
=ARRAYFORMULA(IF(UNIQUE(A2:A)=TRANSPOSE(A2:A), 1, 0))

Excel t-test piemērs

T-test skaidrojums

A one-tailed test is a statistical test that looks for an increase or decrease in the parameter in one direction, while a two-tailed test is a statistical test that looks for a change in the parameter in either direction.

two-tailed also for negative correlation

Datu vizualizāciju veidi (ja paliek laiks)

Bar Chart: Used to represent categorical data with rectangular bars. It can be either horizontal or vertical.
Scatter Plot: Shows the relationship between two continuous variables by plotting individual data points on a two-dimensional plane.
Box Plot (Box and Whisker Plot) or candle stick: Displays the distribution of a dataset, showing the median, quartiles, and potential outliers.
Heatmap: A graphical representation of data where individual values in a matrix are represented as colors. Useful for visualizing relationships and patterns in large datasets.
Violin Plot: Combines a box plot and a kernel density plot, providing a more detailed view of the data distribution.
Area Chart: Represents data with filled-in areas between a line and an axis. Useful for visualizing trends over time.
Radar Chart (Spider Chart): Displays multivariate data in the form of a two-dimensional chart with multiple axes radiating from a central point.
Bubble Chart: Extends the concept of a scatter plot by adding a third variable that influences the size of the data points (bubbles).
Sankey Diagram: Visualizes the flow of data or resources between multiple entities, often used in process analysis or network flow representation.
Choropleth Map: Uses color shading or patterns to represent data values in specific geographic regions, such as countries, states, or counties.
Tree Map: Hierarchically displays data in nested rectangles, with the size of each rectangle representing a quantitative value.
Word Cloud: Represents text data by displaying words in varying sizes based on their frequency or importance.
Pareto Chart: Combines a bar chart and a line graph to highlight the most significant factors in a dataset, often used in quality control.
Gandrīz kā histogramma tikai ar summējošu līniju, ja aiziet līdz 100% nav diez ko jēgpilni
Waterfall Chart: Visualizes incremental changes in a value over a series of categories, useful for financial and budget analysis.
Network Graph: Displays relationships between entities in a network, with nodes representing entities and edges representing connections.
Scatter Matrix (Pair Plot): Shows scatter plots between multiple variables in a matrix format, making it easy to identify correlations and patterns.
Gantt Chart: Represents project schedules and timelines, displaying tasks or activities along a timeline. Asana JIRA
Sunburst Chart: Visualizes hierarchical data with multiple levels in a circular, sunburst-like layout.
Bullet Graph: A variation of a bar chart designed to display a single data point within a target range, often used in dashboard design.
Streamgraph: Displays the change in a set of data over time, with the area between the lines filled with color. Tas pats kas area graph

Datu veidi, ja paliek laiks

Image Data

Segmentation Labels: These labels indicate which pixels of an image belong to certain classes or groups, used in image segmentation tasks.
Classification Labels: Used for categorizing entire images into distinct classes.

Text Data

Translation Data: Pairs of sentences in two different languages, useful for training machine translation systems.
Audio Transcripts: Textual representation of spoken words, often used in natural language processing (NLP) and automatic speech recognition (ASR).

Numerical Data

Time Series Data: Sequences of numerical values recorded at regular or irregular intervals, often used in finance, weather forecasting, etc.
Graph Data: Consists of nodes and edges, used in social network analysis, recommendation systems, etc.

Tabular Data

Structured Data: Data in tables, usually with rows as entries and columns as features.
Spreadsheet Data: Similar to structured data but often includes metadata, formulas, and formatting.

Audio Data

Raw Audio: Unprocessed waveforms, often sampled at regular intervals.
Feature Extracted Audio: Mel-frequency cepstral coefficients (MFCCs), chroma feature, spectral contrast, etc.

Video Data

Raw Video: Consists of frames, each essentially an image.
Motion Capture Data: 3D coordinates of points on an object's surface over time.

Textual Meta-Data

Annotations and Labels: Handmade or automatically generated tags/notes for text, images, audio, or video.
JSON/XML files: Nested or hierarchical data structure, often used for configurations or data interchange between systems.

Geo-Spatial Data

Lat-Long Coordinates: Specifies points on the Earth's surface.
GeoJSON: A format for encoding a variety of geographic data structures.

Biological Data

Genomic Data: DNA sequences.
Proteomic Data: Information about proteins.

Sensor Data

IoT Data Streams: Data from Internet of Things (IoT) devices like smart thermostats, wearables, etc.
Telemetry Data: Data collected remotely, often from vehicles or systems monitoring their operational status.

User-Generated Content: Posts, comments, and other data types found on platforms like Facebook, Twitter, Reddit, etc.
Network Data: Information on how users interact, connect, or share content.

Log Files

Server Logs: Text or binary files automatically created by servers, containing a history of operations and transactions.

Medical Data

Medical Imaging: MRI scans, X-rays, etc.
Electronic Health Records: Structured and unstructured data including patient histories, diagnoses, medications, treatment plans, etc.

This list is by no means exhaustive, but it provides an overview of the types of data one might encounter in the field of data science.