2024-Q4-AI-LV-Business 2. Datu apstrāde, vizualizācija, dimensiju samazināšana

 

2.1. Video / Materials (11.12.2024 18:00)

Zoom (jānospiež ieraksts sākumā, pēc tam tiks ielikts youtube unlisted mode): https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.canva.com/design/DAGYW-pbqUY/r_WYOlKCNi4fHBeSC5u-bw/view?utm_content=DAGYW-pbqUY&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h05782d3aa8

Nepieciešamie rīki:

  1. Altair RapidMiner AI studio, https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer

  2. ChatGPT Pro versija http://chatgpt.com

Materiāli: https://neptune.ai/blog/data-preprocessing-guide https://estuary.dev/data-normalization/ https://dimensionless.in/principal-component-analysis-in-r/ https://medium.com/@ashwin8april/dimensionality-reduction-and-visualization-using-pca-principal-component-analysis-8489b46c2ae0 https://dimensionless.in/principal-component-analysis-in-r/

Nosūtīts invite uz canva tāfeli

image-20241204212019066

 

2.2. Datu kopas sagatavošana, vadoties pēc instrukcijām

Ievērojiet video instrukcijas un iesniedziet CSV vai Excel formātā, lai nodrošinātu datu tīrīšanu:

  1. Noņemiet datus no "Price" kolonnas, kas nebūtu jāievada mākslīgā intelekta modeļiem.

  2. Aizpildiet trūkstošos datus ar mediānas vērtībām "Prod. year." kolonnā (Nodoklis).

  3. Aprēķiniet p-vērtību "Price" kolonnai un nosakiet, vai šīs kolonnas dati ir statistiski nozīmīgi vai iegūti nejauši, salīdzinot ar "Prod. year."

  4. Konvertējiet "Manufacturer" sarakstu vektora formātā, lai būtu jaunas kolonnas "LEXUS" (vērtības 0 vai 1), "CHEVROLET" (vērtības 0 vai 1), utt. Nav nepieciešams manuāli konvertēt visas markas vektoru formātā, pietiek konvertēt vismaz 3 šādā veidā.

  5. Pārveidojiet "Mileage" kolonnu skaitliskās vērtībās bez "km" beigās.

Datu kopa: http://share.yellowrobot.xyz/quick/2023-9-14-9E29D326-E0C8-408B-8739-73316969F288.zip

2.3. Dimensiju samazināšana īrisu datu kopā

Implementējiet dimensiju samazināšanu, izmantojot PCA, t-SNE vai UMAP 2D formātā. Izmantojiet Altair RapidMiner AI studio. Pārliecinieties, ka iestatāt iezīmes, izmantojot pareizus datu tipus. Iekrāsojot klasterus pēc "spieces" kolonnas.

Iesniedziet klasterizācijas rezultātu ekrānšāviņus un Design ekrānšāviņus.

Obligāti izmantotais datu kopums: https://share.yellowrobot.xyz/quick/2024-12-4-50532E3A-4F77-437D-B4E8-DDA87942AF46.zip

2.4. Mājasdarbs: Dimensiju samazināšana pingvīnu datu kopā

Implementējiet dimensiju samazināšanu, izmantojot PCA, t-SNE vai UMAP 2D formātā. Izmantojiet Altair RapidMiner AI studio. Pārliecinieties, ka iestatāt iezīmes, izmantojot pareizus datu tipus. Iekrāsojot klasterus pēc "spieces" kolonnas. Pārveidojiet "island" kolonnu. one-hot-encoded formātā.

Iesniedziet klasterizācijas rezultātu ekrānšāviņus un Design ekrānšāviņus.

Obligāti izmantotais datu kopums: https://share.yellowrobot.xyz/quick/2024-12-2-55C86882-AC8D-4337-9E72-E2DD88F279A1.zip

2.5. Mājasdarbs: Analizēt un attīrīt ETF datu kopu (akciju tirgus tirdzniecība)

Izmantot laika rindas datu kopu par ETF (Exchange Traded Funds):

https://share.yellowrobot.xyz/quick/2024-5-2-9EABDAEB-3067-4BE9-A8F9-BC9464F360B4.zip

Manipulēt datu kopu, izmantojot Excel:

  1. Atlasīt tikai tos simbolus, kuriem dati ir pieejami no 2021. gada 1. oktobra līdz 2021. gada 1. novembrim.

  2. Kārtot simbolus pēc cenu svārstībām (noslēguma cenas standartnovirze vai vidējā vērtība) visā periodā un atlasīt 10 visvairāk svārstīgo simbolus.

  3. Grupēt pēc fonda simbola.

  4. Kārtot pēc cenas.

  5. Normalizēt cenu katram fonda simbolam individuāli (no 0 līdz 1).

Vizualizēt datu kopu:

  1. Histogrammas katram fonda simbolam, kas rāda cenas.

  2. Līniju diagramma ar pārklātiem 10 visvairāk svārstīgajiem simboliem, Y-asī izmantojot noslēguma cenu un X-asī datumu (ar simbolu nosaukumiem).

 


 

Iepriekšējo lekciju video piemēri

 

Video Live (par datu apstrādi) https://youtube.com/live/I5EFQd67le4?feature=share

 

Video (par PCA un dimension reduction izmantojot Altair AI studio). Nepaspēju korekti izstāstīt pirmajā video, bet vajadzētu smuki izstāstīt kā otrajā sākumā. https://youtube.com/live/lF1Nk-pBYNQ?feature=share

Whiteboard: https://whiteboard.fi/6784a8c1-3d00-41f6-9d49-2193b3e05846

 


 

Rīki

  1. Rīks ar kuru demonstrēt datu apstrādi ChatGPT Pro (ar CSV upload)

  2. Rīks ar kuru demonstrēt PCA, t-SNE: “Altair RapidMiner AI studio” (https://docs.rapidminer.com/latest/studio/installation/index.html#from-rapidminer) un https://biit.cs.ut.ee/clustvis/

 

Saturs

Auditorija pārsvarā ir uzņēmēji, nevis programmētāji, tāpēc demonstrēt visu ar ChatGPT Pro un Altair AI studio. Skaidrot jēgu nevis programmēšanas kodu. Mērķis iedot sapratni, ka ir jāveic datu priekš apstrāde, lai iegūtu labāko rezultātu modelēšanā, un ja māki vizualizēt, tad vari daudz labāk saprast datus. Uzdevumus lekcijas laikā un pēc tās pievienot moodle sistēmā.

  1. Lekcijas sākumā apskatīties prezentācijas mājasdarbu no iepriekšējās lekcijas, parādīt dažas labākās prezentācijas un nokomentēt no savas perspektīvas.

  2. Tabulāri dati, kas tas ir kā glabā CSV (Demonstrēt visu ar ChatGPT Pro). Excel var parādīt kā var filtrēt kolonas, iekrāsot pēc vērtību lieluma (jau sākt vizualizēt).

  3. Datu tipi - skalāri, kategoriju dati, kolonas kuras ir bezjēdzīgas (numurs pēc kārtas, čeku numurs, utt.)

  4. Trūkstošie dati - noņemt, mean, median, mode (parādīt vizuāli, ko nozīmē mean, median, mode uz eksponenciāla algu sadalījuma kā piemēru)

  5. Kategorisko datu apstrāde - one-hot encoding (pārvērst par kolonām brand_bmw, brand_chevrolet, utt.), embeddings (lai mākslīgā intelekta modeļi saprastu kategoriju datus). Skaidrojot index based classes, one-hot encoding, embeddings izmantot piemēru ar vektoru attālumiem, skaidrot, ka indexes attālumi ir dažādi atkarībā no pozīcijas, one-hot encoding ir vienāds attālums visām vērtībām, embeddings attālumi izvietojas pēc līdzības apmācību laikā.

  6. Parādīt kā novērtēt datu tīrību, atrast outliners vizuāli izmantojot histogrammas (ģenerēt ar ChatGPT Pro)

  7. Attīrīt outliner datus ar ChatGPT Pro (hard set limits, quantile method) pēc attīrīšanas parādīt histogrammas

  8. Datu normalizēšana. Kā piemēru dot, ka modelim nevar dot pilnīgi dāžādu skalu datus, ražošanas gadu un nobraukumu. Min-Max Normalization, Standardization.

  9. Paskaidrot kā strādā statistiskie testi, piemēram t-Test (p-test). Ar ChatGPT Pro pārādīt kā veikt t-testu starp 2 kolonnām, lai noteiktu vai ir statistiski nozīmīgas atšķirības starp tām. Ja nav statistiski nozīmīgas atšķirības, tad var izslēgt no modelēšanas. Excel arī ir vienkārši parādīt kā veikt t-testu =TTEST(A:A,B:B,2,1)

  10. Pastāstīt intuitīvi kā strādā PCA (ēnas piemērs), GIF ar projekcijas plakni un varianci. Paskaidrot par iespējām samazinot dimensiju skaitu labāk izprast datus, piemēram aptaujas, automašīnu pārdošanas datus. Pieminēt arī citas metodes: LDA, Linear PCA, Kernel PCA, t-SNE, UMAP. Paskaidrot, ka pirmā dimensija ir visvairāk variācijas, otrā dimensija ir vismazāk variācijas, un tā tālāk. Demonstrēt prakstiski visu ar Altair AI studio.

Parādīt Tensorboard piemēri, kurus var palaist un pademonstrēt kā daudzdimensiju datu vizualizāciju PCA, t-SNE, UMAP: https://share.yellowrobot.xyz/quick/2024-12-4-D8204305-C4F0-4A30-BB83-4F7B5EAE525F.zip šiem var palaist:

  1. Ja paliek laiks parādīt dažādus datu vizualizācijas piemērus ar ChatGPT Pro:

 


Vizualizēt un skaidrot kategorisko datu sagatavošanu modeļos

 

image-20241204220648043

Untitled (158)

 

Veids kā Excel aizpildīt trūkstošos datus. Nevajag obligāti rādīt kā Excel darīt.

Correlation cooficient. Šo arī var parādīt un izskaidrot ar ChatGPT Pro.

Valstī vidējās algas piemērs (X ass alga, Y ass cilvēku skaits) mean, vidējais - augstāks līmenis, skaisti dati atskaitēm median, mediāna - zemāks līmenis, tuvāk realitāte mode, moda - visbiežāk sastopamais skaitlis, ļoti slikts rādītājs

image-20241204215426394

 

Veids kā Excel veikt ONE hot encoding

image-20240411150451303

 

Excel t-test piemērs

image-20230914180619790

 

T-test skaidrojums

A one-tailed test is a statistical test that looks for an increase or decrease in the parameter in one direction, while a two-tailed test is a statistical test that looks for a change in the parameter in either direction.

two-tailed also for negative correlation

image-20230914174740348

image-20230914175549902

 

 

image-20241204212444468

 

Untitled (174)

 

image-20241204211409359

image-20230921173949045

image-20230921173855506

image-20230921174040426

 

 

image-20241125184302216

 

image-20230921172542187

 

image-20230921172652461

 

 

image-20230921172633087


image-20241125180728578

image-20241125180755705

 

 

image-20240502162813632

 

 


 

Datu vizualizāciju veidi (ja paliek laiks)

  1. Bar Chart: Used to represent categorical data with rectangular bars. It can be either horizontal or vertical.

  2. Scatter Plot: Shows the relationship between two continuous variables by plotting individual data points on a two-dimensional plane.

  3. Box Plot (Box and Whisker Plot) or candle stick: Displays the distribution of a dataset, showing the median, quartiles, and potential outliers. image-20230913160341906

  4. Heatmap: A graphical representation of data where individual values in a matrix are represented as colors. Useful for visualizing relationships and patterns in large datasets.

  5. Violin Plot: Combines a box plot and a kernel density plot, providing a more detailed view of the data distribution. image-20230913160510275

  6. Area Chart: Represents data with filled-in areas between a line and an axis. Useful for visualizing trends over time. image-20230913160552565

  7. Radar Chart (Spider Chart): Displays multivariate data in the form of a two-dimensional chart with multiple axes radiating from a central point. image-20230913160617445

  8. Bubble Chart: Extends the concept of a scatter plot by adding a third variable that influences the size of the data points (bubbles). image-20230913160652187

  9. Sankey Diagram: Visualizes the flow of data or resources between multiple entities, often used in process analysis or network flow representation. image-20230913160715940

  10. Choropleth Map: Uses color shading or patterns to represent data values in specific geographic regions, such as countries, states, or counties. image-20230913160919529

  11. Tree Map: Hierarchically displays data in nested rectangles, with the size of each rectangle representing a quantitative value. image-20230913160942159

  12. Word Cloud: Represents text data by displaying words in varying sizes based on their frequency or importance. image-20230913161004051

  13. Pareto Chart: Combines a bar chart and a line graph to highlight the most significant factors in a dataset, often used in quality control.

  14. image-20230913161238973 Gandrīz kā histogramma tikai ar summējošu līniju, ja aiziet līdz 100% nav diez ko jēgpilni image-20230913161538078

  15. Waterfall Chart: Visualizes incremental changes in a value over a series of categories, useful for financial and budget analysis. image-20230913161637186

  16. Network Graph: Displays relationships between entities in a network, with nodes representing entities and edges representing connections. image-20230913161716396

  17. Scatter Matrix (Pair Plot): Shows scatter plots between multiple variables in a matrix format, making it easy to identify correlations and patterns. image-20230913161925223

  18. Gantt Chart: Represents project schedules and timelines, displaying tasks or activities along a timeline. Asana JIRA image-20230913162001154

  19. Sunburst Chart: Visualizes hierarchical data with multiple levels in a circular, sunburst-like layout. image-20230913162025589

  20. Bullet Graph: A variation of a bar chart designed to display a single data point within a target range, often used in dashboard design. image-20230913162112403

  21. Streamgraph: Displays the change in a set of data over time, with the area between the lines filled with color. Tas pats kas area graph image-20230913162216366

 

Datu veidi, ja paliek laiks

Image Data

  1. Segmentation Labels: These labels indicate which pixels of an image belong to certain classes or groups, used in image segmentation tasks.

  2. Classification Labels: Used for categorizing entire images into distinct classes.

Text Data

  1. Translation Data: Pairs of sentences in two different languages, useful for training machine translation systems.

  2. Audio Transcripts: Textual representation of spoken words, often used in natural language processing (NLP) and automatic speech recognition (ASR).

Numerical Data

  1. Time Series Data: Sequences of numerical values recorded at regular or irregular intervals, often used in finance, weather forecasting, etc.

  2. Graph Data: Consists of nodes and edges, used in social network analysis, recommendation systems, etc.

Tabular Data

  1. Structured Data: Data in tables, usually with rows as entries and columns as features.

  2. Spreadsheet Data: Similar to structured data but often includes metadata, formulas, and formatting.

Audio Data

  1. Raw Audio: Unprocessed waveforms, often sampled at regular intervals.

  2. Feature Extracted Audio: Mel-frequency cepstral coefficients (MFCCs), chroma feature, spectral contrast, etc.

Video Data

  1. Raw Video: Consists of frames, each essentially an image.

  2. Motion Capture Data: 3D coordinates of points on an object's surface over time.

Textual Meta-Data

  1. Annotations and Labels: Handmade or automatically generated tags/notes for text, images, audio, or video.

  2. JSON/XML files: Nested or hierarchical data structure, often used for configurations or data interchange between systems.

Geo-Spatial Data

  1. Lat-Long Coordinates: Specifies points on the Earth's surface.

  2. GeoJSON: A format for encoding a variety of geographic data structures.

Biological Data

  1. Genomic Data: DNA sequences.

  2. Proteomic Data: Information about proteins.

Sensor Data

  1. IoT Data Streams: Data from Internet of Things (IoT) devices like smart thermostats, wearables, etc.

  2. Telemetry Data: Data collected remotely, often from vehicles or systems monitoring their operational status.

Social Media Data

  1. User-Generated Content: Posts, comments, and other data types found on platforms like Facebook, Twitter, Reddit, etc.

  2. Network Data: Information on how users interact, connect, or share content.

Log Files

  1. Server Logs: Text or binary files automatically created by servers, containing a history of operations and transactions.

Medical Data

  1. Medical Imaging: MRI scans, X-rays, etc.

  2. Electronic Health Records: Structured and unstructured data including patient histories, diagnoses, medications, treatment plans, etc.

This list is by no means exhaustive, but it provides an overview of the types of data one might encounter in the field of data science.