Video:
https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877
Passcode: 388048
Invite nosūtīts: aigaandrijanova@gmail.com
Atrast vismaz vienu uzņēmumu, kurš pielieto stimulēto māšīnmācīšanos (Reinforcement learning) savos biznesa procesos. Nedrīkst izmantot manis minētos piemērus - datorspēles, analītsko ķīmiju, akciju tirgošanā, ChatGPT vai Robotiku. Norādīt uzņēmuma nosaukumu (ar atsauci) un kā viņi pielieto stimulēto māšīnmācīšanos (Reinforcement learning). Iesniegt PDF.
Pastāstīt par apmācību veidiem, kurus esam apguvuši - nepārraudzītā apmācība, parraudzītā apmācība un visbeidzot stimulētā māšīnmācīšanās. Yann LeCunn metofara ar kūku. Pastāstīt katrā veidā, kur ir atsķirības un kādi galvenie pielietojumi.
Reinforcement learning
Supervised learning
Unsupervised learning (Pastāstīt, kā šos var lietot anomāliju noteikšanā un sejas re-identifikācijā piemēram)
Pastāstīt par modeļu veidiem un darbības principiem
Stāvokļa vērtības modelis
Pasaules modelis (rollout)
Aģents un Kritiķis pieeja
Pastātīt par plusiem un mīnusiem citām metodēm un RL metodēm
Plusi: Vajag tikai balvas signālu - nevajag detalizētu plānu
Mīnusi: Vajag dinamisku vidi, kur veikt apmācību uz 1000+ epizodēm
^ iznīcīnātu rēalu virtuvi
^ Vispirms iemācās pasaules modeli un tad RL (Tesla world model)
Piemērots:
Problēmām, kuras nevar izskaitļot, piemēram, Traveling Salesman Problem (TSP). Transportā un loģistikā
Vērtspapīru, resursu, elektroenerģijas tirzniecības lēmumu pieņemšanā
Robotizācijā, automatizācijā, datorspēlēs kur sarežģīti aprakstīt ar likumiem visu darbības plānu
Farmācijā zāļu atklāšanā un dažādu analītisko procesu prognozē. Piemēram ASYA projekts hromotagrofijā un masas spektometrijā vielu sadalīšanai. Kā vērtības funkcija tiek izmantota pīķu sadalīšanās kritērijs, bet mainīgie ir sistēmas paramateri. Pirmais eksperiments pret pēdējo, kur vielas daudz labāk atdalījušas. Iepriekš vajadzēja 2 nedēļas manuāli meklēt parametrus, tagad 2h automātiski atrod
LLM, ChatGPT RLHF daļa arī balstās uz stimulēto mašīnmācīšanos. Bez tās mums šodien nebūtu ChatGPT un tas spētu tikai atbildēt ar atbildēm, kuras ir līdzīgas datu kopā nevis veidot atbildes pēc mūsu patikas.
Pastāstīt par datorspēļu pielietojumiem un RL attīstību
Pastāstīt par Robotiku un to pielietojumiem
Pastāstīt par Robot Operating System un robotizētajām platformām gan ražotnēs, gan mobilajiem robotiem - cik tie izmaksā un kādas funkcijas ir spējīgi veikt
Tikpat labi jebkura biznesa problemātika, kuru var ietērpt simulācijas vidē un veikt eksperimentus 1000+ reizes bez ievērojamiem zaudējumiem.
Vēsture:
Deep Blue, Chess, 1997 IBM
Watson, Jeopardy!, 2011 IBM
Deep Q-Network (DQN) for Atari games, 2023, DeepMind
AlphaGo, Go, 2016, Google DeepMind
Multi-Agent RL, 2020, Google DeepMind
OpenAI Five, Dota2, 2020
AphaStar, Starcarft 2, 2020, Google DeepMind
ChatGPT - Reinforcement Learning from Human Feedback (RLHF), 2022
Self-Driving Tesla FSD, Waymo, Comma One 2024
Robotics (FigureOne, Tesla bot, Unitree, Boston Dynamics), 2026-2028
Atrast varbūt vēl kādu noderīgu piemēru
Par katru pastāstīt vairāk kontekstu.
Ļoti maz no RL, bet pirmais notietnais mēģinājums
https://www.youtube.com/watch?v=NJarxpYyoFI
Arī maz RL
https://www.youtube.com/watch?v=WFR3lOm_xhE
Pirmie funkcionāli spējīgie RL modeļi, kuri tika apmācīti tikai ar tiem pašiem ievades-izvades laukiem kā cilvēki spēlē Atari spēles. Darbs publicēt prestižajā žurnālā Nature.
https://www.youtube.com/watch?v=rQIShnTz1kU
Patiess RL modelis. Pirms tam simtiem gadus tika sarakstītas grāmatas par Go spēli, bet AI spēja atrast paņēmienus, kurus neviens nebija iedomājies.
Multi-agents surf boxes, hide and seek piemērs un dažādi interesanti paņēmieni, kurus aģenti iemācījās spēlē. Neviens nesaporgrammēja tos gājienus, bet aģents pats iemācījās.
https://www.youtube.com/watch?v=kopoLzvh5jY
Čatā spēlētāji sarakstījās ar AI, izsmēja un tieši, kad AI rakstīja, ka uzvarēs ar 99% varbūtību pēc brīža sakāva labākos pasaules Dota2 spēlētājus. AI tika ierobežots click-rate. Pēc spēles intervijā spēlētāji teica, ka bija sajūta kā spēlēt ar pārcilvēku / citplanētieti.
https://www.youtube.com/watch?v=tfb6aEUMC04&t=373s
AI atšķirībā no cilvēka ir spējgs paralēli fokusēties uz visām vienībām spēlē (super micro-management) https://www.youtube.com/watch?v=FWbVseLiopw
Senāk robotus programmēja izmantojot RobotStudio atzīmējot katru kustību un darbību secīgi.
https://www.youtube.com/watch?v=SqZUfTOnfLY
Mūsdienās ir iespējams
Robota roka simulācijā https://youtu.be/ub4ZyegbTSw?t=269 Robota roka reālā dzivē https://www.youtube.com/watch?v=ZVIxt2rt1_4
Google PaLM-E roboti jau tiek savienoti ar LLM, lai varētu tos ērti vadīt bez nekādas sarežģītas apmācības
https://www.youtube.com/watch?v=j6O_uePUKKI
Praktiski vēljoprojām lielākā daļa robotu tomēr nav tik attīstīti.
Amazon rūpnīca Roboti pilda loģistikas fukciju (šeit visticamāk nav nepieciešams RL, bet tik un tā tos jau praktiski var izmantot biznesā)
https://www.youtube.com/watch?v=TUx-ljgB-5Q
Par Times 2024 lielāko izgudrojumu sarakstā bija vesela sadaļa par robotiku. https://time.com/collection/best-inventions-2024/
Pašlaik komerciāli risinājumi, kuri jau var tikt izmantoti biznesā:
Boston Dynamics - Spot & Atlas - sākotn no 100k https://www.youtube.com/watch?v=50eli-eOPO4&pp=ygUVYm9zdG9uIGR5bmFtaWNzIHJvYm90 https://www.youtube.com/watch?v=bmNaLtC6vkU&t=202s&pp=ygUVYm9zdG9uIGR5bmFtaWNzIHJvYm90
Unitree Go2 - sākot no 3000 EUR izklaidei, praktiskāki modeļi sākot no 20k EUR
https://www.youtube.com/watch?v=6zPvT0ig1VM&pp=ygUMdW5pdGVlIHJvYm90 https://www.youtube.com/watch?v=GzX1qOIO1bE&pp=ygUMdW5pdGVlIHJvYm90
Figure 01 (Sadarbība ar BMW rūpnīcām) https://www.youtube.com/watch?v=Sq1QZB5baNw&t=56s&pp=ygUJZmlndXJlIDAx
^ Uz robotsuņa platformas var uzstādīt arī roku un dāžadus citus sensorus
Komerciāli risinājumi roboti apsardzē, kuri spēj pilnībā aizstāt cilvēku (Robot as a service apmēram 3000EUR/mēn)
Jāmeklē pielietojumi, kur tie atmaksājas
Piemēram neatmaksājas Starship robots pēdējā km piegādei, kur 10 gadi un 200m EUR ieguldīti, bet tas nav darbs, kuru ir vērts automatizēt.
Vēl citi pielietojumi: https://x.com/chris_j_paxton/status/1818015665472815564
Var mazliet ieskicēt kā strādā šī modulārā sistēma un kādi moduļi pieejami kā atvērtais kods:
SLAM (Gmapping, Cartographer) - kas tas ir un kas pieejams
RViz, MoveIT, Gazeebo - Simulāciju vides, lai sagatavotu robotu darbam virtuāli. Kā arī inversās kinemātikas funkcijas, lai izrēķinātu trajektorijas kā manipulators nonāk līdz viotai kur nepieciešams
Iebūvēti draiveri visām galvenājām robotu platformām mūsdienās
Vision_OPENCV