2024-Q1-AI-M 14. DQN DDQN

 

 

14.1. Video / Materials

Video: https://youtube.com/live/LdMZxZCnOYE?feature=share

Jamboard: https://jamboard.google.com/d/1f5mDiJ2OQqqWfpGHZgYjqhcrUKgeG5981P51EmTmRjc/edit?usp=sharing

Sagatavošanās materiāli: Rainbow DQN: https://arxiv.org/abs/1710.02298 https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html https://medium.freecodecamp.org/an-introduction-to-reinforcement-learning-4339519de419

 

Youtube key: 5xhf-hapq-b6w3-p2hr-cmet


 

Iepriekšējā gada video

Video https://youtu.be/tiaoLNMWZUA

Jamboard: https://jamboard.google.com/d/18gFXn4E36cP9P25wSKpvGgEv1mlAnKfDQbB7fGTDPi0/viewer

 

Pabeigts pirmkods: https://share.yellowrobot.xyz/quick/2024-5-7-B0676B73-317D-4B10-9015-49304BA00A70.zip

 


 

14.2. Implementēt DQN

Balstoties uz 14.1. materiāliem un video implementēt DQN, izmantojot sagatavi.

Iesniegt kodu un ekrānšāviņus ar rezultātiem.

requirements.txt: https://share.yellowrobot.xyz/quick/2024-5-7-F3F3DD22-6A51-4328-BE43-4DDAA91E50E4.zip

Template: https://share.yellowrobot.xyz/quick/2024-5-7-817F6F38-5604-480F-A879-457AE8C4B767.zip

Windows fix, ja neiet template: image-20240507003736779

 


14.3. Implementēt DDQN

Implementēt DDQN, balstoties uz uzdevuma sagatavi: https://share.yellowrobot.xyz/quick/2024-5-7-8D323D7A-938E-4077-A6FF-FE3B068E2941.zip

Iesniegt kodu un ekrānšāviņus ar rezultātiem.

Vienādojums: http://share.yellowrobot.xyz/1628158950-vea-rtu-course-2020-q1/ddqn.png


 

14.4. Mājasdarbs - Dueling DDQN + MountainCar

  1. Balstoties uz 14.3 kodu, implementēt jaunu vidi MountainCar: https://gym.openai.com/envs/MountainCar-v0

  2. Implementēt Dueling DDQN modeļa arhitektūru

  3. Iesniegt kodu un ekrānšāviņus ar rezultātiem.

Modeļa shēma: http://share.yellowrobot.xyz/1628158950-vea-rtu-course-2020-q1/dual.png

Modeļa apraksts: https://arxiv.org/abs/1511.06581


Terminoloģija

Aģents (agent) — apmācāmais un lēmumu pieņēmējs.

Vide (environment) — kur aģents mācās un izlemj, kādas darbības veikt.

Darbība (action) — darbību kopums, ko aģents var veikt.

Stāvoklis (state) — aģenta stāvoklis vidē.

Atlīdzība (reward) — par katru aģenta izvēlēto darbību vide nodrošina atlīdzību; parasti skalāra vērtība.

Politika (policy) — aģenta lēmumu pieņemšanas funkcija (kontroles stratēģija), kas atspoguļo kartēšanu no situācijas uz darbībām.

Vērtības funkcija (value function) — kartēšana no stāvokļiem uz reāliem skaitļiem, kur stāvokļa vērtība atspoguļo ilgtermiņa atlīdzību, kas iegūta, sākot no šī stāvokļa un izpildot noteiktu politiku.

 

Bezmodeļa — nosaka optimālo politiku, neizmantojot vai nenovērtējot vides dinamiku (pārejas un atlīdzības funkcijas)

Balstīta uz modeli — izmanto pārejas funkciju (un atlīdzības funkciju), lai novērtētu optimālo politiku

 

Materials

image-20230724151933003

6CFCE675-1F3C-4980-8DF0-7A304ECBEC23

image-20230724151953609

ECDB0E4E-5E4D-4BE5-A719-BBD0A29F9689-2

317CD11B-0003-4132-B1BD-DC4C90EA4852

E9105FA6-104A-49F9-AA3F-A56A4DA89C9C

F783C618-5E70-4477-BB75-ADF03ADF5264

CF51809D-04EE-4CDD-B340-A8122E59E04D

D416AFAD-E68B-4106-8BF5-F532C8DFD17E

 

C95CFEC9-C2B8-48D4-BA46-8A16CD97A54A

 

3780603F-CE1A-4004-89DE-7127000CF9DB

 

18054E82-30E9-486B-9498-A00131F7BA3B

3761D110-C085-45E0-87BE-E84ED73595DF

385F5BB1-823B-43EF-ACFA-0E3829E0836D

45BE7E4B-55B6-49CD-A974-AEA4BEEA3AAA

Untitled (49)

Untitled (48)

Untitled (47)

Untitled (46)

Untitled (45)

Untitled (44)

Untitled (43)

Untitled (42)