Video: https://youtube.com/live/LdMZxZCnOYE?feature=share
Jamboard: https://jamboard.google.com/d/1f5mDiJ2OQqqWfpGHZgYjqhcrUKgeG5981P51EmTmRjc/edit?usp=sharing
Sagatavošanās materiāli: Rainbow DQN: https://arxiv.org/abs/1710.02298 https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html https://medium.freecodecamp.org/an-introduction-to-reinforcement-learning-4339519de419
Youtube key: 5xhf-hapq-b6w3-p2hr-cmet
Iepriekšējā gada video
Video https://youtu.be/tiaoLNMWZUA
Jamboard: https://jamboard.google.com/d/18gFXn4E36cP9P25wSKpvGgEv1mlAnKfDQbB7fGTDPi0/viewer
Pabeigts pirmkods: https://share.yellowrobot.xyz/quick/2024-5-7-B0676B73-317D-4B10-9015-49304BA00A70.zip
Balstoties uz 14.1. materiāliem un video implementēt DQN, izmantojot sagatavi.
Iesniegt kodu un ekrānšāviņus ar rezultātiem.
requirements.txt: https://share.yellowrobot.xyz/quick/2024-5-7-F3F3DD22-6A51-4328-BE43-4DDAA91E50E4.zip
Template: https://share.yellowrobot.xyz/quick/2024-5-7-817F6F38-5604-480F-A879-457AE8C4B767.zip
Windows fix, ja neiet template:
Implementēt DDQN, balstoties uz uzdevuma sagatavi: https://share.yellowrobot.xyz/quick/2024-5-7-8D323D7A-938E-4077-A6FF-FE3B068E2941.zip
Iesniegt kodu un ekrānšāviņus ar rezultātiem.
Vienādojums: http://share.yellowrobot.xyz/1628158950-vea-rtu-course-2020-q1/ddqn.png
Balstoties uz 14.3 kodu, implementēt jaunu vidi MountainCar: https://gym.openai.com/envs/MountainCar-v0
Implementēt Dueling DDQN modeļa arhitektūru
Iesniegt kodu un ekrānšāviņus ar rezultātiem.
Modeļa shēma: http://share.yellowrobot.xyz/1628158950-vea-rtu-course-2020-q1/dual.png
Modeļa apraksts: https://arxiv.org/abs/1511.06581
Aģents (agent) — apmācāmais un lēmumu pieņēmējs.
Vide (environment) — kur aģents mācās un izlemj, kādas darbības veikt.
Darbība (action) — darbību kopums, ko aģents var veikt.
Stāvoklis (state) — aģenta stāvoklis vidē.
Atlīdzība (reward) — par katru aģenta izvēlēto darbību vide nodrošina atlīdzību; parasti skalāra vērtība.
Politika (policy) — aģenta lēmumu pieņemšanas funkcija (kontroles stratēģija), kas atspoguļo kartēšanu no situācijas uz darbībām.
Vērtības funkcija (value function) — kartēšana no stāvokļiem uz reāliem skaitļiem, kur stāvokļa vērtība atspoguļo ilgtermiņa atlīdzību, kas iegūta, sākot no šī stāvokļa un izpildot noteiktu politiku.
Bezmodeļa — nosaka optimālo politiku, neizmantojot vai nenovērtējot vides dinamiku (pārejas un atlīdzības funkcijas)
Balstīta uz modeli — izmanto pārejas funkciju (un atlīdzības funkciju), lai novērtētu optimālo politiku