2024-Q1-AI-M 14. DQN DDQN

Balstoties uz 14.3 kodu, implementēt jaunu vidi MountainCar: https://gym.openai.com/envs/MountainCar-v0
Implementēt Dueling DDQN modeļa arhitektūru
Iesniegt kodu un ekrānšāviņus ar rezultātiem.

Modeļa shēma: http://share.yellowrobot.xyz/1628158950-vea-rtu-course-2020-q1/dual.png

Modeļa apraksts: https://arxiv.org/abs/1511.06581

Terminoloģija

Aģents (agent) — apmācāmais un lēmumu pieņēmējs.

Vide (environment) — kur aģents mācās un izlemj, kādas darbības veikt.

Darbība (action) — darbību kopums, ko aģents var veikt.

Stāvoklis (state) — aģenta stāvoklis vidē.

Atlīdzība (reward) — par katru aģenta izvēlēto darbību vide nodrošina atlīdzību; parasti skalāra vērtība.

Politika (policy) — aģenta lēmumu pieņemšanas funkcija (kontroles stratēģija), kas atspoguļo kartēšanu no situācijas uz darbībām.

Vērtības funkcija (value function) — kartēšana no stāvokļiem uz reāliem skaitļiem, kur stāvokļa vērtība atspoguļo ilgtermiņa atlīdzību, kas iegūta, sākot no šī stāvokļa un izpildot noteiktu politiku.

Bezmodeļa — nosaka optimālo politiku, neizmantojot vai nenovērtējot vides dinamiku (pārejas un atlīdzības funkcijas)

Balstīta uz modeli — izmanto pārejas funkciju (un atlīdzības funkciju), lai novērtētu optimālo politiku