
Model-based Reinforcement Learning: A Survey
Sekwencyjne podejmowanie decyzji, powszechnie sformalizowane jako optymalizacja Markov Decision Process (MDP), jest ważnym wyzwaniem w sztucznej inteligencji. Dwa kluczowe podejścia do tego problemu to uczenie ze wzmocnieniem (RL) i planowanie. Niniejsza monografia bada integrację obu dziedzin, lepiej znaną jako uczenie ze wzmocnieniem oparte na modelu.
RL oparte na modelach składa się z dwóch głównych etapów: uczenia się modelu dynamiki i integracji planowania i uczenia się. W tym kompleksowym przeglądzie tematu autorzy najpierw omawiają uczenie się modeli dynamiki, w tym wyzwania, takie jak radzenie sobie ze stochastycznością, niepewnością, częściową obserwowalnością i abstrakcją czasową. Następnie przedstawiają systematyczną kategoryzację integracji planowania i uczenia się, w tym aspekty takie jak: od czego zacząć planowanie, jakie budżety przeznaczyć na planowanie i gromadzenie rzeczywistych danych, jak planować i jak zintegrować planowanie z pętlą uczenia się i działania.
Podsumowując, autorzy omawiają niejawną RL opartą na modelach jako kompleksową alternatywę dla uczenia się i planowania modeli oraz omawiają potencjalne korzyści RL opartej na modelach. Po drodze autorzy rysują powiązania z kilkoma pokrewnymi dziedzinami RL, w tym hierarchiczną RL i uczeniem transferowym.
Niniejsza monografia zawiera szeroki przegląd koncepcyjny połączenia planowania i uczenia się dla optymalizacji Markowskiego Procesu Decyzyjnego. Stanowi ona jasne i kompletne wprowadzenie do tematu zarówno dla studentów, jak i badaczy.