
Discrete-Time Markov Control Processes: Basic Optimality Criteria
Niniejsza książka stanowi pierwszą część planowanej dwutomowej serii poświęconej systematycznej ekspozycji niektórych najnowszych osiągnięć w teorii dyskretnych procesów sterowania Markowa (MCP). Zainteresowanie jest głównie ograniczone do MCP z borelowskimi przestrzeniami stanu i sterowania (lub działania) oraz potencjalnie nieograniczonymi kosztami i niekompletnymi zbiorami ograniczeń sterowania.
MCP są klasą stochastycznych problemów sterowania, znanych również jako procesy decyzyjne Markowa, kontrolowane procesy Markowa lub stochastyczne procesy dynamiczne; czasami, zwłaszcza gdy przestrzeń stanów jest zbiorem policzalnym, są one również nazywane łańcuchami decyzyjnymi Markowa (lub kontrolowanymi łańcuchami Markowa). Niezależnie od używanej nazwy, MCP pojawiają się w wielu dziedzinach, na przykład w inżynierii, ekonomii, badaniach operacyjnych, statystyce, zarządzaniu odnawialnymi i nieodnawialnymi źródłami energii, (kontroli) epidemii itp. Jednak większość literatury (powiedzmy, co najmniej 90%) koncentruje się na MCP, dla których (a) przestrzeń stanów jest zbiorem policzalnym i / lub (b) koszty na etap są ograniczone i / lub (c) zbiory ograniczeń sterowania są zwarte.
Co ciekawe, najczęściej stosowany model sterowania w inżynierii i ekonomii - mianowicie model LQ (system liniowy/koszt kwadratowy) - nie spełnia żadnego z tych warunków. Co więcej, gdy mamy do czynienia z systemami częściowo obserwowalnymi, standardowym podejściem jest przekształcenie ich w równoważne, całkowicie obserwowalne systemy w większej przestrzeni stanów (w rzeczywistości przestrzeni miar prawdopodobieństwa), która jest niepoliczalna, nawet jeśli oryginalny proces stanu jest skończony.