Управляемый случайный процесс

Управля'емый случа'йный проце'сс, случайный процесс, вероятностные характеристики которого можно изменять с помощью управляющих воздействий. Основная цель теории У. с. п. – отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из математических постановок задачи нахождения оптимального управления формулируется следующим образом. Пусть X d = (x n , ), n = 0, 1,..., – семейство однородных марковских цепей с конечным числом состояний Е = {0, 1, ..., N} и матрицами переходных вероятностей P xy (d ) = {x 1 = у }, зависящих от параметра d, принадлежащего некоторому множеству управляющих воздействий D. Набор функций a = {а 0 (x 0 ), a 1 (x 0 , x 1 ),... } со значениями в D называют стратегией, а каждую из функций a n = а п (х 0 ,..., х п ) – управлением в момент времени n. Каждой стратегии a отвечает управляемая марковская цепь X a = (х п , ), n = 0, 1,..., где

(x 0 , x 1 ..., х п ) = d(х 0 , х ) Рх 0 х 1 (a 0 (x 0 ))... Px n-1 x n (a n-1 (x 0 , x 1 ,..., x n-1 ))

Пусть:

где функция f (d, х ) ³ 0 и f (d, 0) = 0 (если точка {0} является поглощающим состоянием и f (d, x ) = I, d Î D, x = 1,..., N, то V a (x ) есть матем. ожидание времени попадания из точки х в точку 0). Функцию

называется ценой, а стратегию а * – оптимальной, если = V (x ) для всех х Î Е.

При довольно общих предположениях о множестве D устанавливается, что цена V (x ) удовлетворяет следующему уравнению оптимальности (уравнению Беллмана):

,

где

.

В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а (х ) такой, что a n (x 0 ,..., x n ) = a (x n ) при всех n = 0, 1,...

Следовательно, критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции a * = а* (х ) и V* = V* (x ) такие, что для любого d Î D

0 = f (x, a* (x )) + L a *V* £ f (x, d ) + L d V* (x )

(L d = T d – I, I – единичный оператор), тогда V * является ценой (V * = V ) и стратегия a* = a*(х ) является оптимальной.

Лит.: Ховард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964.

А. Н. Ширяев.

Загрузка...