WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Уравнение Гамильтона — Якоби — Беллмана — дифференциальное уравнение в частных производных, играющее центральную роль в теории оптимального управления. Решением уравнения является функция значения (англ. value function), которая даёт оптимальное значение для управляемой динамической системы с заданной функцией цены.

Если уравнения Гамильтона — Якоби — Беллмана решаются в какой-то части пространства, они играют роль необходимого условия, при решении во всем пространстве, они так же становятся достаточным условием для оптимального решения. Методика может быть также применена к стохастическим системам.

Классические вариационные задачи (например, задача о брахистохроне) могут быть решены с использованием этого метода.

Уравнение является результатом развития теории динамического программирования, первопроходцем которой является Ричард Беллман и его сотрудники.^[1]

Соответствующее уравнение с дискретным временем называется просто уравнением Беллмана. При рассмотрении задачи с непрерывным временем, полученные уравнения могут рассматриваться как продолжение более ранних работ в области теоретической физики, связанных с уравнением Гамильтона — Якоби.

Задачи оптимального управления

Рассмотрим следующую задачу оптимального управления на промежутке времени $[0,T]$ :

V=\min _{u}\left\{\int _{0}^{T}C[x(t),u(t)]\,dt+D[x(T)]\right\}

С и D — функции стоимости, определяющие соответственно интегральную и терминальную часть функционала. x(t) — вектор, определяющий состояние системы в каждый момент времени. Его начальное значение x(0) считается известным. Вектор управления u(t) следует выбрать таким образом, чтобы добиться минимизации значения V

Эволюция системы под действием управления u(t) описывается следующим образом:

{\dot {x}}(t)=F[x(t),u(t)]

Уравнение в частных производных

Для такой простой динамической системы, уравнения Гамильтона-Якоби-Беллмана принимают следующий вид:

{\dot {V}}(x,t)+\min _{u}\left\{\nabla V(x,t)\cdot F(x,u)+C(x,u)\right\}=0

(под $a\cdot b$ подразумевается скалярное произведение) и задаются значением в конечный момент времени T

V(x,T)=D(x),

Неизвестная в этом уравнении — беллмановская 'функция значения' V(x, t), которая отвечает максимальной цене, которую можно получить, ведя систему из состояния (x, t) оптимальным образом до момента времени T. Соответственно, интересующая нас оптимальная стоимость — значение V=V(x(0), 0).

Вывод уравнения

Продемонстрируем интуитивные рассуждения, которые приводят к этому уравнению. Пусть $V(x(t),t)$ — функция значения, тогда рассмотрим переход от момента времени t к моменту t+dt в соответствии с принципом Беллмана.

V(x(t),t)=\min _{u}\left\{C(x(t+dt),u(t+dt))\,dt+V(x(t+dt),t+dt)\right\}.

Разложим последнее слагаемое по Тейлору:

V(x(t+dt),t+dt)=V(x(t),t)+{\dot {V}}(x(t),t)\,dt+\nabla V(x(t),t)\cdot {\dot {x}}(t)\,dt+o(dt^{2}),

Осталось перенести V(x, t) влево, поделить на dt и перейти к пределу.

Примечания

↑ R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.

Литература

R.E Bellman: Dynamic Programming and a new formalism in the calculus of variations. Proc. Nat. Acad. Sci. 40 1954 231—235.
R.E Bellman: Dynamic Programming, Princeton 1957.
R. Bellman & S. Dreyfus: An application of dynamic programming to the determination of optimal satellite trajectories. J. Brit.Interplanet. Soc. 17 1959 78-83.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.