Уравнение Гамильтона — Якоби — Беллмана — дифференциальное уравнение в частных производных, играющее центральную роль в теории оптимального управления. Решением уравнения является функция значения (англ. value function), которая даёт оптимальное значение для управляемой динамической системы с заданной функцией цены.
Если уравнения Гамильтона — Якоби — Беллмана решаются в какой-то части пространства, они играют роль необходимого условия, при решении во всем пространстве, они так же становятся достаточным условием для оптимального решения. Методика может быть также применена к стохастическим системам.
Классические вариационные задачи (например, задача о брахистохроне) могут быть решены с использованием этого метода.
Уравнение является результатом развития теории динамического программирования, первопроходцем которой является Ричард Беллман и его сотрудники.[1]
Соответствующее уравнение с дискретным временем называется просто уравнением Беллмана. При рассмотрении задачи с непрерывным временем, полученные уравнения могут рассматриваться как продолжение более ранних работ в области теоретической физики, связанных с уравнением Гамильтона — Якоби.
Рассмотрим следующую задачу оптимального управления на промежутке времени :
С и D — функции стоимости, определяющие соответственно интегральную и терминальную часть функционала. x(t) — вектор, определяющий состояние системы в каждый момент времени. Его начальное значение x(0) считается известным. Вектор управления u(t) следует выбрать таким образом, чтобы добиться минимизации значения V
Эволюция системы под действием управления u(t) описывается следующим образом:
Для такой простой динамической системы, уравнения Гамильтона-Якоби-Беллмана принимают следующий вид:
(под подразумевается скалярное произведение) и задаются значением в конечный момент времени T
Неизвестная в этом уравнении — беллмановская 'функция значения' V(x, t), которая отвечает максимальной цене, которую можно получить, ведя систему из состояния (x, t) оптимальным образом до момента времени T. Соответственно, интересующая нас оптимальная стоимость — значение V=V(x(0), 0).
Продемонстрируем интуитивные рассуждения, которые приводят к этому уравнению. Пусть — функция значения, тогда рассмотрим переход от момента времени t к моменту t+dt в соответствии с принципом Беллмана.
Разложим последнее слагаемое по Тейлору:
Осталось перенести V(x, t) влево, поделить на dt и перейти к пределу.
Для улучшения этой статьи по математике желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .