WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.

Aлгоритм Q-learning

Initialization (Инициализация):
1. for each s and a do Q[s, a] = RND // инициализируем функцию полезности Q от действия а в ситуации s как случайную для любых входных данных
Observe (Наблюдение):
1. s' = s // Запомнить предыдущие состояния
2. a' = a // Запомнить предыдущие действия
3. s = FROM_SENSOR // Получить текущие состояния с сенсора
4. r = FROM_SENSOR // Получить вознаграждение за предыдущее действие
Update (Обновление полезности):
1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) — Q[s',a'])
Decision (Выбор действия):
1. a = ARGMAX(Q, s)
2. TO_ACTIVATOR = a
Repeat: GO TO 2

Обозначения

LF — это фактор обучения. Чем он выше, тем сильнее агент доверяет новой информации.
DF — это фактор дисконтирования. Чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий.

Функция MAX(Q,s)

max = minValue
for each a of ACTIONS(s) do
1. if Q[s, a] > max then max = Q[s, a]
return max

Функция ARGMAX(Q,s)

amax = First of ACTION(s)
for each a of ACTION(s) do
1. if Q[s, a] > Q[s, amax] then amax = a
return amax

Литература

Стюарт Рассел, Питер Норвиг, «ИИ — современный подход»
Machine Learning Proceedings 1991: Proceedings of the Eighth International Workshop (ML91). — Elsevier Science, 2014. — P. 364. — ISBN 978-1-4832-9817-7.

См. также

Обучение с подкреплением

Ссылки

Это заготовка статьи об искусственном интеллекте. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии