Безмодельне навчання
У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.
Основні алгоритми безмодельного навчання з підкріпленням
Алгоритм | Опис | Модель | Стратегія | Множина дій | Простір станів | Оператор |
---|---|---|---|---|---|---|
DQN | Deep Q Network | Безмодельний | Поза стратегією | Дискретна | Безперервний | Q-значення |
DDPG | Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
A3C | Asynchronous Advantage Actor-Critic Algorithm | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
ТРПО | Trust Region Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
РРО | Proximal Policy Optimization | Безмодельний | За стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Безмодельний | Поза стратегією | Безперервна | Безперервний | Q-значення |
SAC | Soft Actor-Critic | Безмодельний | Поза стратегією | Безперервна | Безперервний | Перевага (англ. Advantage) |
Примітки
- Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 лютого 2019.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.