Безмодельне навчання

У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Основні алгоритми безмодельного навчання з підкріпленням

Алгоритм Опис Модель Стратегія Множина дій Простір станів Оператор
DQN Deep Q Network Безмодельний Поза стратегією Дискретна Безперервний Q-значення
DDPG Deep Deterministic Policy Gradient Безмодельний Поза стратегією Безперервна Безперервний Q-значення
A3C Asynchronous Advantage Actor-Critic Algorithm Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
ТРПО Trust Region Policy Optimization Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
РРО Proximal Policy Optimization Безмодельний За стратегією Безперервна Безперервний Перевага (англ. Advantage)
TD3 Twin Delayed Deep Deterministic Policy Gradient Безмодельний Поза стратегією Безперервна Безперервний Q-значення
SAC Soft Actor-Critic Безмодельний Поза стратегією Безперервна Безперервний Перевага (англ. Advantage)

Примітки

  1. Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 лютого 2019.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.