Метод часових різниць

Метод часових різниць (англ. Temporal difference learning) належить до безмодельних методів навчання з підкріпленням, які навчаються за допомогою бутстрепу з поточного значення функції цінності. Цей метод робить вибірку із середовища, як методи Монте-Карло, і оновлюється на основі поточної оцінки функції цінностей, як методи динамічного програмування.[1]

У той час як методи Монте-Карло змінюють свої оцінки лише після того, як відомий кінцевий результат, методи ЧР коригують прогноз, підлаштовуючись під новіші більш точні прогнози до того, як остаточний результат стане відомим.[2] Це є формою бутстрепу, як показано на такому прикладі:

«Припустимо, ви хочете передбачити погоду на суботу, і у вас є модель, яка передбачає погоду в суботу, враховуючи погоду кожного дня тижня. У стандартному випадку потрібно почекати до суботи, а потім налаштувати всі свої моделі. Однак, коли, наприклад, вже настала п'ятниця, то ви повинні мати досить добре уявлення про погоду в суботу — і таким чином мати можливість змінити суботню модель до настання суботи».[2]

Метод часових різниць має зв'язок з моделлю часових різниць навчання тварин.[3][4][5][6][7]

Математичне визначення

Табличний TD(0) метод є одним із найпростіших методів ЧР. Це окремий випадок більш загальних методів стохастичної апроксимації. Він знаходить наближення функції цінності станів скінченного Марковського процесу вирішування (МПВ) зі стратегією $\pi$ . Позначимо функцію цінності стану МПВ зі станами $(s_{t})_{t\in \mathbb {N} }$ , винагородами $(r_{t})_{t\in \mathbb {N} }$ , коефіцієнтом знецінювання[8] $\gamma$ та стратегією $\pi$ як $V^{\pi }$ :

V^{\pi }(s)=E_{a\sim \pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}r_{t}(a_{t}){\Bigg |}s_{0}=s\right\}.

Для стислості не будемо позначати дію в формулі. $V^{\pi }$ задовольняє рівнянню Гамільтона — Якобі — Беллмана:

V^{\pi }(s)=E_{\pi }\{r_{0}+\gamma V^{\pi }(s_{1})|s_{0}=s\},

Таким чином $r_{0}+\gamma V^{\pi }(s_{1})$ є неупередженою оцінкою $V^{\pi }(s)$ . На основі цього спостереження можна побудувати наступний алгоритм оцінки $V^{\pi }$ .

Алгоритм починається з випадкового заповнення таблиці $V(s)$ для кожного стану МПВ. Темп навчання $\alpha$ обирається позитивним.

Потім ми багаторазово оцінюємо стратегію $\pi$ , отримуємо винагороду $r$ і оновлюємо функцію цінностей для попереднього стану за допомогою такої формули:[9]

V(s)\leftarrow V(s)+\alpha (\overbrace {r+\gamma V(s')} ^{\text{The TD target}}-V(s)),

де $s$ і $s'$ попередній і поточний стани. Значення $r+\gamma V(s')$ відоме як цільове значення ЧР.

TD-Lambda

TD-Lambda — це алгоритм навчання, винайдений Річардом С. Саттоном на основі попередніх робіт Артура Семюеля про метод часових різниць.[1] Цей алгоритм став відомим завдяки тому, що Джеральд Тезауро застосував його для створення TD-нард, програми, яка навчилася грати в нарди на рівні професіональних гравців-людей.[10]

Параметр лямбда ( $\lambda$ ) — це коефіцієнт загасання, він знаходиться в межах $0\leqslant \lambda \leqslant 1$ . Більші значення цього параметру призводять до довготривалих слідів; тобто більша частка винагороди може бути додана до віддалених станів і дій, при великих $\lambda$ . Тоді, як при $\lambda =1$ отримуємо алгоритм навчання з підкріпленням Монте-Карло.

Метод ЧР в нейронауці

Алгоритм часових різниць також отримав увагу в області нейробіології. Науковці виявили, що швидкість спрацьовування дофамінових нейронів у вентральній області покришки і чорній речовині, схоже, імітує функцію помилки в алгоритмі.[3][4][5][6][7] Функція повертає різницю між оціненою винагородою за будь-який даний стан або часовий крок і фактично отриманою винагородою. Чим більша функція помилки, тим більша різниця між очікуваною та фактичною винагородою. Якщо поєднати це зі стимулом, який точно відображає майбутню винагороду, то помилку можна використовувати, щоб отримати зв'язок між стимулом і майбутньою винагородою.

За спостереженнями, клітини дофаміну поводяться схожим чином. В одному з експериментів замірювання дофамінових клітин проводили під час навчання мавпи асоціюванню стимулів з винагородою в вигляді соку.[11] Спочатку клітини дофаміну збільшували швидкість спрацьовування, якщо мавпі давали сік, вказуючи на різницю в очікуваних і фактичних винагородах. З часом це збільшення віддачі поширилося на найраніший стимул, що стабільно призводив до винагороди. Після того, як мавпа була повністю навчена, швидкість віддачі не збільшувалась після надання очікуваної нагороди. Згодом активація дофамінових клітин сповільнилася нижче нормальної активації, коли очікувана винагорода не була отримана. Це схоже на те, як функція помилки в ЧР навчанні використовується для навчання з підкріпленням.

Потенційний зв'язок між цією моделлю та неврологічною функцією ініціював дослідження, в яких намагалися пояснити численні аспекти поведінкових досліджень за допомогою часових різниць.[12] Його також використовували для вивчення таких розладів, як шизофренія або наслідків фармакологічного регулювання дофаміну на навчання.[13]

Див. також

Q-навчання
SARSA
Модель Рескорла-Вагнера
PVLV

Примітки

Richard Sutton; Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 978-0-585-02445-5. Архів оригіналу за 30 березня 2017.
Richard Sutton (1988). Learning to predict by the methods of temporal differences. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page Архівовано 2017-03-30 у Wayback Machine.)
Schultz, W, Dayan, P & Montague, PR. (1997). A neural substrate of prediction and reward. Science 275 (5306): 1593–1599. PMID 9054347. doi:10.1126/science.275.5306.1593. Проігноровано невідомий параметр |citeseerx= (довідка)
Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1 березня 1996). A framework for mesencephalic dopamine systems based on predictive Hebbian learning. The Journal of Neuroscience 16 (5): 1936–1947. ISSN 0270-6474. PMC 6578666. PMID 8774460. doi:10.1523/JNEUROSCI.16-05-01936.1996.
Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). Using aperiodic reinforcement for directed self-organization. Advances in Neural Information Processing Systems 5: 969–976.
Montague, P. R.; Sejnowski, T. J. (1994). The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms. Learning & Memory 1 (1): 1–33. ISSN 1072-0502. PMID 10467583.
Sejnowski, T.J.; Dayan, P.; Montague, P.R. (1995). Predictive hebbian learning. Proceedings of Eighth ACM Conference on Computational Learning Theory: 15–18. ISBN 0897917235. doi:10.1145/225298.225300.
Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards
Reinforcement learning: An introduction. с. 130. Архів оригіналу за 12 липня 2017.
Tesauro, Gerald (March 1995). Temporal Difference Learning and TD-Gammon. Communications of the ACM 38 (3): 58–68. doi:10.1145/203330.203343. Процитовано 8 лютого 2010.
Schultz, W. (1998). Predictive reward signal of dopamine neurons. Journal of Neurophysiology 80 (1): 1–27. PMID 9658025. doi:10.1152/jn.1998.80.1.1. Проігноровано невідомий параметр |citeseerx= (довідка)
Dayan, P. (2001). Motivated reinforcement learning. Advances in Neural Information Processing Systems (MIT Press) 14: 11–18.
Smith, A., Li, M., Becker, S. and Kapur, S. (2006). Dopamine, prediction error, and associative learning: a model-based account. Network: Computation in Neural Systems 17 (1): 61–84. PMID 16613795. doi:10.1080/09548980500361624.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[RSutton-1998-1] Richard Sutton; Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 978-0-585-02445-5. Архів оригіналу за 30 березня 2017.

[RSutton-1988-2] Richard Sutton (1988). Learning to predict by the methods of temporal differences. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page Архівовано 2017-03-30 у Wayback Machine.)

[WSchultz-1997-3] Schultz, W, Dayan, P & Montague, PR. (1997). A neural substrate of prediction and reward. Science 275 (5306): 1593–1599. PMID 9054347. doi:10.1126/science.275.5306.1593. Проігноровано невідомий параметр |citeseerx= (довідка)

[:0-4] Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1 березня 1996). A framework for mesencephalic dopamine systems based on predictive Hebbian learning. The Journal of Neuroscience 16 (5): 1936–1947. ISSN 0270-6474. PMC 6578666. PMID 8774460. doi:10.1523/JNEUROSCI.16-05-01936.1996.

[:1-5] Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). Using aperiodic reinforcement for directed self-organization. Advances in Neural Information Processing Systems 5: 969–976.

[:2-6] Montague, P. R.; Sejnowski, T. J. (1994). The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms. Learning & Memory 1 (1): 1–33. ISSN 1072-0502. PMID 10467583.

[:3-7] Sejnowski, T.J.; Dayan, P.; Montague, P.R. (1995). Predictive hebbian learning. Proceedings of Eighth ACM Conference on Computational Learning Theory: 15–18. ISBN 0897917235. doi:10.1145/225298.225300.

[8] Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards

[9] Reinforcement learning: An introduction. с. 130. Архів оригіналу за 12 липня 2017.

[CACM-10] Tesauro, Gerald (March 1995). Temporal Difference Learning and TD-Gammon. Communications of the ACM 38 (3): 58–68. doi:10.1145/203330.203343. Процитовано 8 лютого 2010.

[WSchultz-1998-11] Schultz, W. (1998). Predictive reward signal of dopamine neurons. Journal of Neurophysiology 80 (1): 1–27. PMID 9658025. doi:10.1152/jn.1998.80.1.1. Проігноровано невідомий параметр |citeseerx= (довідка)

[PDayan-2001-12] Dayan, P. (2001). Motivated reinforcement learning. Advances in Neural Information Processing Systems (MIT Press) 14: 11–18.

[ASmith-2006-13] Smith, A., Li, M., Becker, S. and Kapur, S. (2006). Dopamine, prediction error, and associative learning: a model-based account. Network: Computation in Neural Systems 17 (1): 61–84. PMID 16613795. doi:10.1080/09548980500361624.