AlphaZero
AlphaZero — це комп'ютерна програма, розроблена компанією DeepMind, яка використовує узагальнений підхід AlphaGo Zero. 5 грудня 2017 року колектив DeepMind випустив препринтне введення AlphaZero, яке впродовж 24 годин досягнуло надлюдського рівня гри в шахи, Сьоґі, і ґо, перемігши чемпіонів світу серед програм, Stockfish, Elmo і 3-денний варіант AlphaGo Zero в кожному випадку, використовуючи краще комп'ютерне обладнання відносно своїх опонентів.[1][2] AlphaZero переміг Stockfish 8 (рушій грав без доступу до дебютних баз та ендшпільних таблиць) граючи з кращим комп'ютерним обладнанням виділеним для AlphaZero.[3][4]
Стосунок до AlphaGo Zero
AlphaZero (AZ) — це більш узагальнений варіант алгоритму AlphaGo Zero (AGZ), який крім ґо вміє також грати в Сьоґі і шахи. Відмінності між AZ і AGZ полягають у тому, що:
- AGZ має жорстко задані правила для встановленого пошуку гіперпараметрів.
- Нейронні мережі тепер оновлюються постійно.
- Ґо (на відміну від шахів) симетрична за певних відбиттів і обертань; AGZ був запрограмований, щоб скористатися цими симетріями, AZ — ні.
- Партія в шахи (на відміну від ґо) може закінчитися внічию, тому AZ може враховувати можливість нічийного результату гри.
AlphaZero проти Stockfish і Elmo
Розглядаючи пошук за допомогою дерева пошуку Монте-Карло, AlphaZero аналізує лише 80,000 позицій на секунду в шахах і 40 000 в сьогах, порівняно з 70 млн для Stockfish і 35 мільйонів для Elmo. AlphaZero компенсує низьку кількість оцінок використанням своїх глибоких нейронних мереж, зосереджуючись набагато більш вибірково на найбільш перспективних варіантах.
Результати
Шахи
У шахових партіях AlphaZero проти Stockfish кожна програма мала по одній хвилині часу на хід. AlphaZero мала краще комп'ютерне обладнання відносно Stockfish. Зі 100 ігор з нормального початкового положення AlphaZero виграв 25 партій білими, виграв 3 чорними і звів унічию решту 72.[5] У серії з дванадцяти 100-ігрових матчів проти Stockfish починаючи з популярних дебютів, AlphaZero виграв 290, звів унічию 886 і програв 24.[джерело?] Результати турнірів не свідчать про те, що AlphaZero — це покращений шаховий рушій, адже алгоритм AlphaZero мав краще комп'ютерне обладнання.
Критика
Деякі гросмейстери, такі як Хікару Накамура і творець Комодо Ларрі Кауфман, підкреслили, що силу AlphaZero не треба перебільшувати, стверджуючи, що матч мав би інакший результат, якби програма мала доступ до дебютних баз (оскільки Stockfish був оптимізований під цей сценарій).[6]
Сьоги
У сто іграх у сьоги проти Elmo, AlphaZero виграв дев'яносто разів, вісім разів програв і дві партії завершилися внічию.
Критика
Спільнота програмістів комп'ютерної гри в сьоги не повністю задоволена умовами підбору програмного забезпечення для рушія AlphaZero і рушія гри в сьоги Elmo.[7][неавторитетне джерело]
Го
Після 8 годин самостійного навчання гри в го, у матчах проти попередньої версії AlphaZero, AlphaZero виграв шістдесят ігор і програв сорок.
Реакція
Газети вийшли з заголовками, що навчання шахів зайняло лише чотири години: «це було зроблено за час трохи більший, ніж проміжок між сніданком і обідом.»[8] Wired розкрутили AlphaZero як «перший штучний інтелект, який є чемпіоном з багатьох настільних ігор».[9] Експерт зі штучного інтелекту Джоанна Брайсон зазначила, що «спритність Google до хорошої реклами» ставить його в сильну позицію проти суперників. «Мова йде не лише про те, щоб найняти найкращих програмістів. Це також дуже політична річ, оскільки вона допомагає Google стояти на найсильніших можливих позиціях під час переговорів з урядами і регуляторами, які контролюють сектор штучного інтелекту».
«Мені завжди було цікаво, як це буде, коли вищі істоти приземляться на землю і покажуть нам, як вони грають в шахи», заявив данський гросмейстер Пітер Гайне Нільсен в інтерв'ю Бі-бі-сі, «тепер я знаю». Норвезький гросмейстер Йон Людвіг Гаммер охарактеризував AlphaZero як «божевільні атакуючі шахи» з глибокою позиційною грою. колишній чемпіон світу Гаррі Каспаров сказав: «це чудове досягнення, навіть попри те, що ми вже чекали на нього після AlphaGo.»[10]
Див. також
Посилання
Примітки
- https://arxiv.org/pdf/1712.01815.pdf Mastering Chess and Shogi by Sef-Play with a General Reinforcment Learning Algorithm.
- A bot will complete this citation soon. Click here to jump the queue«Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm». arXiv:1712.01815 [cs.AI]. 5 грудня 2017.
- Knapton, Sarah; Watson, Leon (6 грудня 2017). Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours (en-GB). Telegraph.co.uk. Процитовано 6 грудня 2017.
- Vincent, James (6 грудня 2017). DeepMind’s AI became a superhuman chess player in a few hours, just for fun. The Verge. Процитовано 6 грудня 2017.
- 'Superhuman' Google AI claims chess crown. BBC News. 6 грудня 2017. Процитовано 7 грудня 2017.
- Google's AlphaZero Destroys Stockfish In 100-Game Match. Chess.com. Процитовано 7 грудня 2017.
- http://www.uuunuuun.com/single-post/2017/12/07/Some-concerns-on-the-matching-conditions-between-AlphaZero-and-Shogi-engine
- Badshah, Nadeem (7 грудня 2017). Google’s DeepMind robot becomes world-beating chess grandmaster in four hours. The Times of London. Процитовано 7 грудня 2017.
- Alphabet's Latest AI Show Pony Has More Than One Trick. WIRED. 6 грудня 2017. Процитовано 7 грудня 2017.
- Gibbs, Samuel (7 грудня 2017). AlphaZero AI beats champion chess program after teaching itself in four hours. The Guardian. Процитовано 8 грудня 2017.