Гугловская нейросеть покорила ещё одну сложнейшую игру. Ну, или почти покорила
Шахматы давно позади, лучшие игроки Го тоже повержены. На этот раз инженеры из DeepMind собрали модель DeepNash для игры в Стратего. А эта настолка особенно сложна для освоения искусственным интеллектом.
Правила такие: два игрока размещают на клетчатом поле по 40 фигур с каждой стороны. Но они не могут видеть, какие фигуры стоят у противника. Цель — по очереди перемещать фигуры, чтобы уничтожить фигуры другого игрока и захватить самую главную из них, то есть флаг.
Получается, у игры есть 10 вариантов развития в 535 степени. Для сравнения, у Го их 10 в 360 степени. Что касается неполной информации в начале игры, здесь 10 возможных стартовых позиций в 66 степени (а в покере их 10 в 6 степени).
DeepNash неслучайно назвали в честь американского математика Джона Нэша. Благодаря его работе в теории игр появился ключевой термин «Равновесие Нэша». Это ситуация, когда никто из игроков не может увеличить свой выигрыш благодаря смене стратегии, если другие участники тоже её не поменяют. К чему я это?
Гугловская модель сочетает в себе алгоритм обучения с подкреплением и глубокую нейронку. Первая ищет лучшую стратегию для каждого состояния игры, а вторая — как раз равновесие Нэша.
Во время обучения она сыграла 5,5 млрд партий против себя. При этом DeepNash не перебирала все возможные сценарии (как это делала та же AlphaGo), а постоянно корректировала поведение в сторону оптимальной стратегии.
После тренинга её «выпустили» в мир, то есть столкнули с лучшими живыми игроками на сайте Gravon. После 50 матчей DeepNash заняла третье место среди всех геймеров за последние 20 лет.
Результаты впечатляют. И это не только я так считаю, но и опрошенные Nature эксперты.
Какую игру ИИ покорит дальше? 👍, если «Пьяницу», 🔥, если «Буркозла».
Шахматы давно позади, лучшие игроки Го тоже повержены. На этот раз инженеры из DeepMind собрали модель DeepNash для игры в Стратего. А эта настолка особенно сложна для освоения искусственным интеллектом.
Правила такие: два игрока размещают на клетчатом поле по 40 фигур с каждой стороны. Но они не могут видеть, какие фигуры стоят у противника. Цель — по очереди перемещать фигуры, чтобы уничтожить фигуры другого игрока и захватить самую главную из них, то есть флаг.
Получается, у игры есть 10 вариантов развития в 535 степени. Для сравнения, у Го их 10 в 360 степени. Что касается неполной информации в начале игры, здесь 10 возможных стартовых позиций в 66 степени (а в покере их 10 в 6 степени).
DeepNash неслучайно назвали в честь американского математика Джона Нэша. Благодаря его работе в теории игр появился ключевой термин «Равновесие Нэша». Это ситуация, когда никто из игроков не может увеличить свой выигрыш благодаря смене стратегии, если другие участники тоже её не поменяют. К чему я это?
Гугловская модель сочетает в себе алгоритм обучения с подкреплением и глубокую нейронку. Первая ищет лучшую стратегию для каждого состояния игры, а вторая — как раз равновесие Нэша.
Во время обучения она сыграла 5,5 млрд партий против себя. При этом DeepNash не перебирала все возможные сценарии (как это делала та же AlphaGo), а постоянно корректировала поведение в сторону оптимальной стратегии.
После тренинга её «выпустили» в мир, то есть столкнули с лучшими живыми игроками на сайте Gravon. После 50 матчей DeepNash заняла третье место среди всех геймеров за последние 20 лет.
Результаты впечатляют. И это не только я так считаю, но и опрошенные Nature эксперты.
Какую игру ИИ покорит дальше? 👍, если «Пьяницу», 🔥, если «Буркозла».