OpenAI – гигантский шаг вперед для ИИ. Теперь боты разгромили OG - Киберспрут - Блоги

Блог

Рассказываем, как росли боты и почему это так важно.

В Сан-Франциско искусственный интеллект компании OpenAI сразился против чемпионов мира по Dota 2 – OG. Что это за матч и почему он так важен?

Шахматы, го, Dota 2. Это – лестница развития ИИ

Создать интеллект, способный обыграть человека, очень сложно. IBM задумалась о разработке шахматного компьютера еще в 1950-х, но тогда на это уходило много времени и ресурсов. Основная проблема компьютера в шахматах – расчет вариантов действий и исходов. Их безумно много: в 1950 году американский математик Клод Шеннон доказал, что количество уникальных партий в шахматы равняется 10 в 120 степени (для сравнения, число атомов во вселенной оценивается примерно в 10^80).

Только к 1996 году шахматный суперкомпьютер Deep Blue был готов сразиться с чемпионом мира – Гарри Каспаровым. Ту серию выиграл Каспаров и заявил, что эра машин наступит еще нескоро. Но гроссмейстер ошибся – разработчики увеличили мощность машины, и через год, в 1997, Deep Blue обыграл шахматиста в серии. Итоговый результат встречи для Deep Blue – 2 победы, 3 ничьи и 1 поражение.

Шахматы, как и настольные игры попроще (шашки, крестики-нолики, нарды), были разгаданы компьютером при помощи альфа-бета отсечения (когда машина знает варианты развития позиции на доске и сразу отсекает ветки, которые ведут к менее выгодному пучку возможных позиций). Но вплоть до 2015 года неразгаданной оставалась китайская игра го. Две самых понятных (но не единственных) причины, почему го такая сложная.

Больше возможных позиций. Чудовищно больше.

Поле – 19 на 19 (в шахматах – 8х8). Изначально доска пустая, и уже по ходу игры соперники заполняют ее камнями, захватывают территорию и окружают камни противника.
Камней – 361 (180 белых и 181 черных), и столько же – вариантов первого хода (в шахматах – 20).
После первого раунда на столе может быть 129 тысяч различных комбинаций (в шахматах – 400).
Представить, сколько в принципе возможных партий может быть разыграно в го, вы все равно не сможете. Но не переживайте – до 2005 года это не мог сделать даже компьютер (в этом числе – 171 цифра). Подчеркнем: сейчас мы говорим о чисто теоретическом значении, в котором и речи не шло о подборе успешных комбинаций. Альфа-бета отсечение было неприменимо к этой игре.

Абстрактная природа игры

Жертва позицией ради задуманной комбинации в го – не хитрый трюк, как в шахматах, а основа игры. Игрок оценивает, выгодно ли пожертвовать группой камней ради новой позиции на доске; ценность разных камней постоянно меняется и определяется интуитивно.

поле игры в го

Для победы машины над человеком понадобилось создание нейросети, которая изучала матчи профессионалов, играла бесчисленное количество партий внутри себя самой и самообучалась. Разработкой занялась компания AlphaGo, одним из инвесторов которой был Илон Маск. В марте 2016 года AlphaGo выставили нейросеть на матч против лучшего игрока мира, Ли Седола.

Тогда AlphaGo предсказывала поведение человека только в 57% случаев. Мало кто верил в победу ИИ – все ценители считали, что у людей еще есть пара лет. Но встреча закончилась разгромной победой AlphaGo – компьютер обыграл Ли Седола со счетом 4:1. Так в мире не осталось классических настольных игр, в которых человек был бы сильнее компьютера.

Теперь ученые штурмуют Dota 2 – возможно, самую многослойную командную видеоигру. В ней огромное количество переменных (117 героев, у каждого – минимум 4 способности; 164 артефакта), но это не самое сложное. Куда сложнее перемещения по обширной карте, предугадывание действий противника, понимание силы своей команды относительно врага (может меняться каждую минуту).

Как смотреть Dota 2, если никогда в нее не играл

Если конкретнее, год назад бот OpenAI:

делал от 7 ходов каждую секунду. Ход – выбор из списка возможных решений (движение, действие);
в среднем за «ход» бот выбирал из 1000 возможных решений. Всего в программу заложено 170 тысяч доступных действий;
за матч (45 минут в среднем) бот делал 20 тысяч «ходов». В шахматах игра в среднем длится 40 ходов, в го – 150.

Компания, разработавшая нейросеть – OpenAI. И здесь тоже замешан Илон Маск.

Чем занимается OpenAI?

OpenAI – некоммерческая компания, которую основали Сэм Альтман, Илон Маск и Грэг Брокман в декабре 2015. Девиз OpenAI – «создание открытого и безопасного искусственного интеллекта, который будет доступен каждому». Тут нужно немного пояснить:

безопасность – не только защита от мошенников и злоумышленников, но защита человека от ИИ. Для того, чтобы в результате исследований людям не был причинен вред, компания прямо сейчас ищет ученых-социологов;
все исследования OpenAI находятся в открытом доступе, за исключением потенциально вредных программ. Это не первый случай, когда изобретения Илона Маска бесплатны – некоторые патенты Tesla также доступны каждому.

На данном этапе у OpenAI много интересных разработок:

тренировочная площадка для ИИ;
нейросеть, генерирующая изображения;
роборука, который может находить заданные предметы среди схожих;

и еще одна роборука, способная крутить кубик и находить нужную букву. Так и до определения капчи недолго;

нейросеть, которая предсказывает дальнейшее слово в тексте. Из-за того, что разработку потенциально могли использовать для создания фейковых новостей (пример «вредной» программы), OpenAI ее не опубликовали.

Сейчас OpenAI в поиске дополнительных инвесторов. Илон Маск не так давно вышел из совета директоров OpenAI (возможный конфликт интересов с Tesla в разработке ИИ), но продолжает оказывать финансовую помощь компании и интересуется последними разработками.

Как нейросеть училась играть в доту?

Сначала – один на один

Многие узнали о компании после того, как ИИ выступил на The International 2017. Тогда бот в матче 1 на 1 обыграл одного из самых известных дотеров мира – Данила «Dendi» Ишутина.

Работа над ботом велась полгода. Сначала он постигал базовые механики – движение от приближающего врага, затем переходил к задачам посложнее – анализу матчей и играм против слабых соперников. И если в марте 2017-го он только учился игре и наблюдал за ней со стороны, то к 11 августа побеждал самых одаренных технически игроков планеты – Артизи и Сумаила.

От 1,5к MMR до победы над Артизи 10-0. Путь бота на The International 7

Но перед командой OpenAI уже стояла задача посложнее.

Затем – 5 на 5. От любителей до бывших профессионалов...

В июне 2018-го разработчики объявили, что хотят выставить нейросеть против команды людей.

«5 на 5 – режим титанической сложности. Мы знаем, что придется задействовать все ресурсы искусственного интеллекта, чтобы с ним справиться. Мы начнем копировать поведение игроков на старте. В доте играется около миллиона матчей в день, реплеи хранятся на серверах Valve две недели. Мы загружали себе каждый реплей экспертного уровня с прошлого ноября, набралось уже 5,8 млн игр».

Боты AI на протяжении почти года каждый день наигрывали друг с другом по 180 лет игрового времени. Но условия игры для равного противостояния с людьми все равно пришлось упростить. Количество героев на выбор сократили со 115 до 18. Игрокам нельзя было пользоваться некоторыми артефактами, призывать иллюзии или подконтрольных существ. Ради справедливости ограничения коснулись и ботов – им уменьшили скорость реакции, чтобы она была сопоставима с человеческой.

В таких условиях боты научились безошибочно обыгрывать любительские команды.

Достижения OpenAI отметил Билл Гейтс.

#AI bots just beat humans at the video game Dota 2. That’s a big deal, because their victory required teamwork and collaboration – a huge milestone in advancing artificial intelligence. https://t.co/UqIUhh9xFc
— Bill Gates (@BillGates) June 26, 2018

«Недавно боты обыграли людей в видеоигру Dota 2. Это важное событие, потому что их победа требовала командной работы и сотрудничества. Огромный шаг в развитии искусственного интеллекта».

Следующий шаг – матч с командой из бывших профессиональных игроков – состоялся 5 августа 2018-го. От человечества выступили комментаторы Уильям «Blitz» Ли, Иоаннис «Fogged» Лукас, Бен «Merlini» Ву, Остин «Capitalist» Уолш и Дэвид «MoonMeander» Тан (сейчас вернулся на про-уровень).

Людей поддерживал сам Илон Маск, но им удалось обыграть машин лишь раз – когда игроки сами выбрали героев ботам. Общий счет серии – 2:1 в пользу OpenAI.

Здесь – подробности встречи

...И к действующим участникам чемпионата мира

На главном ежегодном турнире по доте было запланировано три матча против OpenAI. Первый матч OpenAI сыграли с paiN Gaming. Бразильская команда считалась аутсайдером турнира, однако смогла перевернуть игру к середине матча. 1:0 в пользу человечества.

Тут все о первом матче против искусственного интеллекта

А в следующей игре бездушные машины сразились с китайскими ветеранами (некоторые из них еще несколько лет назад выигрывали The International). Защитники человечества обыграли ботов за 40 минут – достаточно долгая игра, но преимущество людей было очевидным.

Китайцы так круто сделали ботов, что они нервничали как люди. Судите сами

Из-за провального выступления компьютера третий матч решили отменить. Счет – 2:0 в пользу людей.

Как устроен мозг OpenAI?

Компьютер оценивает вероятность победы еще на стадии выбора героев. До матча с бывшими про он проанализировал более 11 миллионов различных матчапов, поэтому точно знал, с какими персонажами будет проще победить.

А так выглядит карта доты глазами бота. Он просчитывает свои действия на шесть секунд вперед и моментально меняет планы, как только ситуация на карте меняется. На видео слева показаны мысли бота: возможные действия и оценка их верности в процентах.

Но это только один герой. Самое поразительное, что OpenAI предсказывает происходящее на карте на восемь минут вперед. Его прогнозы касаются:

целостности оборонительных вышек;
убийств врагов и смертей союзников;
количества добитых крипов.

Были, конечно, и баги. Например:

Иногда боты зависали из-за неспособности определиться с нужной вещью;
Покупали слишком много расходных предметов;
Ставили непонятные варды на одном и том же месте без всякого смысла;
Останавливались и продолжали двигаться после небольшой паузы.

Но самое интересное: некоторые действия ботов шли в разрез с общепринятыми понятиями об игре в доту – и при этом работали. Например, в одном из матчей боты поставили четырех героев на одну линию (напомним, героев – пять, линий – три. Условно: такое решение аналогично выходу с 5 нападающими в современном футболе). Боты действовали очень агрессивно и не всегда логично, задействовали в атаках традиционно пассивных героев и получали численное преимущество. Это лишь первые шаги искусственного интеллекта, но что если мы все это время играли в доту неправильно?

Победа AlphaGO над человеком в свое время поменяла вековые понятия о го. Профессионалы оценивали некоторые ходы программы в процессе игры как «провальные», но их настоящее значение раскрывалось после долгих комбинаций. Причина скрывалась в сути го – в этой игре абсолютно не учитывается разница по камням, и машина всегда выбирала 99-процентный шанс на победу с преимуществом в 1 камень, тогда как люди (условно) выбирали развитие к победе с преимуществом в 20 камней и шансом в 80%.

Промежуточные задачи в доте (драки, разрушение башен) ровно так же не важны сами по себе и являются лишь способами по достижению главной цели – разрушить вражеский трон быстрее противника.

Сегодня вечером OpenAI сыграла с чемпионами мира

OG победила на The International, хотя начинала в качестве аутсайдера. В этом году у них проблемы – с сентября чемпионы не занимали высоких мест, а их главная звезда – австралиец Анатан «Ana» Фам – совсем недавно вернулся из длительного отпуска.
С момента последнего матча уже прошло 8 месяцев. Это первая игра между машинами и людьми в новом сезоне.
Сохранились все искусственные ограничения на элементы игры, которым боты еще не научились. До сих пор доступно лишь 18 героев (из 117) и запрещены несколько предметов)
К концу 2019 года OpenAI хочет научить ботов играть всеми доступными героями без ограничений и мечтает о регулярных соревнованиях.

Боты победили OG со счетом 2:0 в серии до двух побед. В первой игре люди играли активно и принимали не самые стандартные решения. В определенный момент им даже удалось выйти вперед, но боты верно прочувствовали свои возможности и сгруппировались. Во второй OG попытались затянуть игру, но это абсолютно не сработало: боты выиграли все три линии и рано закончили матч.

OpenAI обыграл OG. Как им это удалось?

Еще немного о зарождении OpenAI и первом выступлении бота

А таким был первый матч команды ботов против людей

24 комментария

С диалогами

Тёма Шатохин

13 апреля 2019, 22:06

Боты убивают игры и не только. Сначала покер, теперь дота, потом ваша работа

+16

Илья Мех

14 апреля 2019, 09:42

Ответ last_light

Ясно, придётся объяснять. Первыми ходят белые, потому их ход можно считать первым. В самом начале, ты можешь пойти восемью пешками, и двумя конями, при чём каждым конём в 2 разные клетки т.е. 8+2*2=12. Но в шахматах одним ходом считается игра двух фракций (т.к. игра пошаговая), а это значит, что чёрные могут ответить такими же 12 ходами. И если уж на то пошло, то всего вариаций первого хода (хода белых, а затем чёрных) 144.

На первом ходу пешка ходит на 1 или 2 клетки, то есть 2 варианта хода пешки ×8 пешек=16 и еще 4 хода кони

+10

EugS

14 апреля 2019, 02:55

Ответ last_light

Ошибочка, в шахматах не 10 вариантов первого хода, а 12. 8 пешек+2 коня, но так как каждый конь иожет пойти в 2 разные клетки, то 8+2*2=12.

20 вариантов там. Шахматисты фиговы.

S.Vladimirov

14 апреля 2019, 06:34

Ответ Тёма Шатохин

Боты убивают игры и не только. Сначала покер, теперь дота, потом ваша работа

Наверное также переживали , когда придумали калькулятор или ткацкие станки. Какие-то работы умрут, появятся новые, и все будет норм. Оттого, что шляпные мастера и извозчики почти исчезли, мир не рухнул.