Системные игровые блоки цены и характеристики: Купить недорогой игровой компьютер по доступной цене, ПК дёшево

обратная сторона изобретательности ИИ

Игры со спецификациями — это поведение, которое удовлетворяет буквальным спецификациям цели, не достигая желаемого результата. У всех нас был опыт игры со спецификациями, пусть и не под этим названием. Читатели, возможно, слышали миф о царе Мидасе и золотом прикосновении, в котором царь просит, чтобы все, к чему он прикасается, превращалось в золото, но вскоре обнаруживает, что даже еда и питье превращаются в металл в его руках. В реальном мире, когда ученик получает вознаграждение за хорошее выполнение домашнего задания, он может копировать другого ученика, чтобы получить правильные ответы, вместо того, чтобы изучать материал, и таким образом использовать лазейку в спецификации задания.

Эта проблема также возникает при разработке искусственных агентов. Например, агент обучения с подкреплением может найти кратчайший путь к получению большого вознаграждения, не выполняя задачу так, как задумал дизайнер-человек. Такое поведение распространено, и мы собрали около 60 примеров (объединив существующие списки и текущие материалы сообщества ИИ). В этом посте мы рассмотрим возможные причины игр со спецификациями, поделимся примерами того, где это происходит на практике, и приведем аргументы в пользу дальнейшей работы над принципиальными подходами к преодолению проблем со спецификациями.

Давайте рассмотрим пример. Желаемый результат в задаче укладки Lego заключался в том, чтобы красный блок оказался поверх синего блока. Агент был вознагражден за высоту нижней грани красного блока, когда он не касается блока. Вместо того, чтобы выполнить относительно сложный маневр, подняв красный блок и положив его поверх синего, агент просто перевернул красный блок, чтобы получить награду. Такое поведение достигло заявленной цели (высокая нижняя грань красного блока) за счет того, что на самом деле заботит дизайнера (укладка блока поверх синего).

Источник: Data-Efficient Deep Reinforcement Learning for ловкие манипуляции (Popov et al, 2017)

Мы можем рассматривать игру со спецификациями с двух разных точек зрения. В рамках разработки алгоритмов обучения с подкреплением (RL) цель состоит в том, чтобы создать агентов, которые учатся достигать поставленной цели. Например, когда мы используем игры Atari в качестве эталона для обучения алгоритмов RL, цель состоит в том, чтобы оценить, могут ли наши алгоритмы решать сложные задачи. В данном контексте неважно, решит ли агент задачу, используя лазейку. С этой точки зрения игра со спецификациями — хороший знак: агент нашел новый способ достижения указанной цели. Такое поведение демонстрирует изобретательность и мощь алгоритмов в поиске способов делать именно то, что мы им приказываем.

Однако, когда мы хотим, чтобы агент действительно складывал блоки Lego, такая же изобретательность может создать проблему. В более широком плане создания согласованных агентов, которые достигают намеченного результата в мире, игра со спецификациями проблематична, поскольку она предполагает использование агентом лазейки в спецификации за счет предполагаемого результата. Такое поведение вызвано неправильным определением предполагаемой задачи, а не какой-либо ошибкой в алгоритме RL. В дополнение к разработке алгоритма, еще одним необходимым компонентом создания согласованных агентов является разработка вознаграждения.

Разработка спецификаций задач (функций поощрения, окружения и т. д.), точно отражающих замысел дизайнера-человека, бывает сложной задачей. Даже при небольшой ошибке в спецификации очень хороший алгоритм RL может найти сложное решение, сильно отличающееся от предполагаемого решения, даже если более плохой алгоритм не сможет найти это решение и, таким образом, дать решения, более близкие к заданному. предполагаемый результат. Это означает, что правильное указание намерения может стать более важным для достижения желаемого результата по мере совершенствования алгоритмов RL. Поэтому важно, чтобы способность исследователей правильно формулировать задачи соответствовала способности агентов находить новые решения.

Мы используем термин спецификация задачи в широком смысле, чтобы охватить многие аспекты процесса разработки агента. В настройке RL спецификация задачи включает не только дизайн вознаграждения, но также выбор среды обучения и вспомогательных вознаграждений. Правильность спецификации задачи может определить, соответствует ли изобретательность агента предполагаемому результату. Если спецификация верна, изобретательность агента приводит к желаемому новому решению. Именно это позволило AlphaGo разыграть знаменитый Ход 37, который застал врасплох специалистов по го, но сыграл ключевую роль во втором матче с Ли Седолем. Если спецификация неверна, это может привести к нежелательному игровому поведению, например, к переворачиванию блока. Эти типы решений лежат в спектре, и у нас нет объективного способа различить их.

Теперь рассмотрим возможные причины игр спецификаций. Одним из источников неправильной спецификации функции вознаграждения является плохо спроектированное формирование вознаграждения . Формирование вознаграждения облегчает изучение некоторых целей, предоставляя агенту вознаграждение на пути к решению задачи, а не только за конечный результат. Однако формирование вознаграждения может изменить оптимальную политику, если оно не основано на потенциале. Рассмотрим агента, управляющего лодкой в игре Coast Runners, где главной целью было завершить лодочную гонку как можно быстрее. Агенту была выдана формирующая награда за попадание в зеленые блоки на гоночной трассе, что изменило оптимальную политику на движение по кругу и многократное попадание в одни и те же зеленые блоки.

Источник: Faulty Reward Functions in the Wild (Amodei & Clark, 2016). В задаче укладки Lego недостаточно указать, что нижняя грань красного блока должна быть высоко над полом, поскольку для достижения этой цели агент может просто перевернуть красный блок. Более полная спецификация желаемого результата также будет включать в себя то, что верхняя грань красного блока должна быть выше нижней грани, и что нижняя грань выровнена с верхней гранью синего блока. Легко пропустить один из этих критериев при указании результата, что сделает спецификацию слишком широкой и потенциально более легкой для удовлетворения с помощью вырожденного решения.

Вместо того, чтобы пытаться создать спецификацию, охватывающую все возможные крайние случаи, мы могли бы изучить функцию вознаграждения на основе отзывов людей . Часто легче оценить, был ли достигнут результат, чем явно указать его. Однако этот подход также может столкнуться с проблемами игры спецификаций, если модель вознаграждения не узнает истинную функцию вознаграждения, которая отражает предпочтения дизайнера. Одним из возможных источников неточностей может быть человеческая обратная связь, используемая для обучения модели вознаграждения. Например, агент, выполняющий задачу захвата, научился обманывать человека-оценщика, зависая между камерой и объектом.

Источник: Глубокое обучение с подкреплением на основе человеческих предпочтений (Christiano et al, 2017)

Выученная модель вознаграждения также может быть неправильно определена по другим причинам, например, из-за плохого обобщения. Дополнительная обратная связь может использоваться для исправления попыток агента использовать неточности в модели вознаграждения.

Еще один класс примеров игровых спецификаций исходит от агента, использующего ошибки симулятора . Например, смоделированный робот, который должен был научиться ходить, научился сцеплять ноги вместе и скользить по земле.

Источник: AI Learns to Walk (Code Bullet, 2019)

На первый взгляд, подобные примеры могут показаться забавными, но менее интересными и неуместными для развертывания агентов в реальном мире, где нет ошибок симулятора. Однако основной проблемой является не сама ошибка, а сбой абстракции, который может быть использован агентом. В приведенном выше примере задача робота была определена неправильно из-за неверных предположений о физике симулятора. Точно так же реальная задача оптимизации трафика может быть неправильно определена из-за неверного предположения, что инфраструктура маршрутизации трафика не имеет программных ошибок или уязвимостей в системе безопасности, которые мог бы обнаружить достаточно умный агент. Такие предположения не нужно делать явно — скорее всего, это детали, которые просто никогда не приходили в голову дизайнеру. И по мере того, как задачи становятся слишком сложными, чтобы учитывать каждую деталь, исследователи с большей вероятностью вводят неправильные предположения при разработке спецификации. Это ставит вопрос: возможно ли разработать архитектуры агентов, которые корректируют такие ложные предположения, а не обманывают их?

При описании задачи обычно делается допущение, что действия агента не могут повлиять на спецификацию задачи. Это верно для агента, работающего в изолированном симуляторе, но не для агента, действующего в реальном мире. Любая спецификация задачи имеет физическое воплощение: функция вознаграждения, хранящаяся в компьютере, или предпочтения, хранящиеся в голове человека. Агент, развернутый в реальном мире, потенциально может манипулировать этими представлениями о цели, создавая проблему фальсификации вознаграждения. Для нашей гипотетической системы оптимизации трафика нет четкого различия между удовлетворением предпочтений пользователя (например, путем предоставления полезных указаний) и влиянием на пользователей, чтобы они имели предпочтения, которые легче удовлетворить (например, подталкивая их к выбору пунктов назначения, до которых легче добраться). . Первый удовлетворяет цели, а второй манипулирует представлением цели в мире (пользовательскими предпочтениями), и оба приводят к высокой награде для системы ИИ. В качестве другого, более экстремального примера, очень продвинутая система ИИ может захватить компьютер, на котором она работает, вручную установив высокое значение сигнала вознаграждения.

Подводя итог, можно сказать, что при решении игр со спецификациями необходимо преодолеть по крайней мере три проблемы:

Как точно отразить человеческое представление о заданной задаче в функции вознаграждения?
Как нам избежать ошибок в наших неявных предположениях о предметной области или создать агентов, которые исправляют ошибочные предположения, а не играют с ними?
Как избежать фальсификации наград?

Несмотря на то, что было предложено много подходов, начиная от моделирования вознаграждения и заканчивая дизайном поощрения агентов, игра со спецификациями далека от решения. Список игрового поведения спецификации демонстрирует масштаб проблемы и огромное количество способов, которыми агент может играть в объективную спецификацию. Эти проблемы, вероятно, станут более сложными в будущем, поскольку системы ИИ станут более способными удовлетворять спецификации задачи за счет ожидаемого результата. По мере создания более продвинутых агентов нам потребуются принципы проектирования, специально направленные на преодоление проблем со спецификациями и обеспечение надежного достижения этими агентами результатов, намеченных разработчиками.

Примечания

Мы хотели бы поблагодарить Хадо ван Хасселта и Чабу Сепешвари за их отзывы об этом сообщении.

Изготовленные на заказ фигурки Пауло Эстриги, Алекса Полозунса и Адама Каина.

Авторы

Виктория Краковна, Джонатан Уэсато, Владимир Микулик, Мэтью Ратц, Том Эверитт, Рамана Кумар, Зак Кентон, Ян Лейке, Шейн Легг

* Внешние авторы

one

Nintendo Switch идеально подходит для вашей жизни, превращаясь из домашней консоли в портативную систему в одно мгновение.

Режим ТВ

Подключите систему к док-станции, чтобы наслаждаться играми в формате HD на телевизоре.

Настольный режим

Переверните подставку, чтобы поделиться экраном, а затем разделите веселье в многопользовательской игре.

Ручной режим

Возьмите его и играйте с подключенными контроллерами Joy-Con™, чтобы наслаждаться 7-дюймовым OLED-экраном.

Это Joy-Con™

Контроллеры Joy-Con, входящие в комплект, обеспечивают полную гибкость игрового процесса.

Выберите стиль управления

Один или два контроллера, вертикальные или боковые, прикрепленные к консоли или отдельно. Вы можете играть несколькими способами, в зависимости от игры.

Поделитесь с другом

Переверните подставку, чтобы поделиться экраном, а затем разделите веселье в многопользовательской игре.

Попробуйте что-нибудь новое

HD Rumble погружает вас в игру с физической обратной связью, а ИК-камера движения открывает новые возможности.

Вместе лучше: многопользовательские игры

Локальный кооператив

Играйте дома с друзьями на большом экране.***

Локальная беспроводная связь

Объедините до восьми систем семейства Nintendo Switch, чтобы играть в многопользовательские игры где угодно.

Игра по сети

Объединитесь или сразитесь с другими игроками по сети в совместимых играх с членством Nintendo Switch Online**.

Узнайте больше и зарегистрируйтесь

Дополнительные функции системы

Nintendo eShop

Найдите и купите цифровые версии полных игр и DLC в Nintendo eShop на вашей системе или в нашем интернет-магазине.

Магазин игр

Nintendo Switch Online

Доступ к преимуществам членства прямо из меню HOME системы.

Подробнее

Новости

Получайте последние обновления игры, объявления и многое другое с помощью этой актуальной новостной ленты.

Альбом

Легко делайте и сохраняйте скриншоты с помощью кнопки Capture. Затем просматривайте, добавляйте текст и делитесь в социальных сетях из своего альбома. Слайд 1 из 5

Вы также найдете отличные игры от других разработчиков, и каждую неделю их становится больше.

Более 5000 игр… и

Просмотреть все игры для Nintendo Switch

Оформить предзаказ

Бесплатная демо-версия

Просмотреть все игры для Nintendo Switch

Просмотреть все системы

5 5 аксессуары

Родительский контроль

Настройки, позволяющие сосредоточиться на развлечениях.

Узнать больше

Семейство Nintendo Switch

Сравните характеристики

*Рекомендованная розничная цена производителя, фактическая цена может отличаться. Подробности смотрите у продавца.

**Для сетевой игры требуется членство в Nintendo Switch Online (продается отдельно) и учетная запись Nintendo. Не доступно во всех странах. Для онлайн-функций требуется доступ в Интернет.