Как создать безопасный ИИ? #3. Взлом вознаграждения 1/2 [Robert Miles]

5m read

·Nov 3, 2024

Угу, вот [музыка]. Привет! Это очередное видео о статье "Конкретные проблемы безопасности", и ниже есть ссылки на предыдущие видео. Но надеюсь, этот ролик будет полезен, даже если вы не видели остальные. Кстати, если вы почему-то не подписаны на "Компьютер Файл", загляните туда; там я недавно выпустил еще один ролик по схожей теме. В том видео я говорю про часть статьи, где обсуждаются мультиагентные подходы. Посмотрите, если вы еще не видели, ссылка в описании.

Сегодня у нас взлом вознаграждения. В ролике на "Компьютер Файл" я рассказывал, как в целом работает обучение с подкреплением. У нас есть Агент, он взаимодействует со средой и пытается максимизировать вознаграждение. Скажем, ваш Агент – это Пакман, его среда в этом случае – это лабиринт, а его награда – количество очков. Этот подход отлично себя показал в решении многих задач, и некоторые люди надеются, что с его помощью получится общее искусственный интеллект.

Однако такой способ создания мощных систем может вызвать некоторые проблемы. Одна из них – взлом вознаграждения. Представьте, вы создали очень мощную систему на обучении с подкреплением и тестируете ее в Супер Марио. Она видит экраны, может играть, нажав на кнопки контроллера. Система знает адрес переменной, где записан счет очков. Это вознаграждение.

Вдруг, вместо того чтобы играть в Марио, она начинает делать что-то странное. Это видео с Табиленго, он дипломированный волшебник (ссылка в описании), творит что-то странное: то спиной вперед прыгнет, то еще что. Вон, гляньте, Мариуш почернел! Очевидно, что обычно так не играют. Если система делает нечто подобное, логично предположить, что с ней что-то не то. Внезапно количество очков становится максимальным, а искусственный интеллект перестает выдавать какие-либо действия.

Эй, что ты думал, я не прав? Нет, ты прав! В Супер Марио можно ввести определенную последовательность команд, которая ломает игру и дает возможность напрямую редактировать любой адрес в памяти. Можно даже превратить игру в Flappy Bird. А наши, с помощью этого, установил максимальное вознаграждение. Это взлом вознаграждения.

Но что же пошло не так? Мы хотели, чтобы система играла, и поставили цель максимально увеличить значение количества очков. Мы предположили, что сделать это можно только если хорошо играть, но оказывается, что это не так. Если функция вознаграждения даже чуть-чуть не позволяет с тем, чего мы хотим добиться от системы, могут возникнуть проблемы.

В реальном мире все еще хуже: нет переменной количества очков, которые можно использовать как вознаграждение. Чего бы мы ни хотели добиться от Агента, нам нужно перевести что-то из реального мира в число. Да так, чтобы он не мог до него добраться напрямую. Сегодня что-то неупорядоченное и сложно описываемое обычно преобразуют в понятные машине нули и единицы с помощью глубоких нейронных сетей.

Сеть обучают на куче примеров, а потом она определяет, где кошка, где собака. Ну и все в таком духе. Было бы здорово научить нейросеть оценивать данные из реального мира, скормив ей кучу примеров с оценками, которые поставили люди, а затем использовать эту сеть для вознаграждения. В определенных условиях и с ограниченной системой такое могло бы сработать, но нейронные сети уязвимы для, так сказать, вредоносных примеров.

Настолько неожиданных данных, что нейросеть выдает феерически ошибочный результат. На правой картинке явно Панда, но программа распознала в ней гиббона. Если в обучении с подкреплением использовать нейросети для выдачи вознаграждения, подобные ошибки могут привести к большим проблемам. Вернемся к нашей аналогии: игре Super Mario. Если рассматривать ее как систему, у которой на входе последовательность нажатий на кнопки, а на выходе – количество очков, которые оценивают, насколько игрок хорош, то все, что вытворяет сеть, можно считать вредоносным примером.

Это особая последовательность команд, из-за которых система выдает ошибку. Насколько мне известно, пока нет такой, которая смогла бы самостоятельно придумать, как сделать такое в Супер Марио, чтобы сообразить, как работают все эти баги. Просто играя, требуются мозги посильнее, чем у современных. Но что-то подобное случается постоянно, и чем искусственный интеллект мощнее, тем лучше он понимает происходящее, и тем вероятнее найдет, как обмануть систему, чтобы получить вознаграждение.

По мере того как растут сложность задач, которые решает, и количество доступных Агенту действий, и сложность среды, также растет вероятность того, что система найдет такой способ получить вознаграждение, о котором мы просто не подумали. Итак, есть риск, что наткнется на какие-то неожиданные последовательности действий, которые приведут к получению вознаграждения. Это полбеды.

Дело в том, что, даже не зная об их существовании, мощные системы будут их целенаправленно искать. Почему? Потому что эти стратегии лучше. Взлом позволяет присвоить ячейки памяти, содержащие количество очков, максимальное физически возможное значение. Получится также просто играть. Может быть, но это очень долго.

А теперь вернемся к нашим картинкам. Левое изображение панды распознается как Панда с уверенностью менее 60 процентов. Фотография с настоящим гиббоном имела бы схожий результат, но вредоносный пример справа распознается как Гиббон с уверенностью 99,3 процента. Если бы система ИИ получила очки за картинки гиббонов, она бы выбрала правое фото, ведь для данной нейросети она больше похожа на гиббона, чем фото гиббона.

Поэтому взлом вознаграждения может дать больше очков, чем самое лучшее честное выполнение задачи. А значит, некоторые типы мощных систем будут первым делом пытаться найти подобные уязвимости. Это проблема проектирования и проблема ли это безопасности? Супер Марио система дала себе максимум очков и сидит без дела. Хотели мы этого? Нет, но никто не пострадал. Систему можно включить и поправить.

Но мощный общий интеллект может осознать, что взломать вознаграждение, получить максимум очков и сидеть без дела. Систему можно выключить и поправить. Лучшая стратегия – сначала сделать так, чтобы никто и никогда не смог тебя выключить, а уже потом взломать вознаграждение. Для людей добром это не кончится.

Переведено и озвучено студией Vert Dayder.

Как создать безопасный ИИ? #3. Взлом вознаграждения 1/2 [Robert Miles]

More Articles