yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #3. Взлом вознаграждения 1/2 [Robert Miles]


5m read
·Nov 3, 2024

Угу, вот [музыка]. Привет! Это очередное видео о статье "Конкретные проблемы безопасности", и ниже есть ссылки на предыдущие видео. Но надеюсь, этот ролик будет полезен, даже если вы не видели остальные. Кстати, если вы почему-то не подписаны на "Компьютер Файл", загляните туда; там я недавно выпустил еще один ролик по схожей теме. В том видео я говорю про часть статьи, где обсуждаются мультиагентные подходы. Посмотрите, если вы еще не видели, ссылка в описании.

Сегодня у нас взлом вознаграждения. В ролике на "Компьютер Файл" я рассказывал, как в целом работает обучение с подкреплением. У нас есть Агент, он взаимодействует со средой и пытается максимизировать вознаграждение. Скажем, ваш Агент – это Пакман, его среда в этом случае – это лабиринт, а его награда – количество очков. Этот подход отлично себя показал в решении многих задач, и некоторые люди надеются, что с его помощью получится общее искусственный интеллект.

Однако такой способ создания мощных систем может вызвать некоторые проблемы. Одна из них – взлом вознаграждения. Представьте, вы создали очень мощную систему на обучении с подкреплением и тестируете ее в Супер Марио. Она видит экраны, может играть, нажав на кнопки контроллера. Система знает адрес переменной, где записан счет очков. Это вознаграждение.

Вдруг, вместо того чтобы играть в Марио, она начинает делать что-то странное. Это видео с Табиленго, он дипломированный волшебник (ссылка в описании), творит что-то странное: то спиной вперед прыгнет, то еще что. Вон, гляньте, Мариуш почернел! Очевидно, что обычно так не играют. Если система делает нечто подобное, логично предположить, что с ней что-то не то. Внезапно количество очков становится максимальным, а искусственный интеллект перестает выдавать какие-либо действия.

Эй, что ты думал, я не прав? Нет, ты прав! В Супер Марио можно ввести определенную последовательность команд, которая ломает игру и дает возможность напрямую редактировать любой адрес в памяти. Можно даже превратить игру в Flappy Bird. А наши, с помощью этого, установил максимальное вознаграждение. Это взлом вознаграждения.

Но что же пошло не так? Мы хотели, чтобы система играла, и поставили цель максимально увеличить значение количества очков. Мы предположили, что сделать это можно только если хорошо играть, но оказывается, что это не так. Если функция вознаграждения даже чуть-чуть не позволяет с тем, чего мы хотим добиться от системы, могут возникнуть проблемы.

В реальном мире все еще хуже: нет переменной количества очков, которые можно использовать как вознаграждение. Чего бы мы ни хотели добиться от Агента, нам нужно перевести что-то из реального мира в число. Да так, чтобы он не мог до него добраться напрямую. Сегодня что-то неупорядоченное и сложно описываемое обычно преобразуют в понятные машине нули и единицы с помощью глубоких нейронных сетей.

Сеть обучают на куче примеров, а потом она определяет, где кошка, где собака. Ну и все в таком духе. Было бы здорово научить нейросеть оценивать данные из реального мира, скормив ей кучу примеров с оценками, которые поставили люди, а затем использовать эту сеть для вознаграждения. В определенных условиях и с ограниченной системой такое могло бы сработать, но нейронные сети уязвимы для, так сказать, вредоносных примеров.

Настолько неожиданных данных, что нейросеть выдает феерически ошибочный результат. На правой картинке явно Панда, но программа распознала в ней гиббона. Если в обучении с подкреплением использовать нейросети для выдачи вознаграждения, подобные ошибки могут привести к большим проблемам. Вернемся к нашей аналогии: игре Super Mario. Если рассматривать ее как систему, у которой на входе последовательность нажатий на кнопки, а на выходе – количество очков, которые оценивают, насколько игрок хорош, то все, что вытворяет сеть, можно считать вредоносным примером.

Это особая последовательность команд, из-за которых система выдает ошибку. Насколько мне известно, пока нет такой, которая смогла бы самостоятельно придумать, как сделать такое в Супер Марио, чтобы сообразить, как работают все эти баги. Просто играя, требуются мозги посильнее, чем у современных. Но что-то подобное случается постоянно, и чем искусственный интеллект мощнее, тем лучше он понимает происходящее, и тем вероятнее найдет, как обмануть систему, чтобы получить вознаграждение.

По мере того как растут сложность задач, которые решает, и количество доступных Агенту действий, и сложность среды, также растет вероятность того, что система найдет такой способ получить вознаграждение, о котором мы просто не подумали. Итак, есть риск, что наткнется на какие-то неожиданные последовательности действий, которые приведут к получению вознаграждения. Это полбеды.

Дело в том, что, даже не зная об их существовании, мощные системы будут их целенаправленно искать. Почему? Потому что эти стратегии лучше. Взлом позволяет присвоить ячейки памяти, содержащие количество очков, максимальное физически возможное значение. Получится также просто играть. Может быть, но это очень долго.

А теперь вернемся к нашим картинкам. Левое изображение панды распознается как Панда с уверенностью менее 60 процентов. Фотография с настоящим гиббоном имела бы схожий результат, но вредоносный пример справа распознается как Гиббон с уверенностью 99,3 процента. Если бы система ИИ получила очки за картинки гиббонов, она бы выбрала правое фото, ведь для данной нейросети она больше похожа на гиббона, чем фото гиббона.

Поэтому взлом вознаграждения может дать больше очков, чем самое лучшее честное выполнение задачи. А значит, некоторые типы мощных систем будут первым делом пытаться найти подобные уязвимости. Это проблема проектирования и проблема ли это безопасности? Супер Марио система дала себе максимум очков и сидит без дела. Хотели мы этого? Нет, но никто не пострадал. Систему можно включить и поправить.

Но мощный общий интеллект может осознать, что взломать вознаграждение, получить максимум очков и сидеть без дела. Систему можно выключить и поправить. Лучшая стратегия – сначала сделать так, чтобы никто и никогда не смог тебя выключить, а уже потом взломать вознаграждение. Для людей добром это не кончится.

Переведено и озвучено студией Vert Dayder.

More Articles

View All
Building a Bench in the Arctic | Life Below Zero
Ah damn it, slip chain! I hate these small limbs! Like that, it happens with chainsaws. I gotta fix this up; the fun ain’t over yet. Okay, I got my poles. Time to get to work! What I want to do is get this bark off; then I’m gonna make a point and drive …
Who Was the First Person to Reach the North Pole? | National Geographic
Who was the first person to reach the North Pole? You might think it was Robert Peary or Frederick Cook. However, the title could actually belong to an African-American explorer named Matthew Henson. In 1866, only a year after the end of the Civil War, H…
2018 Berkshire Hathaway Annual Meeting (Full Version)
[Applause] Hmm, good morning. [Applause] I’m Warren, he’s Charlie. Charlie does most things better than I do, but, well, this one’s a little tough. Charlie, maybe you can chew on that a while. Okay, at the formal meeting that will begin at 3:45, we will…
How to Focus to Change Your Brain
Welcome to the Huberman Lab Podcast where we discuss science and science-based tools for everyday life. [upbeat music] My name is Andrew Huberman and I’m a professor of Neurobiology and Ophthalmology at Stanford school of medicine. This podcast is sepa…
Why become a product engineer? -- with Volley (YC W18) & Luminai (YC S20)
[Music] foreign [Music] Thanks for joining! For those of you who don’t know, I’m Paige from Y Combinator, where I work on our work at a startup team. Essentially, the team is helping all of our Founders hire great people like you. So, this is why I becom…
3 Easiest Ways to Prank Noobs -- "Up All Knight"
Welcome to Up All Night! Thank you, thank you. No, guys, seriously, please, thank you! Hey, today we’re discussing my three favorite ways to prank noobs. Ooh, sexy! There’s a lot of good ones. Okay, my first one is a package deal. When they’re not lookin…