yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #3. Взлом вознаграждения 1/2 [Robert Miles]


5m read
·Nov 3, 2024

Угу, вот [музыка]. Привет! Это очередное видео о статье "Конкретные проблемы безопасности", и ниже есть ссылки на предыдущие видео. Но надеюсь, этот ролик будет полезен, даже если вы не видели остальные. Кстати, если вы почему-то не подписаны на "Компьютер Файл", загляните туда; там я недавно выпустил еще один ролик по схожей теме. В том видео я говорю про часть статьи, где обсуждаются мультиагентные подходы. Посмотрите, если вы еще не видели, ссылка в описании.

Сегодня у нас взлом вознаграждения. В ролике на "Компьютер Файл" я рассказывал, как в целом работает обучение с подкреплением. У нас есть Агент, он взаимодействует со средой и пытается максимизировать вознаграждение. Скажем, ваш Агент – это Пакман, его среда в этом случае – это лабиринт, а его награда – количество очков. Этот подход отлично себя показал в решении многих задач, и некоторые люди надеются, что с его помощью получится общее искусственный интеллект.

Однако такой способ создания мощных систем может вызвать некоторые проблемы. Одна из них – взлом вознаграждения. Представьте, вы создали очень мощную систему на обучении с подкреплением и тестируете ее в Супер Марио. Она видит экраны, может играть, нажав на кнопки контроллера. Система знает адрес переменной, где записан счет очков. Это вознаграждение.

Вдруг, вместо того чтобы играть в Марио, она начинает делать что-то странное. Это видео с Табиленго, он дипломированный волшебник (ссылка в описании), творит что-то странное: то спиной вперед прыгнет, то еще что. Вон, гляньте, Мариуш почернел! Очевидно, что обычно так не играют. Если система делает нечто подобное, логично предположить, что с ней что-то не то. Внезапно количество очков становится максимальным, а искусственный интеллект перестает выдавать какие-либо действия.

Эй, что ты думал, я не прав? Нет, ты прав! В Супер Марио можно ввести определенную последовательность команд, которая ломает игру и дает возможность напрямую редактировать любой адрес в памяти. Можно даже превратить игру в Flappy Bird. А наши, с помощью этого, установил максимальное вознаграждение. Это взлом вознаграждения.

Но что же пошло не так? Мы хотели, чтобы система играла, и поставили цель максимально увеличить значение количества очков. Мы предположили, что сделать это можно только если хорошо играть, но оказывается, что это не так. Если функция вознаграждения даже чуть-чуть не позволяет с тем, чего мы хотим добиться от системы, могут возникнуть проблемы.

В реальном мире все еще хуже: нет переменной количества очков, которые можно использовать как вознаграждение. Чего бы мы ни хотели добиться от Агента, нам нужно перевести что-то из реального мира в число. Да так, чтобы он не мог до него добраться напрямую. Сегодня что-то неупорядоченное и сложно описываемое обычно преобразуют в понятные машине нули и единицы с помощью глубоких нейронных сетей.

Сеть обучают на куче примеров, а потом она определяет, где кошка, где собака. Ну и все в таком духе. Было бы здорово научить нейросеть оценивать данные из реального мира, скормив ей кучу примеров с оценками, которые поставили люди, а затем использовать эту сеть для вознаграждения. В определенных условиях и с ограниченной системой такое могло бы сработать, но нейронные сети уязвимы для, так сказать, вредоносных примеров.

Настолько неожиданных данных, что нейросеть выдает феерически ошибочный результат. На правой картинке явно Панда, но программа распознала в ней гиббона. Если в обучении с подкреплением использовать нейросети для выдачи вознаграждения, подобные ошибки могут привести к большим проблемам. Вернемся к нашей аналогии: игре Super Mario. Если рассматривать ее как систему, у которой на входе последовательность нажатий на кнопки, а на выходе – количество очков, которые оценивают, насколько игрок хорош, то все, что вытворяет сеть, можно считать вредоносным примером.

Это особая последовательность команд, из-за которых система выдает ошибку. Насколько мне известно, пока нет такой, которая смогла бы самостоятельно придумать, как сделать такое в Супер Марио, чтобы сообразить, как работают все эти баги. Просто играя, требуются мозги посильнее, чем у современных. Но что-то подобное случается постоянно, и чем искусственный интеллект мощнее, тем лучше он понимает происходящее, и тем вероятнее найдет, как обмануть систему, чтобы получить вознаграждение.

По мере того как растут сложность задач, которые решает, и количество доступных Агенту действий, и сложность среды, также растет вероятность того, что система найдет такой способ получить вознаграждение, о котором мы просто не подумали. Итак, есть риск, что наткнется на какие-то неожиданные последовательности действий, которые приведут к получению вознаграждения. Это полбеды.

Дело в том, что, даже не зная об их существовании, мощные системы будут их целенаправленно искать. Почему? Потому что эти стратегии лучше. Взлом позволяет присвоить ячейки памяти, содержащие количество очков, максимальное физически возможное значение. Получится также просто играть. Может быть, но это очень долго.

А теперь вернемся к нашим картинкам. Левое изображение панды распознается как Панда с уверенностью менее 60 процентов. Фотография с настоящим гиббоном имела бы схожий результат, но вредоносный пример справа распознается как Гиббон с уверенностью 99,3 процента. Если бы система ИИ получила очки за картинки гиббонов, она бы выбрала правое фото, ведь для данной нейросети она больше похожа на гиббона, чем фото гиббона.

Поэтому взлом вознаграждения может дать больше очков, чем самое лучшее честное выполнение задачи. А значит, некоторые типы мощных систем будут первым делом пытаться найти подобные уязвимости. Это проблема проектирования и проблема ли это безопасности? Супер Марио система дала себе максимум очков и сидит без дела. Хотели мы этого? Нет, но никто не пострадал. Систему можно включить и поправить.

Но мощный общий интеллект может осознать, что взломать вознаграждение, получить максимум очков и сидеть без дела. Систему можно выключить и поправить. Лучшая стратегия – сначала сделать так, чтобы никто и никогда не смог тебя выключить, а уже потом взломать вознаграждение. Для людей добром это не кончится.

Переведено и озвучено студией Vert Dayder.

More Articles

View All
Why Blue Whales Don't Get Cancer - Peto's Paradox
Cancer is a creepy and mysterious thing. In the process of trying to understand it, to get better at killing it, we discovered a biological paradox that remains unsolved to this day: Large animals seem to be immune to cancer, which doesn’t make any sense.…
Staying at a hotel-Dinner at Nobu restaurant vlog with my mom🇯🇵
Hi, guys, it’s me, Ruri. Today, my mother and I came to a hotel to celebrate my first 1 million viewed video. I decided to book a hotel and a fancy Japanese dinner to thank my mom for supporting me. Okay, so here we have our bathroom, toilet, and shower,…
Distance and displacement introduction | One-dimensional motion | AP Physics 1 | Khan Academy
So let’s say we have a sheep and it is hungry. So that is my sheep, my best quick drawing of a sheep. It is just following the grass wherever it finds good grass to eat. In pursuit of tasty grass, it first goes 10 kilometers to the east, 10 kilometers ea…
A Simulated Mars Tour | StarTalk
Hi Neil, welcome to Hi Seeds and Hawaii Space Exploration Animal Looking Simulation! I’m really excited to give you guys a tour, so come on, let’s go. This is the biology lab, and this is our astrobiologist Cyprian. So, most of the experiments we’re doin…
End behavior of algebraic models | Mathematics III | High School Math | Khan Academy
A barista poured a cup of coffee. The initial temperature of the coffee was 90 degrees Celsius. As time t increased, the temperature c of the coffee began to decrease exponentially and approach room temperature of 20 degrees Celsius. Which of the followi…
15 Lies We’ve Been Told About Achieving Happiness
If you could change one thing about your life to be happier, what would it be? More free time? Praise and validation from the people you love? What if we told you that we’ve all been lied to about the things that will make us happier? Society’s beliefs wo…