Как создать безопасный ИИ? #4. Как бороться со взломом вознаграждения? [Robert Miles]

6m read

·Nov 3, 2024

Угу, вот [музыка]. Привет! Это очередное видео по статье, конкретные проблемы безопасности.

В прошлый раз мы говорили о взломе вознаграждения: откуда он берется и чем грозит. Мы обсуждали опасность вредоносных примеров, которые, если отправить их в систему вознаграждения, заставят ее выдать неоправданно высокую оценку. Еще одна трудность связана с тем, что система вознаграждения обладает неполной информацией о среде, и агент может саботировать работу своих же датчиков ради высокой оценки.

Не стоит забывать про Wired Hading, поскольку система вознаграждения — это реальный объект. Агент может физически на него воздействовать так, чтобы максимизировать награду. Ещё был так называемый закон Гудхарта: когда мера становится целью, она перестает быть хорошей мерой. Ссылка, сами знаете, ваших комментариев в прошлому: многие высказались по поводу оценок на экзаменах и законы Гудхарта.

Одновременно с выходом видео в новости попала история про школу, откуда отчислили несколько учеников за недостаточно высокие оценки. Классический пример: средний показатель успеваемости, по которому обычно судят о том, насколько хорошо учат в школе, вырастет, если двоечников просто отчислить. Забавный момент: я в свое время закончил именно эту школу.

Многие из вас отметили закон Гудхарта применимо к экзаменам и тестам, еще называется законом Кэмпбелла. В комментариях вспомнили про эффект Кобры, порочные стимулы, закон непреднамеренных последствий и так далее. Как в той истории про слепцов, которые ощупывали разные части одного слона. Все эти концепции взаимосвязаны.

Тоже можно сказать про мои примеры из прошлого видео. Я рассказывал о гипотетическом агенте, который бы использовал ошибки в ходе Супер Марио, чтобы набрать максимум очков. Вайер Хандинг, ведь часть системы вознаграждения, которая считает очки, является частью игровой среды, и агент воздействует на неё. Робот с ведром на голове иллюстрировал проблему неполной информации о среде, но ситуацию можно считать примером закона Гудхарта.

Мы сделали количество наблюдаемого бардака целью, и этот показатель перестал быть хорошей мерой бардака. На первый взгляд все эти примеры очень разные, но если посмотреть на них в контексте взлома вознаграждения, то выясняется, что у них много общего. В статье предложены 10 подходов к решению подобных проблем.

Некоторые нацелены на что-то одно. Сразу же после открытия вредоносных примеров исследователи начали искать способы сделать нейросети устойчивыми к такому воздействию. Но это решение для одного типа проблем. Учитывая, что некоторые способы взломать вознаграждение в чём-то похожи, возможно, и противостоять можно нескольким за раз.

Например, если внимательно относиться к самой разработке, искусственный интеллект не может эксплуатировать баги вашей системы, если в нем не будет багов. О том, как создавать сверхнадежные программы, написано немало работ. Можно написать код таким образом, чтобы было возможно формально верифицировать, что поведение программы будет соответствовать определенным требованиям, логически предсказать, на что она способна.

Правда, сделав ряд предположений, например, о том, как именно будет работать железо, но нет гарантий, что мы окажемся правы, когда против нас работает достаточно мощный общий и естественный подход. Формальной верификации подход не ограничивается, он подразумевает множество других способов проверки, испытания и контроля качества.

По подозрению в создании безопасного нам будет полезен опыт специалистов, например аэрокосмической индустрии и сферы компьютерной безопасности, где нужно очень надежное программное обеспечение. Разработчики смогут много у них научиться, но большие надежды по решению наших проблем я бы на это возлагать не стал.

Другой подход — это состязательные функции вознаграждения. Отчасти наши проблемы в том, что агенты системы вознаграждения находятся в состязательных отношениях. Они соревнуются: агент пытается обхитрить систему, чтобы она дала ему максимум награды. Если агент — это мощный, а система вознаграждения — пассивная программка или несложный приборчик, будьте уверены, рано или поздно агент найдет способ обхитрить её или вовсе сломать.

Может, стоит сделать систему вознаграждения помощнее, поднять до уровня агента, и тогда она будет устойчивее к попыткам в неё залезть. Если агент вознаграждения будет в чем-то умнее агента-исполнителя, то он, скорее всего, сможет защититься от взлома. Правда, необходимо будет сделать безопасным и его тоже.

Исследование рассматривает конфигурации, в которых есть больше двух агентов, и они все следят друг за другом и не допускают безобразий. По аналогии с разделением властей, на законодательную, исполнительную и судебную, они контролируют друг друга, благодаря чему правительство всегда действует в интересах граждан.

Если серьезно, не думаю, что рабочий... Непонятно, как не дать агентам стать слишком сильными. Нельзя, чтобы один стал намного сильнее остальных, но за этим сложно следить в ситуации, когда агенты могут себя модифицировать.

Вообще две конфликтующие между собой мощные системы — так себе затея. Как если бы кто-то пытался поджарить тост с помощью огнемета, и чтобы ничего не подгорело, вы бы стали заливать всё жидким азотом в надежде, что это как-то сбалансирует ситуацию в целом. В системе, которая пытается взломать вознаграждение, но по той или иной причине решает этого не делать, я бы предпочёл систему, которая вообще не захочет ничего взламывать.

Тут возможно подойдет другой подход. В исследовании он назван упреждающая модель. Возможно, вы смотрели вот это видео с компьютера. Файл: "У вас есть дети?" Да, представим, что я предложил вам таблетку, да, так что вы почему-то ой как захотите убить своих детей.

Сейчас у вас есть всякие разные желания исполнить, которые очень непросто. Для этого надо много работать, стать по-настоящему счастливым. У вас вряд ли получится воплотить вообще всё — просто невозможно, но моя таблетка чего вы будете хотеть? Своих детей? [музыка].

Нет, конечно, но это же путь к счастью, а вы отказываетесь. Полагаю, вы не просто не хотите эту таблетку. Вы еще и сопротивляться будете, если вам её попробуют дать принудительно. Да, неважно, как счастлива вы будете в этом гипотетическом будущем, важно, что здесь и сейчас вы любите своих детей и ни в коем случае не хотите навредить им.

Вот у нас тут нечто похожее. Допустим, существует агент, который собирает марки, просто обожает. И тут я так: "Подожди, я немного напортачил. Давай кое-что в тебе поменяем, чтобы ты марки любил поменьше". Он мне ответит: "Но это же марки! Если ты что-то сделаешь, я буду их меньше собирать, не надо менять во мне ничего".

Как правило, любой агент будет сопротивляться попыткам его изменить. После запуска получение новой функции полезности почти всегда будет бесполезно с точки зрения текущей функции полезности. Получается интересный контраст: при обучении с подкреплением агенты за всех сил стараются поменять функцию вознаграждения, а максимизатор полезности, о котором мы говорили на канале Number файл, сопротивляется изменениям своей функции полезности.

Ведь с точки зрения текущей функции полезности смена функции приведет к худшему результату, чем текущая, и агент откажется что-то менять. В обучении с подкреплением функцию можно считать максимизацией выхода системы вознаграждения, и ради этого агент готов эту систему изменить. Согласно статье, можно сделать так, что агент в обучении с подкреплением будет думать наперед.

Если выдавать вознаграждение не только за его действия и наблюдение состояния мира, а учитывать, какие действия он планирует и какие состояния мира прогнозирует, таким образом агент получит штраф даже если задумается о том, чтобы как-то влезть в систему вознаграждения. Собираясь надеть на голову зирует, что мусор никуда не денется, и штрафы за подобные планы научат его так не делать.

На сегодня хватит.

Как создать безопасный ИИ? #4. Как бороться со взломом вознаграждения? [Robert Miles]

More Articles