Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]

4m read

·Nov 3, 2024

[музыка]

Привет! В этом видео мы продолжаем говорить о конкретных проблемах безопасности. Думаю, этот ролик полезен и сам по себе, но я всё же советую посмотреть предыдущие выпуски. Ссылка на плейлист в описании. Мы уже говорили о том, какие проблемы могут возникнуть при разработке, и вроде нежелательных побочных эффектов взлома, вознаграждения и динга.

Ещё был закон Харта, когда мы, например, проводим тест, чтобы оценить знания учеников. Есть риск, что они выучат только то, что будет на тесте, и результат перестанет быть хорошей метрикой знаний. Закономерный вопрос: почему бы не сделать всеобъемлющий тест с заданиями по каждой нужной теме? Ответ прост: это будет либо слишком долго, либо слишком дорого.

Приходится искать компромисс. С одной стороны, качество метрики, её устойчивость. Перед законом Гудхауса системы вознаграждения можно использовать человека, который будет наблюдать за процессом уборки и выдавать награду за те или иные действия. И остаётся риск, что достаточно умная система сумеет как-то обмануть или повлиять на человека. Ведь это даст ей преимущество.

Но если решить этот момент, выйдет неплохо. Надев на голову ведро, высокую оценку робот уже получить не сможет. Но есть один нюанс: если придётся нанимать человека-надзирателя, чтобы следить за роботом, проще нанять человека-уборщика. Мы не просто и оценивать количество бардака с помощью собственных сенсоров, ведь это сэкономит нам кучу времени и средств.

Ситуации, где нужен постоянный человеческий надзор, конечно, бывают. Например, при разработке беспилотных автомобилей за рулём сидит человек, который, если что, перехватит управление. Это логично. Да и законы, как правило, всё ещё требуют присутствия водителя, но это плохо масштабируется. Чтобы обучить систему, машинам надо пройти миллионы километров под присмотром людей, а людям приходится платить. Но все равно дорого.

Многие проекты об этом спотыкаются. Оператор дрона может присматривать за одним беспилотником, но за целым роем ему не уследить. Нужен метод, которому система может учиться у человека так, чтобы нам не пришлось неустанно за ним следить. Как сделать это безопасным при минимальном надзоре с уборкой? Например, можно поступить следующим образом: робот работает в течение дня, а вечером приходят люди и тщательно проверяют, смотрят, везде ли чисто, все ли вещи находятся на местах, и ставят оценку, скажем, по десятибалльной шкале.

Если робот что-то сломал, например, выбросил хорошую вещь или сел в углу с ведром на голове, оценка будет соответствующая. Так можно избежать некоторых проблем с побочными эффектами и взломом вознаграждения при условии, что люди достаточно умные, а система достаточно слабая и не сможет их каким-то образом обмануть.

Но и тут не всё так гладко. Например, что-нибудь вроде обучения с подкреплением будет очень долгим, а то и невозможным. Установленные на роботе камеры сразу же оценивать результат своих действий, модифицировать поведение и таким образом прибираться всё лучше. Инспекция же приходит вечером и выставляет всего лишь одну оценку за тысячи действий, которые робот совершил в течение дня. Как ему понять, что именно он сделал хорошо, а что плохо?

Потребуется слишком много дней, чтобы ИИ смог разобраться, за что именно ему ставят высокие оценки. Было бы здорово обучать систему в разумные сроки, используя так называемое разряжённое обучение. Это бы помогло безопасности и всему направлению в целом, ведь как правило, других вариантов нет.

Возьмём, например, систему DQN, которая способна научиться играть в игры. Она использует пиксели на экране как входные данные, а количество очков как вознаграждение. Справляется с задачей она по-разному: в Арканоид обходит любого человека, а вот в Мозу Ревен сильно отстаёт. Игры мало чем похожи, и одно из ключевых различий состоит в том, что в Арканоиде очки начисляются за каждый выбитый блок, счёт постоянно обновляется, и можно сразу оценить эффективность своих действий.

В Монте Зуме очки дают в определённых случаях, например, за найденный ключ или открытую дверь. Между этими событиями приходится довольно долго выполнять другие сложные действия, которые никак не влияют на ваш счёт. Даже если погибнете, очки вы не потеряете. Как же ИИ должен понять, что умирать в этой игре не стоит? Реально ли сделать систему, которая сможет учиться на редких оценках её действий и контролировать её поведение при этом, не следя за каждым шагом?

Как добиться масштабируемого способа? В следующем видео переведено и озвучено студией Верт Дайдер.

Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]

More Articles