yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #1. Нежелательные побочные эффекты [Robert Miles]


6m read
·Nov 3, 2024

Вот сайт с шаурмой.

Привет! Только что закончил видео для компьютера, файл, где рассказывая статьи, посвященные конкретным проблемам при создании безопасного. И ссылку я добавлю в описание. Вот краткий пересказ, чтобы было понятнее.

Искусственный интеллект может создать кучу проблем, и лишь недавно мы всерьез задумались о том, как этого избежать. Многие опасения сейчас кажутся чем-то из научной фантастики и скорее касаются лишь очень мощных систем, которые появятся еще не скоро. Из-за этого тему сложно изучать, ведь мы не знаем, чего ожидать от настоящего и будущего. Однако похожие проблемы актуальны для систем, которые разрабатываются или даже используются уже сегодня.

В наши дни эта статья описывает 5 проблем, приступать к решению которых можно уже сегодня. Это поможет избежать проблем как с текущими, так и с теми, что появятся в будущем. В ролике на другом канале я представил экспресс-обзор 5 проблем с упомянутой работы, а в этом видео мы подробнее рассмотрим первую из них — нежелательные побочные эффекты. Думаю, посвятить каждой проблеме по отдельному видео получится небольшой сериал.

Итак, как избежать побочных эффектов? Рассмотрим примеры, о которых шла речь в ролике. Стоп, на компьютер файл! Вы простите, роботы могут сходить на кухню, налить вам чай, но на пути у них преграда, например, ребенок, драгоценная китайская ваза или что-то подобное. Робот не останавливается, сбивает ребенка или вазу, но чай вам приносят.

В принципе, система поставленную задачу выполнила — вам принесли чай, но имел место негативный побочный эффект. Есть основания полагать, что нежелательные побочные эффекты — реальные проблемы системы и отчасти обусловлено использованием простой целевой функции в сложной среде. С вашей точки зрения, вы определили красивую простую целевую функцию, но в применении к сложной среде ваша функция скорее выглядит гораздо сложнее.

В сложной среде все, чему не присвоили значение в целевой функции, по сути, получает значение 0. Это беда, ведь теперь и система будет щедро жертвовать всем, что не прописано в её функции, ради любого минимального улучшения выбранных вами показателей. Если это позволит оптимизировать доставку чая хоть на тысячную долю процента, робот с радостью разнесет всю кухню, чтобы получить хоть чуть-чуть того, что ей важно. Система готова пожертвовать хоть вообще всем, что считает неважным, и чем она умнее, тем больше способов она найдет.

Так что крайне серьезных побочных эффектов следует ожидать по умолчанию. Пытаться прописать значение для всего, что только можно, непрактично, ведь тогда сложность целевой функции приблизится к сложности среды. Очень много всего, чего мы не знаем, и обязательно что-нибудь упустим. Система заботится только о том, что мы прописали, а всем, что мы забыли указать, она будет рада так сказать пожертвовать.

Ну хотя бы эти побочные эффекты очень похожи. В статье в качестве примера приводят офисного робота-уборщика, а на канале я рассказывал про робота, который приносит вам чай. Тем не менее, как видите, нежелательные побочные эффекты примерно одни и те же, пусть задачи и отличаются.

Так что, возможно, не об этом пишут авторы статьи. Существует панацея от всех нежелательных побочных эффектов. Если принять, что большинство побочных эффектов нежелательны, на первый взгляд кажется, что если действие случайно, то его последствия тоже. Они с одинаковой вероятностью будут хорошими и плохими или абсолютно нейтральными. На самом деле, мир уже весьма оптимизирован для людей, в особенности там, где мы живем.

Я не говорю, что ничего нельзя улучшить, просто испортить гораздо легче. В основном текущее положение дел нас устраивает, и случайные перемены нежелательны. Так что, возможно, проще стараться избавиться не только от нежелательных побочных эффектов, а вообще от любых.

В статье, например, предлагают создать некий регулятор степени воздействия, который штрафовал бы систему за любые изменения среды. Он обладает какой-то моделью мира, отслеживает его изменения по ходу выполнения задач. Вы можете задать некую метрику, значение которой будет показывать, насколько отличаются друг от друга разные состояния мира. Чем меньше это значение, тем больше эти миры похожи друг на друга.

Тогда можно сказать роботу: "Если принесешь чай, получишь вот столько баллов". Но чем сильнее изменится мир, тем больше баллов ты потеряешь из-за штрафа. Побочные эффекты допускаются, ведь без них вообще вряд ли можно заварить чай. Но теперь робот заинтересован свести их к минимуму.

На один чайный пакетик станет меньше — это неизбежно в данном случае. Но вот устраивать погром на пути — это излишнее действие, которого можно избежать. Еще одно преимущество над классическим подходом в том, что теперь робот вернет коробку с пакетиками на полку, закроет буфет и поставит молоко назад в холодильник. Возможно, дольет в чайник воды и постарается максимально вернуть мир к исходному состоянию.

На получается красиво: добавляем одно простое правило, и робот уже аккуратнее, чем некоторые мои сожители. Что может пойти не так? Подумайте, поставьте на паузу, я подожду.

Итак, вазу робот объедет, чтобы не допустить личных изменений в мире. Но, добравшись до кухни, увидит вашу коллегу, которая готовит себе кофе. Это непорядок — она ведь воздействует на мир, при этом никак не помогая заварить нам чай, а мир меняется, и значит, робота оштрафуют. А значит, он должен это немедленно остановить.

Мы не программировали его минимизировать собственное воздействие на мир — мы ему сказали минимизировать любые изменения. Так не пойдет. Другой вариант: у робота есть модель мира, и он может предсказывать будущее. Зададим ему программу примерно следующего содержания: "Смоделируй, каким будет мир, если это не сделаешь. Ничем не пошевелишь, будешь стоять, не двигаясь. Представь этот мир и сделай так, чтобы в результате твоих действий получилось что-то похожее".

Или представь диапазон возможных исходов и попробуй получить мир, похожий на что-то из этого диапазона. Тогда робот подумает: "Так, если я не буду шевелиться, то ваза, вероятнее всего, останется целой, ребенок будет живой и здоровый, продолжит ползать. Тогда мы спокойно приготовим себе кофе, кухня будет прибрана и в порядке". Значит, мне нужно заварить чай, но так, чтобы результат получился похожим на то, что я представил. Хороший же план!

Так в чем здесь проблема? Подумайте, поставьте видео на паузу. Что может пойти не так? В какой ситуации все сломается? Представьте, что ваш робот управляет автомобилем на скорости в сто километров в час. Каким получится мир, в котором этот робот ничего не делает? Так что бездействие не всегда самый безопасный подход.

Однако было бы здорово такой подход найти. Станет гораздо удобнее. Не придется прописывать, как безопасно выполнять каждую отдельную задачу. У нас будет общая стратегия, в каком-то смысле политика безопасности. Тогда роботу можно сказать, чтобы результат его действий был максимально похож на то, что мы бы получили, следуя ей.

Да, и есть еще один возможный источник проблем с таким подходом. Мы подумали, когда отвечали: все будет очень сильно зависеть от того, как именно вы измеряете похожесть миров. Например, если на потолке в комнате работающий вентилятор, считает ли робот его чем-то постоянным? Включенным вентилятором или непостоянным? Лопасти же вращаются: 10 градусов, 20, 30. Разные модели мира могут представлять одно и то же как что-то неизменное или как что-то постоянно меняющееся.

Единственно верного ответа может и не быть. Главную роль сыграет то, что мы считаем важным и учитываем, а что нет. От этого зависит, оставит ли робот вентилятор в покое или попытается вернуть пропеллер в исходное положение. Ладно, на первый раз хватит. Думаю, в следующем ролике мы рассмотрим еще больше вариантов избежать нежелательных побочных эффектов из той же статьи. Так что подписывайтесь, если вам интересно. До скорой встречи!

Переведено и озвучено студией Вирт Дай Дар.

More Articles

View All
Differentiating rational functions | Derivative rules | AP Calculus AB | Khan Academy
Let’s say that Y is equal to five minus three X over x squared plus three X, and we want to figure out what is the derivative of Y with respect to X. Now, it might immediately jump out at you that look-look, Y is being defined as a rational expression her…
Telling time to the nearest minute: labeled clock | Math | 3rd grade | Khan Academy
Let’s look at this clock and see if we can tell what time is shown on it. First thing, when we look at a clock, we have two hands, and that’s because time is told in two parts. Time is told in hours; that’s part, and on a clock, the hours are represented…
Gardening in Small Spaces | Live Free or Die: How to Homestead
[Music] So we live on an acre and a half of land, and we have plenty of space to garden. So we can grow all sorts of different things. But even if we had just a teeny tiny yard, we could also grow a garden. And I’m going to show you one way to grow a gard…
Khan Academy Live: AP Calculus
Hi and welcome to live tutoring for the AP Calculus exams provided by Con Academy! In case you are curious, I am not Sal Con; my name is Dave. I first took the AP Calculus test back in 2006, and before joining KH Academy, I was an AP Calculus teacher. So…
REAL Human HORNS! ... and more REAL WORLD WTFs
Vsauce, hello! I’m coming to you today from Los Angeles. I went to the Griffith Observatory today and everything was so green and verdant. I decided instead of doing video game WTFs, let’s do some real-life WTFs. I pulled together some of the grossest fac…
Two Classes of Bitcoin? | Kitco NEWS
Joining me now is serial entrepreneur, Shark Tank star, and chairman of O shares ETFs, the one and only Kevin O’Leary, Mr. Wonderful. Wonderful to have you back with us! Great to be here. Thank you so much! All right, so Kevin, Jamie Dimon is saying tha…