yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]


4m read
·Nov 3, 2024

[музыка]

Привет! В этом видео мы продолжаем говорить о конкретных проблемах безопасности. Думаю, этот ролик полезен и сам по себе, но я всё же советую посмотреть предыдущие выпуски. Ссылка на плейлист в описании. Мы уже говорили о том, какие проблемы могут возникнуть при разработке, и вроде нежелательных побочных эффектов взлома, вознаграждения и динга.

Ещё был закон Харта, когда мы, например, проводим тест, чтобы оценить знания учеников. Есть риск, что они выучат только то, что будет на тесте, и результат перестанет быть хорошей метрикой знаний. Закономерный вопрос: почему бы не сделать всеобъемлющий тест с заданиями по каждой нужной теме? Ответ прост: это будет либо слишком долго, либо слишком дорого.

Приходится искать компромисс. С одной стороны, качество метрики, её устойчивость. Перед законом Гудхауса системы вознаграждения можно использовать человека, который будет наблюдать за процессом уборки и выдавать награду за те или иные действия. И остаётся риск, что достаточно умная система сумеет как-то обмануть или повлиять на человека. Ведь это даст ей преимущество.

Но если решить этот момент, выйдет неплохо. Надев на голову ведро, высокую оценку робот уже получить не сможет. Но есть один нюанс: если придётся нанимать человека-надзирателя, чтобы следить за роботом, проще нанять человека-уборщика. Мы не просто и оценивать количество бардака с помощью собственных сенсоров, ведь это сэкономит нам кучу времени и средств.

Ситуации, где нужен постоянный человеческий надзор, конечно, бывают. Например, при разработке беспилотных автомобилей за рулём сидит человек, который, если что, перехватит управление. Это логично. Да и законы, как правило, всё ещё требуют присутствия водителя, но это плохо масштабируется. Чтобы обучить систему, машинам надо пройти миллионы километров под присмотром людей, а людям приходится платить. Но все равно дорого.

Многие проекты об этом спотыкаются. Оператор дрона может присматривать за одним беспилотником, но за целым роем ему не уследить. Нужен метод, которому система может учиться у человека так, чтобы нам не пришлось неустанно за ним следить. Как сделать это безопасным при минимальном надзоре с уборкой? Например, можно поступить следующим образом: робот работает в течение дня, а вечером приходят люди и тщательно проверяют, смотрят, везде ли чисто, все ли вещи находятся на местах, и ставят оценку, скажем, по десятибалльной шкале.

Если робот что-то сломал, например, выбросил хорошую вещь или сел в углу с ведром на голове, оценка будет соответствующая. Так можно избежать некоторых проблем с побочными эффектами и взломом вознаграждения при условии, что люди достаточно умные, а система достаточно слабая и не сможет их каким-то образом обмануть.

Но и тут не всё так гладко. Например, что-нибудь вроде обучения с подкреплением будет очень долгим, а то и невозможным. Установленные на роботе камеры сразу же оценивать результат своих действий, модифицировать поведение и таким образом прибираться всё лучше. Инспекция же приходит вечером и выставляет всего лишь одну оценку за тысячи действий, которые робот совершил в течение дня. Как ему понять, что именно он сделал хорошо, а что плохо?

Потребуется слишком много дней, чтобы ИИ смог разобраться, за что именно ему ставят высокие оценки. Было бы здорово обучать систему в разумные сроки, используя так называемое разряжённое обучение. Это бы помогло безопасности и всему направлению в целом, ведь как правило, других вариантов нет.

Возьмём, например, систему DQN, которая способна научиться играть в игры. Она использует пиксели на экране как входные данные, а количество очков как вознаграждение. Справляется с задачей она по-разному: в Арканоид обходит любого человека, а вот в Мозу Ревен сильно отстаёт. Игры мало чем похожи, и одно из ключевых различий состоит в том, что в Арканоиде очки начисляются за каждый выбитый блок, счёт постоянно обновляется, и можно сразу оценить эффективность своих действий.

В Монте Зуме очки дают в определённых случаях, например, за найденный ключ или открытую дверь. Между этими событиями приходится довольно долго выполнять другие сложные действия, которые никак не влияют на ваш счёт. Даже если погибнете, очки вы не потеряете. Как же ИИ должен понять, что умирать в этой игре не стоит? Реально ли сделать систему, которая сможет учиться на редких оценках её действий и контролировать её поведение при этом, не следя за каждым шагом?

Как добиться масштабируемого способа? В следующем видео переведено и озвучено студией Верт Дайдер.

More Articles

View All
Pollution and human health| Aquatic and Terrestrial Pollution| Khan Academy
Hey there friends! All of my life, I’ve struggled with asthma, and normally it doesn’t bother me too much. But when it’s really cold outside or if I’ve worked out really hard, my asthma symptoms get worse. When this happens, or in other words, when I get…
Family living in the wild builds a sail to cross the bay | Home in the Wild
(Hudson cooing) TORI: Wesley’s being so quiet. JIM: I know. He’s being so good. TORI: If the kids aren’t crying, things are good. JIM: Yeah. We got a tailwind. It’s a paddler’s dream. TORI: Yeah, just my concern is just the wind past this point, basi…
Why AI Hasn’t Blown Our Minds…Yet
Hypothetically, if AI is a bust in a bunch of different ways but it works extremely well fixing customer service, that’s still massive. It’s going to change our world; massive impact. Hello, this is Dalton plus Michael and today we’re going to talk about…
Thomas Hunt Morgan and fruit flies
Where we left off in the last video, we were in 1902-1903, and Mendelian genetics had been rediscovered at the turn of the century. Bovary and Sutton independently had proposed the chromosome theory, that the chromosomes were the location for where these …
The feeling of wanting to leave everything behind...
It’s quite ironic that in a world as vast as ours, we often find ourselves clinging to just a tiny part of it. Often, we die in the same place we came into existence, surrounded by roughly the same people. Somehow, we’re expected to remain close to our ro…
Earth Day Eve 2021 | National Geographic
(Uplifting music) - [Jane Goodall] We’re all part of one community. Hi everyone. I’m Jessica Nabongo coming to you from the National Geographic headquarters in Washington, D.C. For over 130 years, Nat Geo has used its groundbreaking storytelling to inspi…