yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]


4m read
·Nov 3, 2024

[музыка]

Привет! В этом видео мы продолжаем говорить о конкретных проблемах безопасности. Думаю, этот ролик полезен и сам по себе, но я всё же советую посмотреть предыдущие выпуски. Ссылка на плейлист в описании. Мы уже говорили о том, какие проблемы могут возникнуть при разработке, и вроде нежелательных побочных эффектов взлома, вознаграждения и динга.

Ещё был закон Харта, когда мы, например, проводим тест, чтобы оценить знания учеников. Есть риск, что они выучат только то, что будет на тесте, и результат перестанет быть хорошей метрикой знаний. Закономерный вопрос: почему бы не сделать всеобъемлющий тест с заданиями по каждой нужной теме? Ответ прост: это будет либо слишком долго, либо слишком дорого.

Приходится искать компромисс. С одной стороны, качество метрики, её устойчивость. Перед законом Гудхауса системы вознаграждения можно использовать человека, который будет наблюдать за процессом уборки и выдавать награду за те или иные действия. И остаётся риск, что достаточно умная система сумеет как-то обмануть или повлиять на человека. Ведь это даст ей преимущество.

Но если решить этот момент, выйдет неплохо. Надев на голову ведро, высокую оценку робот уже получить не сможет. Но есть один нюанс: если придётся нанимать человека-надзирателя, чтобы следить за роботом, проще нанять человека-уборщика. Мы не просто и оценивать количество бардака с помощью собственных сенсоров, ведь это сэкономит нам кучу времени и средств.

Ситуации, где нужен постоянный человеческий надзор, конечно, бывают. Например, при разработке беспилотных автомобилей за рулём сидит человек, который, если что, перехватит управление. Это логично. Да и законы, как правило, всё ещё требуют присутствия водителя, но это плохо масштабируется. Чтобы обучить систему, машинам надо пройти миллионы километров под присмотром людей, а людям приходится платить. Но все равно дорого.

Многие проекты об этом спотыкаются. Оператор дрона может присматривать за одним беспилотником, но за целым роем ему не уследить. Нужен метод, которому система может учиться у человека так, чтобы нам не пришлось неустанно за ним следить. Как сделать это безопасным при минимальном надзоре с уборкой? Например, можно поступить следующим образом: робот работает в течение дня, а вечером приходят люди и тщательно проверяют, смотрят, везде ли чисто, все ли вещи находятся на местах, и ставят оценку, скажем, по десятибалльной шкале.

Если робот что-то сломал, например, выбросил хорошую вещь или сел в углу с ведром на голове, оценка будет соответствующая. Так можно избежать некоторых проблем с побочными эффектами и взломом вознаграждения при условии, что люди достаточно умные, а система достаточно слабая и не сможет их каким-то образом обмануть.

Но и тут не всё так гладко. Например, что-нибудь вроде обучения с подкреплением будет очень долгим, а то и невозможным. Установленные на роботе камеры сразу же оценивать результат своих действий, модифицировать поведение и таким образом прибираться всё лучше. Инспекция же приходит вечером и выставляет всего лишь одну оценку за тысячи действий, которые робот совершил в течение дня. Как ему понять, что именно он сделал хорошо, а что плохо?

Потребуется слишком много дней, чтобы ИИ смог разобраться, за что именно ему ставят высокие оценки. Было бы здорово обучать систему в разумные сроки, используя так называемое разряжённое обучение. Это бы помогло безопасности и всему направлению в целом, ведь как правило, других вариантов нет.

Возьмём, например, систему DQN, которая способна научиться играть в игры. Она использует пиксели на экране как входные данные, а количество очков как вознаграждение. Справляется с задачей она по-разному: в Арканоид обходит любого человека, а вот в Мозу Ревен сильно отстаёт. Игры мало чем похожи, и одно из ключевых различий состоит в том, что в Арканоиде очки начисляются за каждый выбитый блок, счёт постоянно обновляется, и можно сразу оценить эффективность своих действий.

В Монте Зуме очки дают в определённых случаях, например, за найденный ключ или открытую дверь. Между этими событиями приходится довольно долго выполнять другие сложные действия, которые никак не влияют на ваш счёт. Даже если погибнете, очки вы не потеряете. Как же ИИ должен понять, что умирать в этой игре не стоит? Реально ли сделать систему, которая сможет учиться на редких оценках её действий и контролировать её поведение при этом, не следя за каждым шагом?

Как добиться масштабируемого способа? В следующем видео переведено и озвучено студией Верт Дайдер.

More Articles

View All
Inaction Is A Slow Death
Thank you. Um. [Music] It’s hard to take action. It’s painful. Washing the dishes isn’t fun. Meditation can be tedious. Waking up early is hard. The discomfort we feel in the face of action often paralyzes us from doing anything at all. So we sleep in…
Car Trouble - Deleted Scene | Life Below Zero
[Music] Hooked up my generator to my truck. Trucks don’t like to start in these kind of temperatures, so you got to have a way of warming them up. What mine has is an electrical outlet that heats the block heater, the oil pan, and the battery in it to wa…
The TRUTH About Shark Tank REVEALED! (Behind The Scenes)| Shark Tank's Kevin O'Leary
It had never been done before. Nobody had ever done this before and we got it done. We’re all stuck in this call at Hotel California. We went in, we never came out. During the entire season that we shot [Music] [Music], it ain’t bragging if it’s true. I m…
How to start learning a language-Language tips from a Polyglot
Hi guys, it’s me, Judy. I’m a first-year medical student in Turkey, and today we’re gonna be talking about how to start learning a new language. A lot of people want to learn a new language, but most of us don’t know where to start or what to do. So, I ho…
The SwissQT
Hi, Kevin O’Leary here, standing in the middle of Switzerland. Actually, I’m just out of a little village called Neon, just outside of Geneva, halfway between Geneva and Lausanne. You know what I love about Switzerland? Everything! The air smells like mon…
The View From Above | Stoic Exercises For Inner Peace
It’s funny to look at ourselves and see how we quarrel about the smallest things. Like the behavior of an annoying coworker during a meeting or the person who cuts us off in traffic. From my own experience, it’s very easy to get dragged along by a minor e…