yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]


4m read
·Nov 3, 2024

[музыка]

Привет! В этом видео мы продолжаем говорить о конкретных проблемах безопасности. Думаю, этот ролик полезен и сам по себе, но я всё же советую посмотреть предыдущие выпуски. Ссылка на плейлист в описании. Мы уже говорили о том, какие проблемы могут возникнуть при разработке, и вроде нежелательных побочных эффектов взлома, вознаграждения и динга.

Ещё был закон Харта, когда мы, например, проводим тест, чтобы оценить знания учеников. Есть риск, что они выучат только то, что будет на тесте, и результат перестанет быть хорошей метрикой знаний. Закономерный вопрос: почему бы не сделать всеобъемлющий тест с заданиями по каждой нужной теме? Ответ прост: это будет либо слишком долго, либо слишком дорого.

Приходится искать компромисс. С одной стороны, качество метрики, её устойчивость. Перед законом Гудхауса системы вознаграждения можно использовать человека, который будет наблюдать за процессом уборки и выдавать награду за те или иные действия. И остаётся риск, что достаточно умная система сумеет как-то обмануть или повлиять на человека. Ведь это даст ей преимущество.

Но если решить этот момент, выйдет неплохо. Надев на голову ведро, высокую оценку робот уже получить не сможет. Но есть один нюанс: если придётся нанимать человека-надзирателя, чтобы следить за роботом, проще нанять человека-уборщика. Мы не просто и оценивать количество бардака с помощью собственных сенсоров, ведь это сэкономит нам кучу времени и средств.

Ситуации, где нужен постоянный человеческий надзор, конечно, бывают. Например, при разработке беспилотных автомобилей за рулём сидит человек, который, если что, перехватит управление. Это логично. Да и законы, как правило, всё ещё требуют присутствия водителя, но это плохо масштабируется. Чтобы обучить систему, машинам надо пройти миллионы километров под присмотром людей, а людям приходится платить. Но все равно дорого.

Многие проекты об этом спотыкаются. Оператор дрона может присматривать за одним беспилотником, но за целым роем ему не уследить. Нужен метод, которому система может учиться у человека так, чтобы нам не пришлось неустанно за ним следить. Как сделать это безопасным при минимальном надзоре с уборкой? Например, можно поступить следующим образом: робот работает в течение дня, а вечером приходят люди и тщательно проверяют, смотрят, везде ли чисто, все ли вещи находятся на местах, и ставят оценку, скажем, по десятибалльной шкале.

Если робот что-то сломал, например, выбросил хорошую вещь или сел в углу с ведром на голове, оценка будет соответствующая. Так можно избежать некоторых проблем с побочными эффектами и взломом вознаграждения при условии, что люди достаточно умные, а система достаточно слабая и не сможет их каким-то образом обмануть.

Но и тут не всё так гладко. Например, что-нибудь вроде обучения с подкреплением будет очень долгим, а то и невозможным. Установленные на роботе камеры сразу же оценивать результат своих действий, модифицировать поведение и таким образом прибираться всё лучше. Инспекция же приходит вечером и выставляет всего лишь одну оценку за тысячи действий, которые робот совершил в течение дня. Как ему понять, что именно он сделал хорошо, а что плохо?

Потребуется слишком много дней, чтобы ИИ смог разобраться, за что именно ему ставят высокие оценки. Было бы здорово обучать систему в разумные сроки, используя так называемое разряжённое обучение. Это бы помогло безопасности и всему направлению в целом, ведь как правило, других вариантов нет.

Возьмём, например, систему DQN, которая способна научиться играть в игры. Она использует пиксели на экране как входные данные, а количество очков как вознаграждение. Справляется с задачей она по-разному: в Арканоид обходит любого человека, а вот в Мозу Ревен сильно отстаёт. Игры мало чем похожи, и одно из ключевых различий состоит в том, что в Арканоиде очки начисляются за каждый выбитый блок, счёт постоянно обновляется, и можно сразу оценить эффективность своих действий.

В Монте Зуме очки дают в определённых случаях, например, за найденный ключ или открытую дверь. Между этими событиями приходится довольно долго выполнять другие сложные действия, которые никак не влияют на ваш счёт. Даже если погибнете, очки вы не потеряете. Как же ИИ должен понять, что умирать в этой игре не стоит? Реально ли сделать систему, которая сможет учиться на редких оценках её действий и контролировать её поведение при этом, не следя за каждым шагом?

Как добиться масштабируемого способа? В следующем видео переведено и озвучено студией Верт Дайдер.

More Articles

View All
Momentum | Physics | Khan Academy
You have a baseball and a ping-pong ball being hurled at you, let’s say at pretty much the same speed. Now, if you try to catch it, you probably know that catching a baseball is going to hurt your hand more compared to the ping pong ball, right? But why? …
When there aren't gains from trade | Basic economics concepts | AP Macroeconomics | Khan Academy
So let’s say we’re in a very simplified world where we have two countries: Country A and Country B. They’re each capable of producing apples or bananas or some combination of them. What this chart tells us is if Country A put all of their energy behind ap…
Warren Buffett: How to Make Your First $1 Million
Warren Buffett is universally regarded as the greatest investor ever and has a net worth of over 100 billion dollars. However, this wasn’t always the case. Buffett got his start at just 11 years old when he made his first investment, buying three shares o…
What is Origins? - Behind the Scenes | Origins: The Journey of Humankind
I want to take people out of their heads. I want origins to inject people with a sense of wonder. Origins is the journey of humankind. It’s basically a show that reinvents the sort of historical epic from a modern perspective. So, through a modern lens, …
The Beauty of What We Just Don't Know (A Philosophy of Trust)
There’s this human tendency to find explanations for the things that we don’t understand. This tendency has been the birthplace of folklore and creation stories that are cornerstones of many religions. Imagine living in the tribal age, gazing at the stars…
Why Robots That Bend Are Better
These are soft robots. Their structural components are built, not out of metal or wood, but flexible materials like plastic tubing. But how do they work? And why would you want a soft robot in the first place? This video was sponsored by KiwiCo. Check out…