yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #5. Масштабируемый контроль [Robert Miles]


4m read
·Nov 3, 2024

[музыка]

Привет! В этом видео мы продолжаем говорить о конкретных проблемах безопасности. Думаю, этот ролик полезен и сам по себе, но я всё же советую посмотреть предыдущие выпуски. Ссылка на плейлист в описании. Мы уже говорили о том, какие проблемы могут возникнуть при разработке, и вроде нежелательных побочных эффектов взлома, вознаграждения и динга.

Ещё был закон Харта, когда мы, например, проводим тест, чтобы оценить знания учеников. Есть риск, что они выучат только то, что будет на тесте, и результат перестанет быть хорошей метрикой знаний. Закономерный вопрос: почему бы не сделать всеобъемлющий тест с заданиями по каждой нужной теме? Ответ прост: это будет либо слишком долго, либо слишком дорого.

Приходится искать компромисс. С одной стороны, качество метрики, её устойчивость. Перед законом Гудхауса системы вознаграждения можно использовать человека, который будет наблюдать за процессом уборки и выдавать награду за те или иные действия. И остаётся риск, что достаточно умная система сумеет как-то обмануть или повлиять на человека. Ведь это даст ей преимущество.

Но если решить этот момент, выйдет неплохо. Надев на голову ведро, высокую оценку робот уже получить не сможет. Но есть один нюанс: если придётся нанимать человека-надзирателя, чтобы следить за роботом, проще нанять человека-уборщика. Мы не просто и оценивать количество бардака с помощью собственных сенсоров, ведь это сэкономит нам кучу времени и средств.

Ситуации, где нужен постоянный человеческий надзор, конечно, бывают. Например, при разработке беспилотных автомобилей за рулём сидит человек, который, если что, перехватит управление. Это логично. Да и законы, как правило, всё ещё требуют присутствия водителя, но это плохо масштабируется. Чтобы обучить систему, машинам надо пройти миллионы километров под присмотром людей, а людям приходится платить. Но все равно дорого.

Многие проекты об этом спотыкаются. Оператор дрона может присматривать за одним беспилотником, но за целым роем ему не уследить. Нужен метод, которому система может учиться у человека так, чтобы нам не пришлось неустанно за ним следить. Как сделать это безопасным при минимальном надзоре с уборкой? Например, можно поступить следующим образом: робот работает в течение дня, а вечером приходят люди и тщательно проверяют, смотрят, везде ли чисто, все ли вещи находятся на местах, и ставят оценку, скажем, по десятибалльной шкале.

Если робот что-то сломал, например, выбросил хорошую вещь или сел в углу с ведром на голове, оценка будет соответствующая. Так можно избежать некоторых проблем с побочными эффектами и взломом вознаграждения при условии, что люди достаточно умные, а система достаточно слабая и не сможет их каким-то образом обмануть.

Но и тут не всё так гладко. Например, что-нибудь вроде обучения с подкреплением будет очень долгим, а то и невозможным. Установленные на роботе камеры сразу же оценивать результат своих действий, модифицировать поведение и таким образом прибираться всё лучше. Инспекция же приходит вечером и выставляет всего лишь одну оценку за тысячи действий, которые робот совершил в течение дня. Как ему понять, что именно он сделал хорошо, а что плохо?

Потребуется слишком много дней, чтобы ИИ смог разобраться, за что именно ему ставят высокие оценки. Было бы здорово обучать систему в разумные сроки, используя так называемое разряжённое обучение. Это бы помогло безопасности и всему направлению в целом, ведь как правило, других вариантов нет.

Возьмём, например, систему DQN, которая способна научиться играть в игры. Она использует пиксели на экране как входные данные, а количество очков как вознаграждение. Справляется с задачей она по-разному: в Арканоид обходит любого человека, а вот в Мозу Ревен сильно отстаёт. Игры мало чем похожи, и одно из ключевых различий состоит в том, что в Арканоиде очки начисляются за каждый выбитый блок, счёт постоянно обновляется, и можно сразу оценить эффективность своих действий.

В Монте Зуме очки дают в определённых случаях, например, за найденный ключ или открытую дверь. Между этими событиями приходится довольно долго выполнять другие сложные действия, которые никак не влияют на ваш счёт. Даже если погибнете, очки вы не потеряете. Как же ИИ должен понять, что умирать в этой игре не стоит? Реально ли сделать систему, которая сможет учиться на редких оценках её действий и контролировать её поведение при этом, не следя за каждым шагом?

Как добиться масштабируемого способа? В следующем видео переведено и озвучено студией Верт Дайдер.

More Articles

View All
Marginal cost, average variable cost, and average total cost | APⓇ Microeconomics | Khan Academy
Let’s say that we run ABC Watch Factory and we want to understand the economics of our business. So, what we have in this table is some data that we’ve already been able to estimate or measure based on how our business is running, and then we’re going to …
Boarding a US NAVY NUCLEAR SUBMARINE in the Arctic - Smarter Every Day 240
DESTIN: (NARRATING) This is the USS Toledo, a U.S. Navy Los Angeles-class fast-attack nuclear submarine. We’re about to get onboard. [HELICOPTER FLYING] Thank you. My name is Destin. Arnell. I’m the chief of the boat. You’re the chief of the boat? Nice to…
The Rich Culture of Nelson Tasman | National Geographic
New Zealand’s Nelson Tasman region is the home of sunny beaches, outrageous landscapes and Nelson, a small city that boasts a thriving art scene, craft breweries and wineries, and a farmer’s market famed for its local specialties. National Geographic sent…
Where Is The Economy Going After The Pandemic? | Morning Joe
What is going on with the economy as prices seem to be going up everywhere? And you also just can’t seem to order anything. Things aren’t there. Yes, we have disruption to the supply chain, not just domestically but globally. But the reason that there is…
Before the Flood - Trailer | National Geographic
We’ve known about this for decades, for over half a century. Try to have a conversation with anyone about climate change; people just tune out. Climate change, climate change, CH! The problem seems to be getting worse and worse and worse. The truth is, th…
Warren Buffett's Advice for People Who Want to Get Rich
Mr. Buffett, how can I make 30 billion dollars? Start young! Charlie’s always said that the big thing about it is we started building this little snowball on top of a very long hill. So we started at a very early age and rolled the snowball down. And, of…