yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #1.5. Желательные побочные эффекты [Robert Miles]


2m read
·Nov 3, 2024

Вот сайт с шаурмой.

Привет! Сегодня коротенечко, мне еще много других дел, наверное, потом расскажу. Это продолжение предыдущего видео о нежелательных побочных эффектах. Ссылка в описании, так что посмотрите сначала его.

Я затрону еще одну проблему, которая может возникнуть, если пытаться минимизировать воздействия на окружающую среду. Забыл упомянуть в прошлом видео, несколько человек точно писали о чем-то похожем в комментариях. Если вы тоже догадались, молодцы!

Проблема связана с избеганием желательных побочных эффектов. Мы уже упоминали, что в основном побочные эффекты отрицательны и так, что возможно проще стараться избавиться не только от нежелательных побочных эффектов, а вообще от любых.

Но побочный эффект от того, что мне принесут чай, также включает в себя то, что я порадуюсь, перестану хотеть быть и стану бодрее благодаря кофеину. Короче, все ради чего и вообще попросил чаю.

Если робот придумает, как принести чай, чтобы я продолжал хотеть пить и спать, как будто никакого чая не было, именно этот вариант он и выберем. Сейчас я не могу придумать способы это сделать при условии, что мы четко определили, что такое чашка чая.

Так что, возможно, робот сочтет эти положительные побочные эффекты неизбежными, так же как не получится избежать траты чайного пакетика. Но то, что он ищет способы не допустить пользы от своей работы, не очень здорово.

Опять же, чем умнее будет робот, тем больше способов это сделать он придумает. И еще момент: система стремится к результату, максимально похожему на тот, который, по ее мнению, произойдет, если робот ничего не будет делать.

Так а что на самом деле случится, если вместо того, чтобы принести чай, он будет просто неподвижно стоять? Во-первых, я удивлюсь, возможно, это меня разозлит. Я начну искать баги, чтобы понять, почему робот не слушается.

Поэтому робот может попытаться найти способ принести мне чай, но так, чтобы я удивился, разозлился и начал искать баги, чтобы понять, почему он не слушается. К этому приведет наша стратегия.

Что нам с этим делать? Это все при условии, что мы сможем найти какой-то способ измерить степень изменения мира, который будет отражать наше понимание. С этим тоже проблем не мало, но о них как-нибудь потом.

На этом пока все. В следующий раз продолжим разговор и статьи конкретные проблемы безопасности и посмотрим, как еще можно избежать негативных побочных эффектов.

Жмите на колокольчик, чтобы получить уведомление! Если вас заинтересовал этот ролик и вы ищете, где себя применить, проект "80 тысяч часов", помогающий выбрать профессиональный путь, выпустил руководство работах в сфере безопасности. Рекомендую ознакомиться, даже если вы не уверены в своих технических навыках.

Помимо исследовательской работы, есть много других способов помочь. Пишите в комментариях, если вам было бы интересно послушать о профессиях в области безопасности искусственного интеллекта.

[Музыка]

Переведено и озвучено студией Art Дай Дар.

More Articles

View All
Multi-step word problem with Pythagorean theorem | Geometry | Khan Academy
We’re told that Laney runs a string of lights from the ground straight up to a door frame that is 2.5 meters tall. Then they run the rest of the string in a straight line to a point on the ground that is six meters from the base of the door frame. There a…
15 AWESOME YouTube Tricks
Vsauce. Today we’re gonna be covering a topic that is very close to my heart. Clever uses of YouTube’s technologies. Now, I’ve always had a lot of fun messing around with stuff like the loading c… circle and annotations. But, let’s take a safari today th…
Interpreting definite integral as net change | AP Calculus AB | Khan Academy
In a previous video, we start to get an intuition for rate curves and what the area under a rate curve represents. For example, this rate curve might represent the speed of a car and how the speed of a car is changing with respect to time. This shows us t…
15 Things You Learn When You Fly First Class
A couple of days ago, an airline firm released this image of what they see as the future of air travel: double decker seats. Hey, it’s all fun and games until the guy in green eats the microwaved lasagna. You get on a cheap flight and engulfs the girl in …
Crucial Tactics Of Heavy MANIPULATION You NEED TO KNOW | STOICISM
Did you know that every day in every encounter there’s a hidden battlefield? It’s the unseen struggle of manipulation versus authenticity, where our thoughts and hearts are the prizes to be won. It’s not just in the movies or dramatic books; it’s in our o…
Heart 101 | National Geographic
[Narrator] The heart pumps blood throughout the body, carrying oxygen and nutrients to every cell. It’s this circulation of blood that is vital to sustaining life. The heart is an organ made up of several tough layers of muscle. The pericardium is the thi…