yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #1.5. Желательные побочные эффекты [Robert Miles]


2m read
·Nov 3, 2024

Вот сайт с шаурмой.

Привет! Сегодня коротенечко, мне еще много других дел, наверное, потом расскажу. Это продолжение предыдущего видео о нежелательных побочных эффектах. Ссылка в описании, так что посмотрите сначала его.

Я затрону еще одну проблему, которая может возникнуть, если пытаться минимизировать воздействия на окружающую среду. Забыл упомянуть в прошлом видео, несколько человек точно писали о чем-то похожем в комментариях. Если вы тоже догадались, молодцы!

Проблема связана с избеганием желательных побочных эффектов. Мы уже упоминали, что в основном побочные эффекты отрицательны и так, что возможно проще стараться избавиться не только от нежелательных побочных эффектов, а вообще от любых.

Но побочный эффект от того, что мне принесут чай, также включает в себя то, что я порадуюсь, перестану хотеть быть и стану бодрее благодаря кофеину. Короче, все ради чего и вообще попросил чаю.

Если робот придумает, как принести чай, чтобы я продолжал хотеть пить и спать, как будто никакого чая не было, именно этот вариант он и выберем. Сейчас я не могу придумать способы это сделать при условии, что мы четко определили, что такое чашка чая.

Так что, возможно, робот сочтет эти положительные побочные эффекты неизбежными, так же как не получится избежать траты чайного пакетика. Но то, что он ищет способы не допустить пользы от своей работы, не очень здорово.

Опять же, чем умнее будет робот, тем больше способов это сделать он придумает. И еще момент: система стремится к результату, максимально похожему на тот, который, по ее мнению, произойдет, если робот ничего не будет делать.

Так а что на самом деле случится, если вместо того, чтобы принести чай, он будет просто неподвижно стоять? Во-первых, я удивлюсь, возможно, это меня разозлит. Я начну искать баги, чтобы понять, почему робот не слушается.

Поэтому робот может попытаться найти способ принести мне чай, но так, чтобы я удивился, разозлился и начал искать баги, чтобы понять, почему он не слушается. К этому приведет наша стратегия.

Что нам с этим делать? Это все при условии, что мы сможем найти какой-то способ измерить степень изменения мира, который будет отражать наше понимание. С этим тоже проблем не мало, но о них как-нибудь потом.

На этом пока все. В следующий раз продолжим разговор и статьи конкретные проблемы безопасности и посмотрим, как еще можно избежать негативных побочных эффектов.

Жмите на колокольчик, чтобы получить уведомление! Если вас заинтересовал этот ролик и вы ищете, где себя применить, проект "80 тысяч часов", помогающий выбрать профессиональный путь, выпустил руководство работах в сфере безопасности. Рекомендую ознакомиться, даже если вы не уверены в своих технических навыках.

Помимо исследовательской работы, есть много других способов помочь. Пишите в комментариях, если вам было бы интересно послушать о профессиях в области безопасности искусственного интеллекта.

[Музыка]

Переведено и озвучено студией Art Дай Дар.

More Articles

View All
The BIGGEST PROBLEM with renting your home on Airbnb...
What’s up you guys, it’s Graham here. So here’s a very common scenario that I see happening a lot, and a very stark warning for anyone out there who wants to rent their property on Airbnb. The situation usually goes a little bit something like this: an i…
The Reality You're In, And The Reality In You
Close your left eye and stare at the X with your right eye. Now don’t look away. Move your phone closer, maybe further away, until my head appears to vanish. You have just found your blind spot: the place on your retina where nerves pass through on their …
Tom Blomfield: How I Created Two Billion-Dollar Fintech Startups
When you look around you at all of the structures in place, like the physical buildings, the transportation system, the laws and rules for society, all of these things were created by people. Everyone has a choice to either live in that world and merely f…
Ample reserves regime | AP Macroeconomics | Khan Academy
What we’re going to do in this video is talk about some interesting things that have happened since 2008. In particular, we’re going to talk about what an ample reserves regime is but even more importantly what its actual implications are and how you can …
AK’s and Alcohol | Explorer
Check, check. Here we are. We have arrived, and, uh, waiting for the commander. Just in time! It’s, uh, just turning out, which isn’t exactly ideal. The air is thick with ganja smoke. I’m 3 hours walk from the nearest town, and I’m completely at their mer…
Elephant Encounter in 360 - Ep. 2 | The Okavango Experience
Travie giant elephants in front of you, interacting with you, connecting with you, smelling you, listening to you, looking at you, telling you to stop, telling you to go away, telling you to stay. I am fine with you. Those interactions are powerful to me.…