yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как создать безопасный ИИ? #1.5. Желательные побочные эффекты [Robert Miles]


2m read
·Nov 3, 2024

Вот сайт с шаурмой.

Привет! Сегодня коротенечко, мне еще много других дел, наверное, потом расскажу. Это продолжение предыдущего видео о нежелательных побочных эффектах. Ссылка в описании, так что посмотрите сначала его.

Я затрону еще одну проблему, которая может возникнуть, если пытаться минимизировать воздействия на окружающую среду. Забыл упомянуть в прошлом видео, несколько человек точно писали о чем-то похожем в комментариях. Если вы тоже догадались, молодцы!

Проблема связана с избеганием желательных побочных эффектов. Мы уже упоминали, что в основном побочные эффекты отрицательны и так, что возможно проще стараться избавиться не только от нежелательных побочных эффектов, а вообще от любых.

Но побочный эффект от того, что мне принесут чай, также включает в себя то, что я порадуюсь, перестану хотеть быть и стану бодрее благодаря кофеину. Короче, все ради чего и вообще попросил чаю.

Если робот придумает, как принести чай, чтобы я продолжал хотеть пить и спать, как будто никакого чая не было, именно этот вариант он и выберем. Сейчас я не могу придумать способы это сделать при условии, что мы четко определили, что такое чашка чая.

Так что, возможно, робот сочтет эти положительные побочные эффекты неизбежными, так же как не получится избежать траты чайного пакетика. Но то, что он ищет способы не допустить пользы от своей работы, не очень здорово.

Опять же, чем умнее будет робот, тем больше способов это сделать он придумает. И еще момент: система стремится к результату, максимально похожему на тот, который, по ее мнению, произойдет, если робот ничего не будет делать.

Так а что на самом деле случится, если вместо того, чтобы принести чай, он будет просто неподвижно стоять? Во-первых, я удивлюсь, возможно, это меня разозлит. Я начну искать баги, чтобы понять, почему робот не слушается.

Поэтому робот может попытаться найти способ принести мне чай, но так, чтобы я удивился, разозлился и начал искать баги, чтобы понять, почему он не слушается. К этому приведет наша стратегия.

Что нам с этим делать? Это все при условии, что мы сможем найти какой-то способ измерить степень изменения мира, который будет отражать наше понимание. С этим тоже проблем не мало, но о них как-нибудь потом.

На этом пока все. В следующий раз продолжим разговор и статьи конкретные проблемы безопасности и посмотрим, как еще можно избежать негативных побочных эффектов.

Жмите на колокольчик, чтобы получить уведомление! Если вас заинтересовал этот ролик и вы ищете, где себя применить, проект "80 тысяч часов", помогающий выбрать профессиональный путь, выпустил руководство работах в сфере безопасности. Рекомендую ознакомиться, даже если вы не уверены в своих технических навыках.

Помимо исследовательской работы, есть много других способов помочь. Пишите в комментариях, если вам было бы интересно послушать о профессиях в области безопасности искусственного интеллекта.

[Музыка]

Переведено и озвучено студией Art Дай Дар.

More Articles

View All
Finding function from power series by integrating | Series | AP Calculus BC | Khan Academy
We know that for (x) in the open interval from (-\frac{1}{2}) to (\frac{1}{2}), that (-\frac{2}{1-2x}) is equal to this series, and I say using this fact, find the function that corresponds to the following series. And like always, pause this video and se…
2015 AP Chemistry free response 5a: Finding order of reaction | Chemistry | Khan Academy
[Voiceover] Blue food coloring can be oxidized by household bleach, which contains hypochlorite ion, or OCI-, to form colorless products, as represented by the equation above. So we have this equation where we have blue food coloring, which has this chemi…
Vortex Shedding - Smarter Every Day 23
[Engines screaming] Hey, it’s me, Destin. We’re at an airshow. So today I’m going to teach you about vortex shedding. [Music] Engines screaming YEAH! (Destin) Fly… flying our airplanes. Engine roaring I can’t hear you. Why does the smoke come out of the a…
Showing My Desk to Adam Savage
Hey, Vsauce. Michael here. The eye is a mirror. When you look into an eye, you can see a small, tiny version of yourself that kind of looks like a doll version of yourself. The Latin word for a little doll is “pupilla.” That’s where we get the word “pupil…
12 Stoic Remedies For Feeling LONELY OR DEPRESSED | Stoicism
[Music] Did you know that the average person feels profoundly lonely at least once in their lifetime? Yet here we are in a world more connected than ever before, but deep down, many of us are searching for a real connection, a cure to the silent epidemic …
how to ACTUALLY CHANGE your life in 2023 (step by step guide)
We all experienced failure at some point in our lives. Maybe you didn’t get that promotion you were hoping for, or you didn’t accomplish a personal goal you set for yourself. But for some reason, when it gets closer to New Year’s, we tend to be more hopef…