Как создать безопасный ИИ? #1.5. Желательные побочные эффекты [Robert Miles]

2m read

·Nov 3, 2024

Вот сайт с шаурмой.

Привет! Сегодня коротенечко, мне еще много других дел, наверное, потом расскажу. Это продолжение предыдущего видео о нежелательных побочных эффектах. Ссылка в описании, так что посмотрите сначала его.

Я затрону еще одну проблему, которая может возникнуть, если пытаться минимизировать воздействия на окружающую среду. Забыл упомянуть в прошлом видео, несколько человек точно писали о чем-то похожем в комментариях. Если вы тоже догадались, молодцы!

Проблема связана с избеганием желательных побочных эффектов. Мы уже упоминали, что в основном побочные эффекты отрицательны и так, что возможно проще стараться избавиться не только от нежелательных побочных эффектов, а вообще от любых.

Но побочный эффект от того, что мне принесут чай, также включает в себя то, что я порадуюсь, перестану хотеть быть и стану бодрее благодаря кофеину. Короче, все ради чего и вообще попросил чаю.

Если робот придумает, как принести чай, чтобы я продолжал хотеть пить и спать, как будто никакого чая не было, именно этот вариант он и выберем. Сейчас я не могу придумать способы это сделать при условии, что мы четко определили, что такое чашка чая.

Так что, возможно, робот сочтет эти положительные побочные эффекты неизбежными, так же как не получится избежать траты чайного пакетика. Но то, что он ищет способы не допустить пользы от своей работы, не очень здорово.

Опять же, чем умнее будет робот, тем больше способов это сделать он придумает. И еще момент: система стремится к результату, максимально похожему на тот, который, по ее мнению, произойдет, если робот ничего не будет делать.

Так а что на самом деле случится, если вместо того, чтобы принести чай, он будет просто неподвижно стоять? Во-первых, я удивлюсь, возможно, это меня разозлит. Я начну искать баги, чтобы понять, почему робот не слушается.

Поэтому робот может попытаться найти способ принести мне чай, но так, чтобы я удивился, разозлился и начал искать баги, чтобы понять, почему он не слушается. К этому приведет наша стратегия.

Что нам с этим делать? Это все при условии, что мы сможем найти какой-то способ измерить степень изменения мира, который будет отражать наше понимание. С этим тоже проблем не мало, но о них как-нибудь потом.

На этом пока все. В следующий раз продолжим разговор и статьи конкретные проблемы безопасности и посмотрим, как еще можно избежать негативных побочных эффектов.

Жмите на колокольчик, чтобы получить уведомление! Если вас заинтересовал этот ролик и вы ищете, где себя применить, проект "80 тысяч часов", помогающий выбрать профессиональный путь, выпустил руководство работах в сфере безопасности. Рекомендую ознакомиться, даже если вы не уверены в своих технических навыках.

Помимо исследовательской работы, есть много других способов помочь. Пишите в комментариях, если вам было бы интересно послушать о профессиях в области безопасности искусственного интеллекта.

[Музыка]

Переведено и озвучено студией Art Дай Дар.

Как создать безопасный ИИ? #1.5. Желательные побочные эффекты [Robert Miles]

More Articles