Теорема Байеса [3Blue1Brown]
Вот сайт с шаурмой.
[музыка]
В этом видео я постараюсь сделать так, чтобы вы поняли одну из самых важных формул в теории вероятностей — теорему Байеса. Она играет ключевую роль в научных открытиях, разработке искусственного интеллекта, машинном обучении и даже использовалась искателями сокровищ в восьмидесятых годах. Команда Тони Томпсона — да, так его зовут — обратилась к этой формуле, чтобы найти корабль, затонувший полтора века назад с грузом золота стоимостью 700 миллионов долларов в пересчете на сегодняшний курс. В общем, достойный внимания предмет.
Разобьем объяснения на три уровня понимания.
Самый простой — знать, что выражает каждая буква, и уметь подставлять значения. Следующий уровень — понимать, откуда формула взялась. Позже покажу вам диаграмму, которая поможет при необходимости вывести формулу, так сказать, на ходу. И, возможно, самый важный уровень — разобраться, когда ее применять. Чтобы было проще, мы пойдем в обратном порядке.
Так что прежде чем перейти непосредственно к формуле и графической интерпретации, позвольте рассказать вам про парня по имени Стив. Слушайте внимательно. Стив — очень робкий, замкнутый и всегда готов помочь, но мало контактирует с людьми и внешним миром. Тихий и застенчивый. Он очень ценит порядок и уделяет много внимания мелочам. Чем, по вашему, скорее всего, занимается Стив? Он библиотекарь или фермер? Возможно, вы где-то уже это слышали.
Вопрос взят из исследования психологов Даниэле Канемана и Амоса Тверски. Их работа получила Нобелевскую премию и обрела широкую популярность благодаря таким книгам, как «Думай медленно, решай быстро». Канеман и Тверски отменили проект Майкла Льюиса. Предметом исследования были суждения, которые зачастую вступают в противоречие с законами математической вероятности.
Пример со Стивом, который то ли библиотекарь, то ли фермер, иллюстрирует один из нерациональных подходов к решению подобных задач — вернее, предположительно иллюстрирует. С выводами не все согласны, но обо всем по порядку.
По мнению авторов, когда людям говорят, что Стив тихий и застенчивый, большинство решает, что он скорее всего библиотекарь, ведь такой образ отлично ложится на стереотипное представление о работнике библиотеки. Согласно Канеману и Тверски, это нерационально. И не потому что люди могут неверно представлять себе фермеров и библиотекарей, а потому что мало кто задумывается о реальном соотношении их количества в современном обществе.
В своей статье ученые говорят, что в США фермеров в двадцать раз больше. По моим данным, сегодня разрыв еще сильнее, но возьмем предложенное ими число — оно удобнее, но и сути дела не меняет. Важно помнить, что респонденты не обязаны владеть актуальными данными о количестве фермеров и библиотекарей и качествах их характера. Главное, чтобы они хотя бы задумались о том, что это может быть важно, и попытались что-нибудь прикинуть в уме.
Быть рациональным не значит знать все. Это значит понимать, что именно вам нужно знать. Если принять в расчет популярность профессий, способ решения получается довольно простым.
По сути, сейчас будет спойлер. Именно он лежит в основе теоремы Байеса. Для начала соберем репрезентативную выборку фермеров и библиотекарей: скажем, 200 первых и 10 вторых. Допустим, вы считаете, что тихим и застенчивым можно было бы назвать где-то 40 процентов библиотекарей и около 10 процентов фермеров.
Тогда получается, что под это описание попадают четыре из десяти библиотекарей и 20 из 200 фермеров. Значит вероятность того, что случайный тихий застенчивый человек работает именно в библиотеке, 4 из 24, всего 16,7 процента. Даже если вы считаете, что библиотекари бывают тихонями в 4 раза чаще, фермеры легко компенсируют это своим количеством.
Мораль, которая и является главным выводом из теоремы Байеса, в том, что новые данные не должны формировать ваше убеждение с чистого листа. Они лишь уточняют старые. Если вам понятна такая логика, что новая информация сокращает количество возможных вариантов, которые надо учитывать, пытаясь рассчитать вероятность, и поздравляю — вы поняли суть теоремы Байеса.
Цифры могут быть какими угодно другими, главное правильно их подставить и сделать поправку на вновь появившиеся данные. Примеры — это хорошо, но давайте попробуем обобщить все вышесказанное и представить в виде формулы.
[музыка]
Классическая ситуация, в которой может пригодиться теорема Байеса, выглядит примерно так: мы считаем, что Стив библиотекарь — это наша гипотеза. Тут нам дают его описание, где он оказывается тихим и застенчивым. Мы получили новую информацию. Нужно найти вероятность того, что гипотеза верна с учетом новых данных.
По правилам записи эта черта означает "при условии". Иными словами, нас теперь интересуют только варианты, попадающие под описание Стива. Помните, как мы начали расчеты: взяли вероятность того, что гипотеза верна без каких-либо уточнений. Получалось один к двадцати одному. Мы опирались лишь на то, сколько людей сегодня работает в библиотеках, а сколько на фермах.
Это априорная вероятность. Стив казался застенчивым, и мы прикинули сколько библиотекарей подходит под такое описание, то есть отбросили часть вариантов и пересчитали вероятность. Напомню: эта вертикальная черта означает, что мы говорим о доле от некоторого количества возможных вариантов, в данном случае от левого столбика, в котором собраны случаи 200 библиотекарей.
В рамках теоремы Байеса данное значение называется правдоподобием. Не стоит забывать, что среди остальных вариантов также будут течь то, что вытворяют новым условиям, то есть остается некоторая вероятность, что гипотеза не верна. В математике и теории вероятностей таким уголком показывают отрицание с обозначениями.
Разобрались? Вернемся к задаче. Вероятность того, что гипотеза верна с учетом новой информации равна количеству застенчивых библиотекарей, их четверо, разделить на общее количество застенчивых людей из выборки, их 24.
Но почему библиотекари четверо? Количество людей в выборке умножаем на априорную вероятность того, что они работают в библиотеке — получается 10 — и на вероятность того, что они подходят под описание Стива. В знаменателе то же самое, плюс то, что осталось число людей в выборке, умножаем на априорную вероятность того, что они фермеры, и на вероятность того, что кто-то из них подходит под описание — получается 20.
Общее число людей в выборке 210. Сокращаем. Тут все логично, ведь, как я и говорил, от конкретного количества ничего не зависит. В итоге остаются абстрактные обозначения различных вероятностей. Это, друзья, и есть теорема Байеса.
Обычно знаменатель записывают просто как P(E) — это вероятность получить новые данные. В нашем примере это 24 из 210. Вне зависимости от того, верна была гипотеза или нет, хотя на практике обычно приходится рассчитывать оба случая по отдельности.
И еще один термин напоследок: по результатам мы назовем апостериорной вероятностью. Каков шанс, что гипотеза верна с учетом новых данных? В абстрактном виде все может показаться несколько сложнее, чем на конкретном примере с выборкой. Это правда, так и есть. Тем не менее, формула позволяет выразить количественно, как меняются наши взгляды и убеждения.
Учёные пользуются ею, чтобы понять, насколько новые данные подтверждают или ставят под сомнение существующие модели. Программисты обращаются к ней, создавая искусственный интеллект, когда возникает необходимость посчитать, на сколько машин и в чем-то уверенно. Теорема Байеса пригодится и лично вам, чтобы иначе взглянуть на собственные убеждения, как и почему вы их меняете — да и на процесс мышления в целом.
А еще, иметь под рукой формулу очень полезно, когда расчеты становятся сложнее. Правда, как мне кажется, продуктивнее будет не заучивать вот это вот все, а использовать графическую интерпретацию теоремы, когда нужно. По сути, это тоже самое что обращаться к выборке, только нагляднее, проще и быстрее.
Размер выборки нам не важен, поэтому можно представить все возможные исходы — квадрат со стороной единица. Варианты, удовлетворяющие конкретным условиям, будут областями внутри квадрата, площадь которых отражает их вероятность. Варианты, при которых гипотеза верна, соберем слева, столбик шириной P(H), справа будет все остальное. Какое-то событие или новая информация сокращает площадь допустимых вариантов, и вот что важно: области справа и слева могут сократиться по-разному.
В нашем случае получился уголок, и теперь вероятность того, что гипотеза верна, представлена долей, которую левый столбик составляет от площади новой фигуры. Если застенчивыми бывают с равной вероятностью как фермеры, так и библиотекари, фигуры изменится, а вот соотношение площадей нет — новая информация ничего нам не дала, вероятность осталась прежней.
Но если правдоподобие двух вариантов разное, это заметно сказывается и на вероятности. И теорема Байеса отлично это выражает. Представим, что мы на уроке геометрии P(H)/P(E) на iPad'е, то есть вероятность того, что гипотеза верна с учетом новой информации, — это ширина столбика на его высоту, то есть площадь.
Думаю, самое время взглянуть чуть шире и попробовать разобраться, можно ли сделать интуитивно понятной вероятность в целом, а не только теорему Байеса. Согласитесь, когда мы взяли конкретное число людей — 210 библиотекарей и фермеров, стало легче. И тут придется, кстати, еще одна работа Канемана и Тверски, которая, как мне кажется, достойна внимания.
Они провели такой эксперимент, как и в случае со Стивом. Людям давали описание человека, девушки по имени Линда. Итак, ей 31, она не замужем, общительна и очень умна. Училась на философском, в студенческие годы активно боролась с дискриминацией, социальной несправедливостью и участвовала в демонстрациях против ядерного оружия.
После этого описания испытуемых спрашивали, что вероятнее: первое — Линда работает в банке, или второе — она работает в банке и принимает участие в феминистском движении. Целых восемьдесят пять процентов (85) ответили, что второе вероятнее. Но ведь работницы банка с активной социальной позицией — это подмножество всех девушек, которые работают в банке, и по определению меньше.
Это само по себе интересно, но вот что еще любопытнее: можно переформулировать вопрос так, чтобы количество неверных ответов упало до нуля. Когда участникам говорили, что описание подходит сотне девушек и просили оценить, сколько из них работают в банке, а сколько работают в банке и участвуют в феминистском движении, ошибки куда-то пропали. Все указывали более высокую цифру в первом случае.
[музыка]
Каким-то странным образом формулировка вроде «40 из 100» понятнее нашему мозгу, чем «40 процентов» или какие-нибудь «0,04», не говоря уже об абстрактных суждениях о том, что более или менее вероятно. Но есть один нюанс: репрезентативные выборки создают ложное ощущение будто вероятность меняется четкими шагами, а вот представление видео областей лучше отражает плавность переходов. Да и пользоваться таким методом проще, когда под рукой только бумага и карандаш.
Многие считают, что вероятность позволяет измерить что-то неопределенное, да, в науке примерно так ей и пользуются. Но с точки зрения математики все расчеты и формулы очень тесно связаны с составлением пропорций, а геометрия в этом деле отличный помощник.
[музыка]
Рассмотрим теорему Байеса как пропорцию: количество людей или размер фигур неважно. С этой точки зрения все еще проще. В обеих частях уравнения мы смотрим на область, где собраны варианты, удовлетворяющие всем условиям, и берем ту ее часть для которой верна гипотеза — вот и все.
Длинная формула просто показывает, как что рассчитать. Даже удивительно, что незатейливая пропорция играет столь важную роль в исследованиях, создании искусственного интеллекта и других ситуациях, когда нужно численно оценить степень уверенности.
Мы еще поразбираем формулу на других примерах, но а пока вернемся ненадолго к Стиву. Как я говорил, не все психологи согласны со своего домика Канемана и Тверски о том, что рациональным подходом будет начать считать, кого больше — библиотекари или фермеры. Ведь все зависит от контекста. Кто такой этот Стив: случайный среднестатистический житель США или же друг психологов, которые составляли опросник? Может, вообще один из ваших знакомых?
Эти предположения определяют априорную вероятность. Например, я куда чаще встречаю библиотекарей, нежели фермеров. Не говоря уже о том, что можно бесконечно спорить, кто больше подходит под данное описание.
Но здесь я бы обратил внимание на друга. Каждый из этих вопросов можно отразить на нашей диаграмме. От того, кто такой Стив, будет зависеть априорная вероятность. От наших стереотипов по поводу профессий тот фактор, что мы назвали правдоподобием. На самом деле, доверяете ли вы результатам эксперимента или нет, не меняет сути: новые данные должны не формировать ваше убеждение, а лишь уточнять их.
Хоть татуировку сделайте, чтобы не забыть. Не мне судить, насколько это естественно для человеческого мозга — пусть психологи решают. Меня куда больше увлекает мысль, что мы можем приучить собственную интуицию принимать в расчет математические законы. И насколько проще это сделать, когда есть что-то наглядное.
[музыка]
Переведено и озвучено студией Вирт Дайдар.