Вероятности вероятностей: #1. Биномиальное распределение [3Blue1Brown]
Вот сайт с шаурмой. Works в онлайн-магазине три разных продавца предлагают вам один и тот же товар примерно по одной цене. У первого рейтинг 100 процентов, но всего 10 отзывов. У второго рейтинг 96 и 50 оценок, а у третьего 93 процента, но зато оценили целых 200 человек. Кого из них выбрать?
[Музыка] Согласитесь, чем больше оценок от покупателей, тем надежнее нам кажется рейтинг. 100 процентов выглядят подозрительно, поскольку обычно так получается, когда отзывов довольно мало. Возникает ощущение, что этим немногочисленным клиентам просто повезло.
Но насколько и те по цене оправданы? Можно ли как-то подсчитать, что действительно надежнее: большее количество отзывов или более высокий рейтинг? Этот пример — слегка видоизменённая задачка, которую в своем блоге приводит Джон Кук под заголовком "Байесовский анализ продавцов на Amazon".
А для нас это отличный повод погрузиться в основы теории вероятности и статистики. Вопросы не самые простые, придётся разбираться. По этому я решил сделать три выпуска по теме. В этом первом видео мы займёмся моделированием и познакомимся с биномиальным распределением.
Во втором затронем борисовское обновление, принципы работы с непрерывными величинами. В третьем рассмотрим бед распределение, а затем с небольшой помощью Пайтона проанализируем данные и на выходе получим несколько решений для разных задач оптимизации.
Чтобы было понятно, о чем вообще речь, прежде чем прийти к математике, покажу одно из возможных решений, не углубляясь в подробности.
Возьмем какой-нибудь идеальный рейтинг 10 из 10. Представьте, что есть еще 2 отзыва: один положительный и один отрицательный. Таким образом, получается 11 из 12 или 91,7 процента. Это число — вероятность того, что вам повезёт с этим продавцом.
Если оценок 50: 48 хороших, 2 плохие. Мы добавляем 2 отзыва: хороший и плохой, получаем 49 и 349 из 52 — 94,2 процента. Это вероятность успешной покупки у второго продавца.
Проделаем то же самое с продавцом, у которого 200 отзывов, получится 187 из 202 — это 92,6 процента. Пользуясь этим методом, логично выбрать продавца под номером 2. Это правило последовательности Лапласа. Он вывел его в 18 веке.
Чтобы понять, какие положения лежат в его основе и как они, а также ваша изначальная цель, влияют на то, какой выбор будет оптимальным, придётся погрузиться в математику. Без лишних...