yego.me
💡 Stop wasting time. Read Youtube instead of watch. Download Chrome Extension

Как обманывает статистика. Математика на QWERTY


8m read
·Nov 3, 2024

Всем привет! На связи Георгий Вольфсон. Это реальная математика на канале Qwerty, на который вы, конечно, уже давно подписаны. Но если вдруг нет, то это можно сделать как всегда здесь.

Сегодня мы с вами будем говорить про анализ данных, про статистику. Некоторые знают, что бывает ложь, бывает большая ложь, а бывает статистика. Вот об этом сегодня тоже говорить будем. Если бы не было статистики, мы бы даже не подозревали о том, как хороша моя работа.

Но начнем с таких довольно простых и бытовых, вроде бы, вещей — как использование чисел. Иногда верное, а иногда и не совсем. Ну, например, предположим, мы знаем, что население Санкт-Петербурга — это 7 миллионов человек. Допустим, за сегодняшний день вот за последние полминуты где-нибудь родилось еще двое. Верно ли, что теперь население стало 7 миллионов 2? Конечно, нет. Согласитесь, что это будет абсолютно неразумно. То есть, когда мы говорили про 7 миллионов, мы брали некое приближение, хотя иногда люди считают, что это вот прям до слова, на 7 миллионов. Прям ровно 7 миллионов, сколько 8 м и выше. Головы миллионы в стране людей говорю? Нет, кого людей, людей как обычно. Все люди договорились, какой стороны, ли с Россией? Оправился и 8. Так, конечно, вы правы. Уточните потом.

Или из той же оперы: в музее там, да, вам скажу, что возраст этой статуи — 3000 лет. Приходите в музей через год, теперь возраста 303. 3000 один год. Нет, всё-таки предполагается, что это примерно три тысячи лет. Хотя говорим, мы, ровно. Такое же примерно работает и в следующей ситуации. Допустим, вот я вешу 85 килограмм. Я говорю, что мой ребенок в 3 раза легче, чем я. Следует ли из этого, что его вес — это ровно 28 килограмм 333 грамма? Наверное, нет. То есть я предполагаю, что это приблизительно 28, может быть 27, может быть 29, плюс-минус. Таким образом, мы на самом деле, хотя в речи употребляем точные значения, но данные оказываются не совсем точными. К этому надо быть готовым.

Статистика — наука, не терпит приблизительности. Другая известная особенность, интересная проблема, которая возникает при анализе данных, — это когда мы данные пытаемся усреднить и дальше как-то использовать этот средний результат. Ну, про среднюю температуру по больнице, наверное, шутка все знают. Но это ведь работает и когда мы говорим об условных средних зарплатах. То есть если есть девять человек, которые получают зарплату 10 тысяч рублей, и один человек, который получает зарплату 100000 рублей, то в среднем что у них будет? 190000. Мы должны поделить на 10, то есть будет в среднем по 19 тысяч. Ну и на самом деле мы завысили зарплату большинства примерно в два раза. Так, наверное, происходит, когда мы говорим о зарплатах учителей, там по стране и так далее.

Поэтому, говоря о среднем, не надо забывать, что если я ем капусту, мой друг мясо, то в среднем мы голубцы всё-таки не едим. Кстати, вообще работа с данными — штука может и не простая, но весьма интересная. И этому можно научиться, пройдя соответствующий курс — курс дата-сайентистов на образовательной платформе Skillbox. Программа обучения включает в себя основы программирования на языках Python и модули по математике и статистике. Куда всё-таки без них при анализе данных? Алгоритмы машинного обучения и ближе к концу на более поздних этапах некоторые специализации.

Существенный плюс курса состоит в том, что в заданиях и дипломных проектах используются реальные данные, полученные от этих компаний, как например, Мегафон. Ну а кроме того, преподают там известные специалисты, поработавшие в таких зубрах, как Яндекс, NVIDIA, Киви и других. Записаться на курс можно по ссылочке в описании. Первые два модуля бесплатные, поэтому есть время определиться, стоит ли покупать весь курс. Ну а кроме того, замечу, что дата-сайтистов, ребята, востребованные, так что Skillbox в конце помогает с трудоустройством.

Но мы с вами поедем дальше. И хотя мы все пока не дата-сайентисты, но по крайней мере кое-что можем узнать. И сейчас, базируясь на наших познаниях, прежде всего, давайте поговорим вот о какой штуке. Мы сейчас все вынуждены задавать разные тесты: ПЦР-тест, тест на антитела и так далее. Но в частности по ЦРТ, что это такое? Это тест Манту, болейте вы или нет? Давайте предположим, что есть некоторый тест, не будем называть его конкретно, который выдает человеку "плюс" или "минус", то есть болен он или не болен. Как вы понимаете, этих тестов по каждой болезни их очень много. Какие варианты у нас могут быть? Вент всего 4. Бывает тест: верно положительный — когда человек болен, ему пришел положительный результат. Что доволен?

Бывает тест ложноположительный — когда человек здоров, а ему пришел положительный результат. Бывает тест отрицательный верно — 30 тыс., когда человек здоров, и ему пришел отрицательный результат. И бывает ложноотрицательный — когда человек болен, но ему приходит отрицательный результат. Понятно, что в идеале бы вот этих ложных результатов не было, то есть здоровым приходил бы минус, больным плюс. Но нет, в мире совершенства. Поэтому давайте рассмотрим вот такой тест. Предположим, что у нас есть некий тест, который с вероятностью 98 процентов выдает больному, что он болен, и с 2 процентами, соответственно, ошибаются. Но и наоборот, с вероятностью 1 процент он выдает здоровому, что тот болен, освежаются 99 процентов, что тот здоров.

Вот вы бы стали доверять такому тесту или нет? Можете поставить на паузу и для себя определиться, как вам кажется: тест достаточно надежный или нет? Думаю, вы определились. Давайте попробуем обсудить это, подставив некоторые числа. Что значит "надежен ли тест"? На самом деле это значит вот что: вот вам пришел, допустим, положительный результат. Следует ли из этого, что вы больны? А потому что мы понимаем, что это может быть либо верный положительный, либо ложноположительный. И вам надо понимать вот одно или другое.

На самом деле интересно вот что: независимо от вероятности могут получиться разные результаты. То есть мы иногда можем трактовать это верно, что мы скорее больны, а иногда что скорее здоровы, как ни странно. И это в чистом виде зависит от того, насколько эта болезнь, так сказать, популярна. Поясню на примере: у вас есть 100 человек, которые больны, и миллион человек, которые здоровы. То есть такая болезнь очень редка. И предположим, что все эти 1 миллион 100 человек сдали тест. Тогда, как мы знаем, у нас 98 процентов больной человек получит, что он больной, и 2 процента, что он здоров. Значит, 98 длительных тестов — это те, кто больны, но у нас есть 1 процент, что здоровые люди получают положительные. А что такое 1 процент от миллиона? Ну, миллион делим на 100, это 10 тысяч. То есть всего получилось 10 тысяч 98 положительных тестов, из которых 10 тысяч ложные и только 98 правильные. Но получается, что если вы получили положительный тест, скорее всего, вы здоровы.

Вся фишка здесь в том, что вот этих больных людей в принципе очень мало, и поэтому такая статистика нас не устраивает. Вот такие проценты. Если же, давайте возьмем другую ситуацию, у нас есть миллион здоровых и миллион больных, примерно половина болеет, тогда положительный тест, во-первых, получат 98 процентов тех, кто на самом деле болен. 98 процентов от миллиона — это 980 тысяч. А кроме того, получит 1 процент здоровых. Это, как мы знаем, 10 тысяч. Значит, всего 990 тысяч получили плюсик. Из них 980 тысяч на самом деле больны и всего лишь 10 здоровы. Ну вот здесь уже действительно можно сказать, что значит, скорее всего, тут оплачу плюсик. С наибольшей вероятностью он, конечно, болен.

От чего зависит, доверяем ли тесты или нет? Не только от вот этих вот процентов ложноположительных, ладно, три цепи, а ещё и от того, насколько редкой является болезнью. Более она редкая, тем труднее доверять подобной статистике. Интересно, что очень часто, когда публикуется какая-то статистика, часто статистика заболевших, сам люди говорят: "Как же так, вот посмотрите, два дня подряд у нас количество заболевших — это число оканчивается на 2 нолика. Такого не бывает! Стёпа сегодня 300, завтра 400. Так не бывает. Два нолика два раза подряд, слишком маленькая вероятность." Какова вероятность того, что вот какое-то случайно выбрано и просто трехзначное число будет оканчиваться на 2 нолика? Понятно, что по формуле классической вероятности. Вероятность того, что число трехзначное, будет окончательно 20, а это количество таких чисел, а их 9 — 100, 200, 300 и так далее до 900. Делим на общее количество трехзначных чисел, то есть на 900, девятисотых. Один процент на 1 сотую. И второе число, которое выбираем, тоже 1 сотая. Значит, вероятность того, что подряд будут два таких вот круглых, совсем круглых числах, заканчивающихся на 2, 0 — это будет 1 100 в квадрате или одна десятитысячная, одна сотая процента.

Совпадение вроде бы и не думаю. А с другой стороны, давайте прикинем: вот если у меня первое число оканчивается на не на 0, 0, она 24, а второй — на 07. Здесь как, вы скажете, подтасовано или нет? Психологически вроде бы совсем другая история. Да, не круглые числа все бывают, но я родился 24, 07. И для меня, как для такого опытного конспиролога, может быть, это тоже подтасовка. Давайте посчитаем, какова вероятность того, что первое число будет оканчиваться на 24, 2 на 07? Здесь тоже одна сотая, да, потому что у нас есть те же идею чисел, оканчивающихся на 24 и 900 всего, и произведения, конечно, до 10 тысяч. Не то есть одна сотая процента. На самом деле, какие вот фиксированные 2 цифровые окончания вы не выберете, будет разумеется 1 10 тысяч.

Так что по факту разницы там — получилось вас 0000 или там 0707 или 2407. Никакой нет. Другой вопрос, что психологически, да, мы воспринимаем, что вот круглые числа, они вроде таких красивой, они больше бросаются в глаза. Но само по себе это не является доказательством того, что данные подтасованы. Более того, лично мое мнение: если сидит достаточно умный человек, он подтасовывая не будет ставить специально круглые числа или рядом с круглыми. Он скорее уж возьмет что-нибудь такое более случайное, типа 70, 489 и так далее. Хотя, конечно, проведено много исследований про псевдослучайные числа и про то, как люди пытаются имитировать генератор случайных чисел. У них не очень получается.

Сегодня мы поговорили о работе с данными, немножко порассуждали на тему того, доверять или не доверять тестам, этой статистики, которая у нас есть. Надеюсь, что вам это пригодится. Исключительно в теории, на практике никто из вас не будет. Ведите всем здоровья и не забывайте подписываться на наш канал, чтобы не пропускать следующие классные видео. Пока-пока! [музыка] Фев, а [музыка] а.

More Articles

View All
Shipwreck From Explorer Vasco da Gama's Fleet Discovered | National Geographic
[Music] [Music] A storm from the north wrecked two of the ships, the Soj brothers’ vessels, onto a reef. We were the first people to discover this shipwreck, and the reason being because it was such a remote part of the world. It’s an island in the Indian…
Radiation vs Radioactive Atoms
Radiation has been in the news a lot lately, but the term “radiation” has just been thrown around loosely to mean anything potentially damaging coming away from a nuclear power plant. So, what are people worried about? That it’s going to, like, explode an…
Mesh current method (step 4 solve)
We’re working on the mesh current method of analyzing circuits, and in the previous video, we set up our circuit. We set up our mesh currents flowing around these loops within the circuit, and we solved for the easy currents. That was the, uh, the current…
Are We Running Out of Sand?
[Music] It can be easy to take something for granted that every time you see it, it seems to go on forever. It’s like an infinite path to the horizon, a landscape that never ends. This is sand. And even though just a simple trip to the beach can make it f…
Close Gorilla Encounter | Explorer
That’s a monkey. Oh, wonderful! Hey, you can have a chance to see some gorillas! As you can see, gor—are you kidding me? It’s gorilla D! Is it fresh? It’s for today. We’re lucky, huh? Yeah, you know this. We are approaching the gorilla, so we have to wea…
Parentheses | Punctuation | Khan Academy
Hey grammarians, hey Paige, hi David. So today we’re going to talk about parentheses. So before we get into what parentheses do, I would like to talk very briefly about the word origin of parentheses, or parenthesis, because it comes from Greek. So “para”…