Понимание регрессии к среднему

Независимо от того, не подмечают ли его либо неправильно растолковывают, феномен регрессии чужд людской разуму. Регрессию в первый раз опознали и осознали на двести лет позднее, чем дифференциальное исчисление и теорию гравитации. Более того, для объяснения регрессии потребовался один из лучших английских умов XIX века.
В первый раз это явление обрисовал господин Фрэнсис Гальтон, троюродный брат Чарльза Дарвина, владевший воистину энциклопедическими знаниями. В статье называющиеся «Регрессия к среднему при наследовании», размещённой в 1886 году, он сказал об измерениях нескольких последовательных поколений семян и о сравнении роста детей с ростом их своих родителей. О семенах он пишет так:

«Изучения дали занимательный итог, и на их основании 9 февраля 1877 года я прочитал лекцию в Королевской ассоциации. Опыты продемонстрировали, что потомство не было похожим своих родителей размером, но постоянно оказывалось более обыкновенным, другими словами меньше больших своих родителей либо больше небольших… Опыты продемонстрировали кроме этого, что в среднем регрессия потомства прямо пропорциональна отклонению своих родителей от среднего».

Гальтон, разумеется, ожидал, что ученая аудитория в Королевской ассоциации, ветшайшей свободной исследовательской организации мира, так же удивится его «занимательным ре зультатам», как и он сам. Но самое увлекательное пребывает в том, что его поразила простая статистическая закономерность. Регрессия распространена везде, но мы ее не выясняем. Она скрывается на виду. За пара лет, посредством выдающихся статистиков того времени, Гальтон проделал путь от открытия наследственной регрессии размеров до более широкого понимания того, что регрессия неизбежно появляется при неполной корреляции между двумя размерами.
Среди препятствий, каковые было нужно преодолеть исследователю, была и неприятность измерения регрессии между размерами, выражающимися в различных единицах: к примеру, весом и умением играть на пианино. Их измеряют, беря в качестве эталона для сравнения все население. Представьте, что у 100 детей из всех классов начальной школы измерили умение и вес играться и расположили результаты по порядку, от большой до минимальной величины каждого показателя. В случае если Джейн на третьем месте по музыке и на двадцать седьмом по весу, возможно сказат ь, что игра на пианино у нее лучше, чем рост. Давайте для простоты сделаем пара допущений.
В любом возрасте:
• Удачи в игре на пианино зависят лишь от количества часов занятий в неделю.
• Вес зависит только от количества потребляемого мороженого.
• количество часов и Поедание мороженого занятий музыкой в неделю – свободные размеры.

Сейчас мы можем написать кое-какие уравнения с применением позиций в перечне (либо стандартных оценок, как их именуют статистики):

вес = возраст + потребление мороженого
игра на пианино = возраст + количество часов занятий в неделю

Разумеется, что при попытках угадать уровень игры на пианино по весу либо напротив, будет оказаться регрессия к среднему. В случае если о Томе известно только то, что он по весу двенадцатый (намного выше среднего), возможно сделать статис тический вывод, что Том, возможно, старше среднего и, быть может, потребляет больше мороженого, чем другие. В случае если о Барбаре известно только то, что она восемьдесят пятая по пианино (намного ниже среднего по группе), возможно сделать вывод, что Барбара, вероятнее, еще маленькая и, возможно, занимается меньше вторых.
Коэффициент корреляции между двумя размерами, варьирующийся от 0 до 1, – это мера относительного веса факторов, воздействующих на обе из них. К примеру, у всех нас добрая половина генов – неспециализированная с каждым из своих родителей, и у линия, на каковые внешние факторы воздействуют мало (к примеру, у роста), корреляция между показателями ребёнка и родителя близка к 0,5. Дабы оценить значение меры корреляции, приведу пара примеров коэффициентов:

• Корреляция между размерами объектов, совершенно верно измеренных в метрических либо в имперских единицах, образовывает 1. Все определяющие факторы воздействуют на оба измерения.
• Корреляция между весом и ростом, сооб щенными респондентами, для взрослых американских мужчин образовывает 0,41. В случае если включить в детей и группу женщин, то корреляция будет намного выше, потому, что возраст и пол индивида воздействуют на их оценку веса и своего роста, что увеличивает относительные значения неспециализированных факторов.
• Корреляция между школьными тестами на определение отвлечённых свойств и средним баллом в колледже равна приблизительно 0,60. Но корреляция между тестами на диагностику свойств и удачами в магистратуре намного ниже – по большей части вследствие того что уровень свойств в данной группе не через чур различается. В случае если способности у всех приблизительно однообразны, то отличие в этом параметре вряд ли очень сильно повлияет на меру успеха.
• Корреляция между уровнем образования и доходом в Соединенных Штатах образовывает приблизительно 0,40.
• Корреляция между доходом семьи и последними четырьмя цифрами номера их телефона равна 0.

Фрэнсису Гальтону потребовалось пара лет, чтобы выяснить, что регрессия и корреляция – это не две различные концепции, а две точки зрения на одну. Неспециализированное правило достаточно простое, но у него необычные следствия: в случаях, в то время, когда корреляция неидеальна, отмечается регрессия к среднему. Дабы проиллюстрировать открытие Гальтона, заберём предположение, которое многие находят достаточно интересным:

Умные дамы довольно часто выходят замуж за менее умных мужчин.

В случае если на вечеринке попросить ваших друзей отыскать объяснение этому факту, то увлекательный разговор вам обеспечен. Кроме того привычные со статистикой люди проинтерпретируют это утверждение в каузальных терминах. Кто-то примет решение, что умные дамы стремятся избежать конкуренции умных мужчин; кто-то предположит, что они вынуждены идти на компромиссы при выборе супруга по причине того, что умные мужчины не желают соревноваться с умными дамами; другие предложат более надуманные объяснения. А сейчас поразмыслите над следующим утверждением:

Корреляция между оценками интеллекта супругов неидеальна.

Очевидно, это утверждение правильно – и совсем неинтересно. В этом случае никто не ожидает совершенной корреляции. Растолковывать тут нечего. Однако с алгебраической точки зрения эти два утверждения эквивалентны. В случае если корреляция между оценками интеллекта супр угов неидеальна (и в случае если мужчины и женщины в среднем не различаются по интеллекту), то математически неизбежно, что умные дамы выйдут замуж за мужчин, каковые в среднем будут менее умными (и напротив). Замечаемая регрессия к среднему не может быть более занимательна либо более объяснима, чем неидеальная корреляция.
Гальтону возможно посочувствовать – попытки осознать и растолковать феномен регрессии даются непросто. По ироническому замечанию статистика Дэвида Фридмана, в случае если вопрос о регрессии появляется на протяжении судебного слушания, та сторона, которой приходится растолковывать его сущность присяжным, в обязательном порядке проигрывает. Из-за чего это так сложно? Основная обстоятельство трудностей систематично упоминается в данной книге: отечественный разум склонен к каузальным объяснениям и не хорошо справляется с «несложной статистикой». В случае если какое-то событие завлекает отечественное внимание, ассоциативная память начинает искать его обстоятельство, а правильнее, активируется каждая обстоятельство, уже хранящаяся в памяти. При обнаружении регрессии подыскиваются каузальные объяснения, но они будут неверными, по причине того, что в действительности у регрессии к среднему объяснение имеется, а обстоятельств нет. На протяжении турниров по гольфу отечественное внимание завлекает тот факт, что спортсмены, прекрасно игравшиеся в первоначальный сутки, позже обычно играются хуже. Наилучшее объяснение пребывает в том, что этим гольфистам в первоначальный сутки необычно повезло, но такому объяснению не достаточно силы каузальности, которую предпочитают отечественные разумы. Мы хорошо платим тем, кто придумывает для нас занимательные объяснения эффектов регрессии. Комментатор на канале деловых новостей, что правильно увидит, что «для бизнеса текущий год был лучше, по причине того, что прошедший год был неудачным», вероятнее, недолго продержится в эфире.
Отечественные проблемы с пониманием регрессии появляются и из-за Совокупности 1, и из-за Совокупности 2. Без дополнительных руководств (а во многих случаях – кроме того по окончании некоего знакомства со статистикой) отношение между регрессией и корреляцией остается неясным. Совокупности 2 тяжело его осознать и усвоить. Частично это происходит из-за настойчивых требований Совокупности 1 давать каузальные объяснения.

Трехмесячное использование энергетических напитков для лечения депрессии у детей дает большие улучшения состояния.

Я придумал данный заголовок, но обрисованный в нем факт – правда: в случае если какое-то время поить энергетическими напитками детей, страдающих депрессией, отмечается клинически значимое улучшение. Подобным образом дети с депрессией, каковые будут каждый день по пять мин. находиться на голове либо по двадцать мин. гладить кошек, кроме этого продемонстрируют улучшение состояния. Большая часть читателей таких заголовков машинально заключат, что улучшение наступило из-за энергетического напитка либо поглаживания кошки, но это – совсем необоснованный вывод. Дети в депрессии – это экстремальная несколько, а такие группы с течением времени регрессируют к среднему. Корреляция между уровнями депрессии на протяжении последовательных проверо к неидеальна, так что регрессия к среднему неизбежна: детям с депрессией со временем станет чуть легче, даже если они не будут гладить кошек и выпивать «Ред Булл». Для вывода об эффективности энергетического напитка – либо любого другого метода лечения – нужно сравнить группу больных, приобретающих его, с контрольной группой, не приобретающей лечения совсем (либо, значительно лучше, приобретающей плацебо). Ожидается, что контрольная несколько продемонстрирует улучшение лишь за счет регрессии, а цель опыта пребывает в выяснении, улучшается ли состояние больных, приобретающих лечение, больше, чем разъясняется регрессией.
Неверное каузальное определение результата регрессии характерно не только читателям популярной прессы. Статистик Говард Вейнер составил долгий перечень выдающихся исследователей, допустивших такую же неточность, другими словами спутавших корреляцию с каузальностью. Эффект регрессии – нередкий источник неприятностей в изучениях, и у умелых ученых начинается здоровая боязнь ловушек, то ест ь необоснованных каузальных выводов.
Один из моих любимых примеров неточности в интуитивных предсказаниях забран из превосходной книги Макса Базермана «Оценочные суждения при принятии управленческих ответов» и адаптирован:

Вы прогнозируете продажи в сети магазинов. Все магазины сети сходны по ассортименту и размеру, но количество продаж у них различный из-за размещения, конкуренции и разных случайных факторов. Вам представили результаты за 2011 год и попросили выяснить продажи в 2012-м. У вас имеется указания придерживаться неспециализированного прогноза экономистов о том, что рост продаж в целом составит 10 %. Как бы вы заполнили следующую таблицу?


Прочтя эту главу, вы понимаете, что очевидное ответ прибавить по 10 % к продажам каждого из магазинов неправильно. Прогноз должен быть регрессивным, другими словами для магазинов с нехорошими результатами направляться добавить больше 10 %, а к остальным – меньше, в противном случае и вычесть что-то. Но у многих людей это задание приводит к недоумению: для чего об очевидном? Как нашёл еще Гальтон, понятие регрессии неочевидно.

Безынициативный и Инфантильный Мужчина. Возможно Ли Поменять Безынициативного Мужа?


Также читать:

Понравилась статья? Поделиться с друзьями: