Измерение связи и значимости для интервальных переменных

Измерение связи между двумя интервальными переменными осуществляется при помощи корреляции произведения моментов Пирсона (r), известной кроме этого как коэффициент корреляции. Данный коэффициент обрисовывает силу и направление связей, применяя те же правила, что и ранее, – относительное ограничение неточности в догадках о значениях одной переменной на базе информации о значениях второй, не смотря на то, что метод, которым это делается, равно как и тип данных, для которых рекомендован данный коэффициент, значительно более сложен, чем все другие, обсуждавшиеся нами ранее. Тут в отличие от применения среднего геометрического зависимой переменной (обозначаемой Y) для подсчета значений отдельных показателей употребляется ее геометрическая связь с зависимой переменной (обозначаемой в большинстве случаев X). В случае если правильнее, мы главное внимание уделяем той помощи, которую может оказать уравнение линейной зависимости в определении значений Y на базе сведений о соответствующих значениях X.

Подсчет r начинается с изучения диаграммы рассеяния, графического изображения распределения случаев [c.426]по двум переменным, где горизонтальная линия, либо ось X, шкалирована в единицах свободной переменной, а вертикальная линия, либо ось У, шкалирована в единицах зависимой переменной и любая точка воображает размещение одного случая довольно обеих переменных. Такая диаграмма представлена на рис. 15.3, где свободная переменная – это возраст, зависимая переменная – количество законченных лет обучения, а количество случаев равняется 25. Так, заключенная в кружок точка воображает следующий случай: человек 30 лет, проучившийся 10 лет. На рисунке цифры забраны произвольно, но в практической работе значения должны определяться самим исследователем.

Рис. 15.3. Диаграмма рассеяния, показывающая связь между количеством и возрастом лет обучения

Следующий ход – совершить через это множество точек прямую, которая именуется линией регрессии, так, дабы ни одна другая линия не имела возможность пройти ближе ко всем точкам (и не смотря на то, что, как мы заметим, такие линии не определяют, легко глядя на картину, ясно, что из всех прямых на рисунке – а, b и с – прямая b самый близка к таковой линии). Такая самая подходящая линия для двух взаимоувязанных переменных подобна среднему геометрическому в одномерных описательных статистиках. Совершенно верно так же геометрическое воображает самый типичный случай в частотном распределении, линия регрессии воображает самая типичную связь между двумя переменными. Совершенно верно так же, как мы имели возможность [c.427]использовать среднее геометрическое для определения значений переменной при отсутствии дополнительной информации, мы можем применять линию регрессии для определения значений одной переменной на основании сведений о значениях второй. В случае если, к примеру, нам известно значение X для данного случая, мы можем совершить вертикаль от данной точки на оси до пересечения с линией регрессии, после этого – горизонтальную линию до пересечения с осью Y. Точка пересечения с осью Y и даст предполагаемое значение Y.

Но точно так же, как среднегеометрическое возможно единственным самоё типичным значением, но не отлично наряду с этим отражать распределение в целом, так и линия регрессии может наилучшим образом обобщать взаимозависимость двух переменных, но не быть наряду с этим весьма полезным обобщением. И соответственно так же, как мы используем стандартное отклонение (s) в качестве меры дисперсии либо близости к среднему геометрическому, мы используем коэффициент корреляции, либо более полно соответствующий требованиям интерпретации данный коэффициент, возведенный в квадрат (r2), в качестве меры близости разных точек, обозначающих отечественные эти, к линии регрессии. По сути дела, это мера того, как типично отражает эта линия обобщенное распределение значений по двум переменным. В тех случаях, в то время, когда все точки лежат совершенно верно на данной линии, как на рис. 15.4а и 15.4д, она наилучшим образом обрисовывает связь между двумя переменными. В случае если точки в целом сгруппированы в направлении, обозначенном линией, но не лежат совершенно верно на ней, как на рис. 15.4б и 15.4г, то линия воображает связи между этими переменными только примерно. И в случае если, как на [c.428] рис. 15.4в, не существует линии, которая расположена ближе к точкам, чем каждая вторая, между переменными не существует связи5.

Рис. 15.4. Линии регрессии при разных значениях r

Неприятность, так, имеет двойственный темперамент: во-первых, как выглядит эта самая подходящая линия? И во-вторых, как совершенно верно она отражает эти?

Вы, должно быть, не забывайте из курса алгебры, что каждая прямая имеет формулу:

Yi = a + bXi,

где а – значение Y при Х= 0,
b – коэффициент наклона прямой,

Х – соответствующее значение свободной переменной.

Линия регрессии (в большинстве случаев обозначается Y’, дабы продемонстрировать, что это только приблизительное отражение подлинного распределения) – это легко комплект предполагаемых значений, выраженных в таковой форме, которая есть наилучшей для значения Y, основанных на знании значений X.

По обстоятельствам, каковые мы тут не будем обсуждать, коэффициент наклона прямой постоянно будет выражаться формулой:

,

где Хi и Yi – соответствующие значения свободной и зависимой переменных для случая i, a и – соответствующие средние геометрические. Увидьте, что коэффициент b основан на разбросе отдельных случаев около двух средних геометрических (т. е. на [Xi – ] и [Yi – ]). Применив эту формулу и применяя схему, подобную той, которую мы использовали при подсчетах ?2, мы сможем выяснить угол наклона для любых связей между двумя интервальными переменными. Данный метод продемонстрирован в табл. 15.6 на примере данных использованных в рис. 15.3. Для этих данных = 37,08 и = 12,88. Подставив эти значения в уравнение, возьмём:

[c.429]

Таблица 15.6.

Лекция 15: Изучение связи между двумя количественными показателями


Также читать:

Понравилась статья? Поделиться с друзьями: