Корреляционный анализ

Корреляционный анализ позволяет исследовать тесноту связи, то есть степень разброса точек вокруг линии. Чем ближе точки к линии регрессии, тем лучше ТЕСНОТА СВЯЗИ. Имеется в виду линия, которую МОЖНО построить в среднем по этом точкам. На самом деле при анализе взаимосвязи перед нами находятся только точки, а линии пока ещё НЕТ.

Теснота линейной связи оценивается с помощью КОЭФФИЦИЕНТА ЛИНЕЙНОЙ КОРРЕЛЯЦИИ r. Здесь говорится именно о ЛИНЕЙНОЙ связи и анализируется разброс вокруг будущей, возможной ПРЯМОЙ линии. Другими словами, мы выясняем, есть ли смысл в построении прямой линии в среднем по нашим точкам.

Коэффициент корреляции принимает значения от —1 до +1 включительно.

Знак коэффициента указывает на НАПРАВЛЕНИЕ связи – прямую или обратную связь. Положительная корреляция означает, что с увеличением фактора в среднем возрастает результативный признак. Это прямая связь. Отрицательная корреляция – это обратное направление связи, то есть снижение, убывание, падение графика. С увеличением фактора убывает результат.

Величина (модуль, абсолютное значение) коэффициента характеризует ТЕСНОТУ линейной связи. Чем ближе значение к единице, тем меньше разброс, тем ближе точки к прямой линии. Чем ближе коэффициент к нулю, тем сильнее разброс вокруг прямой. Традиционное толкование величины коэффициента корреляции приводится в таблице.



Возможна и другая ситуация – НЕЛИНЕЙНАЯ зависимость, которая тоже представляет собой отсутствие линейной связи. Нелинейной зависимостью является всё, что не является линейным, например, кривая или ломаная линия. В этом случае коэффициент линейной корреляции будет близок к нулю. Но при этом точки могут быть очень тесно расположены вокруг кривой или ломаной линии. Для анализа степени нелинейной связи используют другие коэффициенты корреляции. В данной работе мы ограничимся только анализом тесноты линейной зависимости.

Как и во многих других случаях, для вычисления коэффициента корреляции в Excel имеются несколько способов:

– надстройка;

– функции;

– формулы.

В следующих разделах мы рассмотрим все эти возможности, а затем сравним полученные результаты.

Надстройка

Вызываем модуль Корреляция статистической надстройки:

Data – Analysis – Data Analysis – Correlation

Данные – Анализ – Анализ данных – Корреляция.


Параметры корреляционного анализа


В диалоговом окне

Correlation

Корреляция

указываем следующие параметры:

Input – Input Range

Входные данные – Входной интервал.


В выбранном диапазоне ячеек должны быть два столбца значений X и Y.

Затем указываем расположение исходных данных:

Labels in first row

Метки в первой строке.


Выделяем значения в столбцах X и Y вместе с их заголовками. В этом случае в таблице с результатами анализа будут выводиться названия переменных.

Указываем, что наши исходные данные расположены по столбцам:

Grouped By – Columns

Группирование – по столбцам.


Обратите внимание, что здесь имеется в виду расположение данных по столбцам, а не статистическая группировка, хотя на экране и присутствует слово ГРУППИРОВАНИЕ. Как говорил Козьма Прутков: «Не верьте глазам своим». Мы пока что просто описываем исходные данные и даже не начинали заниматься группировкой.

Отмечаем первую ячейку, начиная с которой будут выводиться результаты анализа:

Output options – Output Range

Параметры вывода – Выходной интервал.


Результаты корреляционного анализа


На экран выводится таблица коэффициентов корреляции. На пересечении строки Y и столбца Х выводится искомый коэффициент. Единичные коэффициенты на диагонали – это корреляция переменной с самóй собой.

Чтобы получить больше разрядов в дробной части, увеличим ширину столбца.


Точное значение коэффициента

Функция CORREL / КОРРЕЛ

Второй способ вычисления коэффициента корреляции – это готовая функция

CORREL (array1, array2)

КОРРЕЛ (диапазон_x; диапазон_y).

Два обязательных аргумента – это диапазоны ячеек X и Y. Здесь «иксы» и «игреки» задаются по отдельности. Напомним, что в английской версии программы аргументы функции разделяют запятой, а в русской – точкой с запятой.


Вызов функции CORREL


Увеличиваем ширину столбца и сравниваем результаты расчётов с предыдущим разделом. Пока всё сходится.

Теперь на новом листе сгенерируйте данные с разным разбросом, то есть с разным множителем S в уравнении. Определите значение коэффициента корреляции. Подберите величину случайного разброса, чтобы получить

0,3

0,5

0,7

1,0.

В электронной таблице формулы пересчитываются автоматически, а графики сами обновляются при изменении данных. Поэтому можно будет легко подобрать нужный разброс. Скопируйте графики и соберите их на отдельном листе с комментариями – какая корреляция и какая это теснота связи. При вставке графиков используйте режим вставки как изображение – Picture (U), а не как исходный график. В этом случае картинки не будут изменяться и обновляться.

Формулы

Вычислим коэффициент линейной корреляции вручную с помощью формул Excel.

Вот соотношение для расчётов – см. формулу.


Коэффициент корреляции


Для вычислений нам понадобятся промежуточные расчёты. Найдём суммы «иксов», «игреков», их квадратов и произведений, которые участвуют в формуле. Для этого на новом листе организуем вспомогательную таблицу. Внизу столбцов подсчитываем суммы, воспользовавшись кнопкой экспресс-анализа.

Загрузка...