Смотреть страницы где упоминается термин поле корреляции. Корреляционно-регрессионный анализ в Excel: инструкция выполнения

Различают два вида зависимости между экономическими явле­ниями : функциональную и статистическую. Зависимость между дву­мя величинами X и Y , отображающими соответственно два явле­ния, называется функциональной , если каждому значению величины x соответствует единственное значение величины Y и наоборот. Примером функциональной связи в экономике может служить за­висимость производительности труда от объема произведенной продукции и затрат рабочего времени. При этом следует отметить, что если Х – детерминированная, не случайная величина, то и фун­кционально зависящая от нее величина Y тоже является детерминированной. Если же Х – величина случайная, то и Y также случай­ная величина.

Однако гораздо чаще в экономике имеет место не функциональ­ная, а статистическая зависимость , когда каждому фиксирован­ному значению независимой переменой X соответствует не одно, а множество значений зависимой переменной Y, причем заранее нельзя сказать, какое именно значение примет Y . Это связано с тем, что на Y кроме переменной X влияют и многочисленные неконт­ролируемые случайные факторы. В этой ситуации Y является слу­чайной величиной, а переменная X может быть как детерминиро­ванной, так и случайной величиной.

Частным случаем статистичес­кой зависимости является корреляционная зависимость , при кото­рой функциональной зависимостью связаны фактор X и среднее значение (математическое ожидание) результативного показателя Y . Статистическая зависимость может быть выявлена лишь по результатам достаточно большого числа наблюдений. Графически статистическая зависимость двух признаков может быть представлена с помощью поля корреляции, при построении которого на оси абсцисс откладывается значение факторного признака X , а по оси ординат – результирующего Y .

Корреляционная связь частный случай статистической связи, при котором разным значениям переменной соответствуют разные средние значения другой переменной. Корреляционная связь предполагает, что изучаемые переменные имеют количественное выражение.

Если изучается связь между двумя признаками, налицо парная корреляция; если изучается связь между многими признаками – множественная корреляция.

В качестве примера на рис.

1 представлены данные, иллюстри­рующие прямую зависимость между х и у (рис. 1, а) и обратную зависимость (рис. 1, б). В случае «а» это прямая зависимость между, к примеру, среднедушевым доходом (х ) и сбережением (у ) в семье. В случае «б» речь идет об обратной зависимости. Такова, наш пример, зависимость между производительностью труда (х ) и себе­стоимостью единицы продукции (у ). На рис. 1 каждая точка характер изучает объект наблюдения со своими значениями х и у .

Рис. 1. Поле корреляции

На рис. 1 также представлены прямые линии, линейные уравнения регрессии типа , характеризующие функциональную зависимость между независимой переменной х и средним зна­чением результативного показателя у . Таким образом, по уравнению регрессии, зная х , можно восстановить лишь среднее значение у .

Строим корреляционное поле для основного и попутного компонентов. По оси абсцисс откладываем содержание основного компонента, в данном случае Hg, а по оси ординат – содержание попутного, т.е. Sn.

Для предварительной оценки силы связи на корреляционном поле необходимо провести линии, соответствующие медианам значений основного и попутного компонентов, разделив ими поле на четыре квадрата.

Количественной мерой силы связи является коэффициент корреляции. Его приближённую оценку рассчитывают по формуле:

где n1 суммарное количество точек в I и III, n2 = суммарное количество точек в II и IV.

I = 4 II = 8 III = 7 IV = 5

Далее используя вычисленные компьютером исходные данные (Хср, Yср, дисперсии Dx, Dy, и их ковариацию cov(x,y)) вычисляем значение коэффициента корреляции r и параметры уравнений линейной регрессии попутного компонента по основному и основного компонента по попутному.

Вычисляем по следующим формулам:

Исходные данные:

cov (x, y) = 163,86

r = cov(x, y)/√Dx * Dy = 163,86/√157,27* 645,61= 0,51

b = cov(x, y)/Dx = 163,86/157,27= 1,04

a = Yср – b * Xср = 153,13– (-0.08) * 36,75= 150.19

d = cov(x, y)/ Dy = 163,86/645,61= 0.25

c = Хср – d * Yср = 36,75– (0.25) * 153,13= -1.5

y =150.19+1.04x x = -1.5+0.25y

Строим линии регрессии на корреляционном поле.

Этап 7. Проверка гипотезы о наличии корреляционной связи

Проверка гипотезы о наличии корреляционной связи основана на том, что для двумерной нормально распределённой случайной величины X, Y при отсутствии корреляции между х и y, коэффициент корреляции равен «0». Для проверки гипотезы об отсутствии корреляционной связи необходимо вычислить значение критерия:

t = r * √(N – 2)/√(1 – r2) = 0,51* √(24-2)/√(1 – (0,51) 2) = 2.65

Для наших значений t = 2.65

Табличное значение ttab = 2.02

Так как вычисленное значение t превышает табличное значение, то гипотеза об отсутствии корреляционной связи отвергается. Связь присутствует.

Этап 8. Построение линий эмпирической регрессии. Вычисление корреляционного отношения

Выборочные данные группируются в классы по значениям содержаний основного компонента, в данном случае Hg. Для этого весь интервал значений от минимального содержания основного полезного компонента до максимального содержания делится на 6 интервалов. Для каждого интервала:

    Определяется количество значений, попавших в этот интервал n(i)

    Считается количество значений содержаний попутного компонента соответствующих значениям основного(y(I,ср)) и делится это количество на n(i)

Таблица 3

Граница интервалов

На корреляционном поле строим линию эмпирической регрессии.

dобщ = √Dy = 25,4

dусл = /N = 66,14

Величина корреляционного отношения попутного компонента по основному r рассчитывается по формуле:

r = dусл/ dобщ = 66,14/25,4 = 2,6

Корреляционный анализ

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: м x , м y - средние значения (математические ожидания); у x ,у y - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y - зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Динамическое программирование

В сельском хозяйстве непрерывно протекают разнообразные экономические процессы, в результате которых складываются определенные производственные результаты, формируются экономические явления...

Целью курсовой работы является: развитие умения разрабатывать имитационные модели организационных и технических объектов, а также получения практических навыков работы в среде GPSS World...

Имитационное моделирование работы билетной кассы железнодорожного вокзала

Исследование функционирования работы билетной кассы на железнодорожном вокзале и анализ влияния времени обслуживания в каждой кассе на очереди и количество обслуженных гражданских и военных пассажиров...

Исследование свойств случайных величин, планирование эксперимента и анализ данных

Корреляционное поле используется для выявления и демонстрации зависимостей между двумя связанными наборами данных и для подтверждения предполагаемых зависимостей между ними...

Корреляционно-регрессионный анализ однофакторной стохастической связи

Метод последовательных сравнений

Программно реализовать интерактивный метод последовательных...

Моделирование систем массового обслуживания

Развитие современного общества характеризуется повышением технического уровня, усложнением организационной структуры производства, углублением общественного разделения труда...

Обработка результатов полного факторного плана для получения математической модели результатов полного факторного плана

Основными целями и задачами планирования эксперимента являются: 1) Планирование эксперимента с целью математического описания объекта. Целью данного эксперимента является получение математической модели методом регрессионного анализа...

Определение рационального маршрута следования коммивояжера

Целью данной работы является определение рационального маршрута следования коммивояжера и выбора экономически целесообразного способа поездки. Задача - выбрать такой вид транспорта для объезда коммивояжером населенных пунктов...

Оценка инвестиционных проектов

Необходимо разработать имитационную модель финансово-экономической деятельности фирмы по реализации этого проекта, выбрать схему финансирования и оценить показатели экономической эффективности проекта...

Построение структурной схемы устройства станка 3Б722

Выбор объекта морфологического исследования. Приобретение практических навыков структурного анализа. 2. Общие сведения Шлифование - это процесс обработки заготовок абразивными материалами...

Разработка модели предприятия тепличного хозяйства, используя методологии проектирования IDEF0, DFD и IDEF3

Целями данной курсовой работы были: применение методов предпроектного обследования предприятия; анализ полученных материалов для последующего моделирования; разработка модели процесса в стандарте IDEF0; описание документооборота и...

Трендовые и корреляционные модели

Функциональное моделирование

Создаваемая IDEF0-модель имеет конкретное назначение, называемое целью модели. Цель моделирования можно понять из следующего формального определения модели : M есть модель системы S...

Эконометрические модели рентабельности собственного капитала (на примере СПК "Слава")

Так как в данной курсовой работе рассматривается рентабельность собственного капитала, то возьмем ее за результативный показатель. Одним из факторов, оказывающих влияние, является рентабельность продаж, %...

1. Тема работы.

2. Краткие теоретические сведения.

3. Порядок выполнения работы.

4. Исходные данные для разработки математической модели.

5. Результаты разработки математической модели.

6. Результаты исследования модели. Построение прогноза.

7. Выводы.

В задачах 2-4 можно использовать ППП Excel для расчетов характеристик модели.

Работа № 1.

Построение моделей парной регрессии. Проверка остатков на гетероскедастичность.

По 15 предприятиям, выпускающим один и тот же вид продукции известны значения двух признаков:

х - выпуск продукции, тыс. ед.;

у - затраты на производство, млн. руб.

x y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Требуется:

1. Построить поле корреляции и сформулировать гипотезу о форме связи .

2. Построить модели:

Линейной парной регрессии.

Полулогарифмической парной регрессии.

2.3 Степенной парной регрессии.
Для этого:


2. Оценить тесноту связи с помощью коэффициента (индекса)
корреляции.

3. Оценить качество модели с помощью коэффициента (индекса)
детерминации и средней ошибки аппроксимации
.

4. Дать с помощью среднего коэффициента эластичности
сравнительную оценку силы связи фактора с результатом
.

5. С помощью F -критерия Фишера оценить статистическую надежность результатов регрессионного моделирования .

По значениям характеристик, рассчитанных в пунктах 2-5 выбрать лучшее уравнение регрессии.

Используя метод Гольфрельда-Квандта проверить остатки на гетероскедастичность.

Строим поле корреляции.

Анализируя расположение точек поля корреляции, предполагаем, что связь между признаками х и у может быть линейной, т.е. у=а+bх , или нелинейной вида: у=а+blnх, у = ах b .

Основываясь на теории изучаемой взаимосвязи, предполагаем получить зависимость у от х вида у=а+bх, т. к. затраты на производство y можно условно разделить на два вида: постоянные, не зависящие от объема производства - a , такие как арендная плата, содержание администрации и т.д.; и переменные, изменяющиеся пропорционально выпуску продукции bх, такие как расход материала, электроэнергии и т.д.


2.1. Модель линейной парной регрессии .

2.1.1. Рассчитаем параметры a и b линейной регрессии у=а+bх .

Строим расчетную таблицу 1.

Таблица 1

Параметры a и b уравнения

Y x = a + bx


Разделив на n b :

Уравнение регрессии:

=11,591+0,871x

С увеличением выпуска продукции на 1 тыс. руб. затраты на производство увеличиваются на 0,871 млн. руб. в среднем, постоянные затраты равны 11,591 млн. руб.

2.1.2. Тесноту связи оценим с помощью линейного коэффициента парной корреляции.

Предварительно определим средние квадратические отклонения признаков.

Средние квадратические отклонения:

Коэффициент корреляции:

Между признаками X и Y наблюдается очень тесная линейная корреляционная связь.

2.1.3. Оценим качество построенной модели.

т. е. данная модель объясняет 90,5% общей дисперсии у , на долю необъясненной дисперсии приходится 9,5%.

Следовательно, качество модели высокое.

А i .

Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора.

Ошибка аппроксимации А i , i =1…15:

Средняя ошибка аппроксимации:

2.1.4. Определим средний коэффициент эластичности:

Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,515%.

2.1.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05. Найдем табличное (критическое) значение F- критерия Фишера:

Найдем фактическое значение F - критерия Фишера:

следовательно, гипотеза H 0 H 1 x и y неслучайна.

Построим полученное уравнение.

2.2. Модель полулогарифмической парной регрессии .

2.2.1. Рассчитаем параметры а и b в регрессии:

у x =а +blnх .

Линеаризуем данное уравнение, обозначив:

y=a + bz .

Параметры a и b уравнения

= a + bz

определяются методом наименьших квадратов:


Рассчитываем таблицу 2.

Таблица 2

Разделив на n и решая методом Крамера, получаем формулу для определения b :

Уравнение регрессии:

= -1,136 + 9,902z

2.2.2. Оценим тесноту связи между признаками у и х .

Т. к. уравнение у = а + bln x линейно относительно параметров а и b и его линеаризация не была связана с преобразованием зависимой переменной _у , то теснота связи между переменными у и х , оцениваемая с помощью индекса парной корреляции R xy , также может быть определена с помощью линейного коэффициента парной корреляции r yz

среднее квадратическое отклонение z :

Значение индекса корреляции близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида = a + bz.

2.2.3. Оценим качество построенной модели.

Определим коэффициент детерминации:

т. е. данная модель объясняет 83,8% общей вариации результата у , на долю необъясненной вариации приходится 16,2%. Следовательно, качество модели высокое.

Найдем величину средней ошибки аппроксимации А i .

Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора. Ошибка аппроксимации А i , :

, i =1…15.

Средняя ошибка аппроксимации:

.

Ошибка небольшая, качество модели высокое.

2.2.4.Определим средний коэффициент эластичности:

Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,414%.

2.2.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т.е. полученное уравнение статистически незначимо. Примем α=0,05.

Найдем табличное (критическое) значение F -критерия Фишера:

Найдем фактическое значение F -критерия Фишера:

следовательно, гипотеза H 0 отвергается, принимается альтернативная гипотеза H 1 : с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.

Построим уравнение регрессии на поле корреляции

2.3. Модель степенной парной регрессии.

2.3.1. Рассчитаем параметры а и b степенной регрессии:

Расчету параметров предшествует процедура линеаризации данного уравнения:

и замена переменных:

Y=lny, X=lnx, A=lna

Параметры уравнения:

определяются методом наименьших квадратов:


Рассчитываем таблицу 3.

Определяем b :

Уравнение регрессии:

Построим уравнение регрессии на поле корреляции:

2.3.2. Оценим тесноту связи между признаками у и х с помощью индекса парной корреляции R yx .

Предварительно рассчитаем теоретическое значение для каждого значения фактора x, и , тогда:

Значение индекса корреляции R xy близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида:

2.3.3. Оценим качество построенной модели.

Определим индекс детерминации:

R 2 =0,936 2 =0,878,

т. е. данная модель объясняет 87,6% общей вариации результата у, а на долю необъясненной вариации приходится 12,4%.

Качество модели высокое.

Найдем величину средней ошибки аппроксимации.

Ошибка аппроксимации А i , i =1…15:

Средняя ошибка аппроксимации:

Ошибка небольшая, качество модели высокое.

2.3.4. Определим средний коэффициент эластичности:

Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,438%.

2.3.5.Оценим статистическую значимость полученного уравнения.

Проверим гипотезу H 0 , что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05.

табличное (критическое) значение F -критерия Фишера:

фактическое значение F -критерия Фишера:

следовательно, гипотеза H 0 отвергается, принимается альтернативная гипотеза H 1 : с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.

Таблица 3

3. Выбор лучшего уравнения.

Составим таблицу полученных результатов исследования.

Таблица 4

Анализируем таблицу и делаем выводы.

ú Все три уравнения оказались статистически значимыми и надежными, имеют близкий к 1 коэффициент (индекс) корреляции, высокий (близкий к 1) коэффициент (индекс) детерминации и ошибку аппроксимации в допустимых пределах.

ú При этом характеристики линейной модели указывают, что она несколько лучше полулогарифмической и степенной описывает связь между признаками x и у.

ú Поэтому в качестве уравнения регрессии выбираем линейную модель.

Для экспериментального изучения зависимостей между случайными величинами х и у производят некоторое количество независимых опытов. Результат i -го опыта дает пару значений (х г, у г), i = 1, 2,..., п.

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связь.

При функциональной зависимости двух величин значению одной -x h обязательно соответствует одно или несколько точно определенных значений другой величины -у { . Достаточно часто функциональная связь проявляется в физике, химии. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями.

Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, который вывел «закон корреляции частей и органов животных» (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто связь - relation, а «как бы связь» - corelation).

Корреляционные зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается - увеличение массы внесенных удобрений ведет к росту урожайности.

Простейшим приемом выявления связи между изучаемыми признаками является построение корреляционной таблицы; ее наглядным изображением служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения jq, по оси ординат у х. По расположению точек, их концентрации в определенном направлении можно качественно судить о наличии связи.

Рис. 7.3.

Положительная корреляция между случайными величинами, близкая к параболической функциональной, представлена на рис. 6.1, а. На рис. 6.1, б приведен пример слабой отрицательной корреляции, а на рис. 6.1, в - пример практически некоррелированных случайных величин. Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона).