Статистическое изучение взаимосвязи социально-экономических явлений и процессов

методичка

1. Методические указания по выполнению лабораторной работы

Наиболее разработанной в теории статистики является методология корреляционно-регрессионного анализа парной корреляции, которая исследует связь между одним признаком-фактором (х) и одним признаком-результатом (у).

В основу выявления и установления аналитической формы связи положено применение в анализе исходной информации математических функций, для чего применяют различного вида уравнения прямолинейной и криволинейной связи.

Это уравнение называется уравнением регрессии (или уравнение парной зависимости).

Например, уравнение парной линейной корреляционной зависимости имеет следующий вид:

, (1)

где ух - теоретические значения результативного признака, полученные по уравнению регрессии;

a0, a1 - коэффициенты (параметры) уравнения регрессии.

Коэффициент парной линейной регрессии а1 показывает изменение результативного признака у под влиянием изменения факторного признака х. Уравнение (1) показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию у, приходящуюся на единицу вариации х. Знак а1 указывает направление этого изменения.

Параметры уравнения a0, a1 определяют путем решения системы нормальных уравнений, полученной на основе метода наименьших квадратов.

В основу этого метода положено требование минимальности сумм квадратов отклонений фактических данных (уi) от выровненных (yxi):

i - yxi) 2 = (уi - а0 - а1хi) 2 min, (2)

Так, для уравнения парной линейной зависимости система уравнений имеет следующий вид:

(3)

(4)

Параметры уравнения прямой будут иметь следующий вид:

(5)

. (6)

Определив значения а0, а1 и подставив их в уравнение связи , находим значение ух, зависящее только от заданного значения х.

Для прямолинейных зависимостей измерителем тесноты связи между признаками является коэффициент парной корреляции, который рассчитывается по формуле:

, (7)

где - среднее произведение факторного и результативного признака:

; (8)

- среднее значение факторного признака:

; (9)

- среднее значение результативного признака:

; (10)

- среднее квадратическое отклонение результативного признака:

; (11)

- среднее квадратическое отклонение факторного признака:

. (12)

Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации:

r2 = d. (13)

Коэффициент детерминации показывает, какая часть общей вариации результативного признака (y) объясняется влиянием изучаемого фактора (x).

Для получения выводов о практической значимости синтезированных в анализе моделей, показаниям тесноты связи дается качественная оценка. Это осуществляется на основе шкалы Чеддока.

Таблица 1 - Шкала Чеддока

Показания

тесноты связи

0,1 - 0,3

0,3 - 0,5

0,5 - 0,7

0,7 - 0,9

0,9 - 0,999

Характеристика

силы связи

слабая

умеренная

заметная

высокая

весьма

высокая

При r = 1 связь является функциональной, при r= 0 связь отсутствует. Если коэффициент корреляции со знаком "+", то связь прямая, если со знаком "-", то связь обратная.

Для практического использования моделей регрессии важна оценка их адекватности, т.е. соответствия фактическим статистическим данным.

Поскольку корреляционно-регрессионный анализ связи между признаками проводится для ограниченной по объему совокупности, то параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенной статистической модели.

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения условий: не являются ли полученные значения параметров результатом действия случайных причин.

Значимость параметров простой линейной регрессии осуществляется с помощью t-критерия Стьюдента. При этом вычисляют фактические (расчетные) значения t-критерия:

для параметра а0:

, (14)

где - средне квадратическое отклонение результативного признака

у от выровненных значений уx, которые рассчитываются по уравнению регрессии:

. (15)

для параметра а1:

. (16)

Вычисленные по формулам (13) и (15) значения, сравниваются с критическими tк, которые принимаются согласно данным таблицы Стьюдента с учетом заданного уровня значимости () и числа степеней свободы (k = n - 2). В социально-экономических исследованиях уровень значимости обычно принимают равным 5%, т.е. = 0,05, что соответствует доверительной вероятности 95%. Параметр признается существенным при условии, если tф > tк. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности, также могут искажаться действием случайных причин. Это вызывает необходимость проверки их существенности, дающей возможность распространять выводы по результатам выборки на генеральную совокупность.

Для оценки значимости линейного коэффициента корреляции r применяется t-критерий Стьюдента. При этом определяется фактическое (расчетное) значение критерия (trф):

, (17)

где n-2 - число степеней свободы при заданном уровне значимости и объеме выборки n.

Вычисленное значение trф сравнивается с критическим tk, которое берется из таблицы Стьюдента с учетом заданного уровня значимости и числа степеней свободы k = n - 2.

Если trф > tk, то это свидетельствует о значимости линейного коэффициента корреляции r и существенности связи между признаком-фактором и признаком-результатом.

Поскольку не все фактические значения результативного признака лежат на линии регрессии, более справедливо для записи уравнения корреляционной зависимости воспользоваться следующей формулой:

, (18)

где - отражает случайную составляющую вариации результативного признака.

В некоторых случаях рассеяние точек корреляционного поля настолько велико, что для принятия решений в управлении не целесообразно пользоваться уравнением регрессии, так как погрешность в оценке анализируемого показателя будет чрезвычайно велика. Для всей совокупности наблюдаемых значений рассчитывается средняя квадратическая ошибка уравнения регрессии, которая представляет собой среднее квадратическое отклонение фактических значений результативного признака у относительно значений, рассчитанных по уравнению регрессии ух:

. (19)

Среднюю квадратическую ошибку уравнения регрессии S сравнивают со средним квадратическим отклонением результативного признака у. Если S < у, то использование уравнения регрессии в статистическом анализе является целесообразным.

Таким образом, опираясь на оценку существенности параметров уравнения регрессии и значений линейного коэффициента корреляции, а также на основании оценки надежности уравнения регрессии, дают заключение об адекватности построенной регрессионной модели и возможности распространения выводов, полученных по результатам малой выборки на всю генеральную совокупность.

После проверки адекватности, установления точности и надежности регрессионной модели необходимо ее проанализировать, т.е. дать экономическую интерпретацию параметров регрессии.

Для уравнения парной линейной зависимости прежде всего необходимо проверить согласуется ли знак параметра а1 с теоретическими представлениями и соображениями о направлении влияния признака-фактора на результативный признак. Для удобства интерпретации параметра а1 следует использовать коэффициент эластичности:

. (20)

Коэффициент эластичности показывает среднее изменение результативного признака при изменении факторного признака на 1% и вычисляется в% -ах.

Уравнение регрессионной зависимости является базой для расчета прогнозных значений результативного признака, стоящих за пределами изучаемого ряда. Для осуществления прогноза значений результативного признака по уравнению регрессии используют не дискретные (точечные), а интервальные оценки.

Средняя квадратическая ошибка уравнения регрессии дает возможность в каждом отдельном случае с определенной вероятностью указать, что величина результативного признака расположена в определенном интервале относительно значения, вычисленного по уравнению регрессии.

Зная дисперсию результативного показателя у и задаваясь уровнем доверительной вероятности, определяют доверительные границы прогнозного значения результативного признака упрогноз при значении факторного признака хо по формуле:

, (21)

где ухо - дискретная (точечная) оценка прогнозного значения результативного признака у, рассчитанная по уравнению регрессии, при заданном значении факторного признака хо;

t - критерий Стьюдента, который для линейной зависимости определяется в соответствии с уровнем значимости по распределению Стьюдента с k = n - 2 степенями свободы;

При практическом использовании уравнения регрессии следует помнить, что экстраполяция, т.е. нахождение прогнозируемых уровней за пределами изучаемого ряда, допускается только тогда, когда существенно не изменяются условия формирования уровней признаков, которые лежат в основе определения параметров уравнения регрессии. В противном случае использование уравнений для составления прогнозов должно быть отвергнуто.

Делись добром ;)