logo
Контрольная

Проверка качества модели

Качество модели оценивается стандартным для математических моделей образом: по адекватности и точности на основе анализа ос­татков регрессии е. Расчетные значения получаются путем подста­новки в модель фактических значений всех включенных факторов.

Анализ остатков. Анализ остатков позволяет получить пред­ставление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности почти независимые), одинаково распределенные случайные величины. В классических методах рег­рессионного анализа предполагается нормальный закон распределе­ния остатков.

Исследование остатков полезно начинать с изучения их графика. Нередко встречаются ситуации, когда остатки содержат тенденцию или подвержены циклическим колебаниям. В этом случае говорят о наличии автокорреляции остатков. Иногда автокорреляция связана с исходными данными и вызвана наличием ошибок измерения резуль­тативного признака. В других случаях автокорреляция указывает на наличие какой-то достаточно сильной зависимости, неучтенной в модели. Скажем, при подборе простой линейной зависимости между Y и X график остатков может показать необходимость перехода к не­линейной модели (квадратичной, полиномиальной, экспоненциаль­ной) или включения в модель периодических компонент.

Существует два наиболее распространенных метода определения автокорреляции остатков. Первый метод - это построение графика зависимости остатков от времени и визуальное определение наличия или отсутствия автокорреляции. Второй метод - использование критерия Дарвина - Уотсона (Приложение В) и расчет величины

.

Таким образом, d есть отношение суммы квадратов разностей по­следовательных значений остатков к остаточной сумме квадратов по модели регрессии.

Коэффициент автокорреляции остатков определятся по формуле:

где

,

, .

Можно показать, что имеет место соотношение

d2*(1-)/

Если в остатках существует полная положительная автокорреля­ция и =1, тоd = 0. Если в остатках полная отрицательная автокор­реляция и = -1, тоd = 4.

Таким образом, величина d изменяется в пределах 0 d 4.

Алгоритм выявления автокорреляции остатков на основе крите­рия Дарбина - Уотсона следующий: выдвигается гипотеза Hо об от­сутствии автокорреляции остатков; альтернативные гипотезы Н1 и Н1* состоят соответственно в наличии положительной или отрица­тельной автокорреляции в остатках.

Далее по специальным таблицам (приложения А и Б) определя­ются критические значения критерия Дарбина - Уотсона dL и dU для заданного числа наблюдений п, числа независимых переменных мо­дели k и уровня значимости . По этим значениям числовой промежу­ток [0;4] разбивают на пять отрезков. Вопрос о принятии или откло­нении каждой из гипотез с вероятностью (1 - ) рассматривается в соответствии с рисунком 11

Рис. 11. Механизм проверки гипотезы о наличии автокорреляции остатков

Если фактическое значение критерия Дарбина - Уотсона попада­ет в зону неопределенности, то нельзя сделать окончательный вывод по этому критерию.

Выбросы. График остатков хорошо показывает и резко откло­няющиеся от модели наблюдения - выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие может грубо искажать значения оценок. Устранение эф­фектов выбросов может проводиться либо с помощью удаления этих точек из анализируемых данных (эта процедура называется цензури­рованием), либо с помощью применения методов оценивания пара­метров, устойчивых к подобным грубым отклонениям. Кроме рассмотренных выше характеристик, целесообразно ис­пользовать коэффициент множественной корреляции - индекс корре­ляции R, а также характеристики существенности модели в целом и отдельных ее коэффициентов

.

где TSS - общая сумма квадратов отклонений; ESS- сумма квадратов отклонений, объясненная регрессией.

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции.

Коэффициент множественной корреляции (индекс корреляции), возведенный в квадрат R2, называется коэффициентом детермина­ции. Он показывает долю вариации результативного признака, нахо­дящегося под воздействием изучаемых факторов, т.е. определяет, ка­кая доля вариации признака Y учтена в модели и обусловлена влияни­ем на него факторов.

В многофакторной регрессии добавление дополнительных объяс­няющих переменных увеличивает коэффициент детерминации. Сле­довательно, коэффициент детерминации должен быть скорректиро­ван с учетом числа независимых переменных. Скорректированный R2, или рассчитывается селе дующим образом:

,

где п - число наблюдения; к - число независимых переменных.

В качестве меры точности модели применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет со­бой отношение суммы квадратов уровней остаточной компоненты к величине (п-к-1), где k - количество факторов, включенных в мо­дель. Квадратный корень из этой величины называется стандартной ошибкой оценки.

Для проверки значимости модели регрессии используется F-критерий Фишера, фактическое значение которого вычисляется как отношение дисперсии исходного ряда и несмещенной дисперсии ос­таточной компоненты.

.

Если расчетное значение с v1 = (п -1) и v2 = (п- к-1) степенями свободы больше табличного при заданном уровне значимости, то мо­дель считается значимой.

Если существует k независимых переменных, то будет (k + 1) ко­эффициентов регрессии (включая постоянную), отсюда число степе­ней свободы составит (n – (к + 1)) или (n -k -1).

Целесообразно проанализировать также значимость отдельных коэффициентов регрессии. Это осуществляется по t-статистике путем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

,

где Sa - стандартное (среднее квадратическое) отклонение коэффи­циента уравнения регрессии аj.

Величина Saj определяется по формуле:

,

где bjj - диагональный элемент матрицы (XTХ)-1,

,

k - число факторов, включенных в модель.

Если расчетное значение t-критерия с (n -k-1) степенями сво­боды превосходит его табличное значение при заданном уровне зна­чимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует ис­ключить из модели (при этом ее качество не ухудшится).