logo
ниче неменяю всё есть

Множественная регрессия

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что

yi = b o + b 1xi1 + ... + k xik+  i , i = 1, ..., n,                                                     (12)

(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что

M i = 0, M  = 2,

                    M( i  j) = 0, i не равно j,                                                       (12a)

т.е.  i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:

Y = X +  ,                                                                        (13)

где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования,   = ( 0,  1, ...,  k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии,   = ( 1 , ...,  n)T - вектор случайных отклонений,

-матрица n x (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.

Оценка коэффициентов регрессии. Построим оценку   для вектора  так, чтобы вектор оценок   = Х  зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

 по  .

Решением является (если ранг матрицы Х равен k +1) оценка

 = (XTX)-1 XTY                                                                                (14)

Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна

D  = (  - b ) (  - b )T = s 2 (XTX)- 1 = s 2 Z ,                                             (15)

где обозначено Z = (XTX)- 1.

Справедлива

теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.

Оценка дисперсии  2 ошибок. Обозначим

e = Y -   = Y - Х  = [I - X (XTX)- 1 XT] Y = BY                                                       (16)

вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов   справедливо соотношение

M  = M (n - k -1)  2 ,

откуда следует, что несмещенной оценкой для  2 является

s2 =  .                                                                     (17)

Если предположить, что  i в (12) нормально распределены, то справедливы следующие свойства оценок:

1) (n - k - 1)   имеет распределение хи квадрат   с n-k-1 степенями свободы;

2) оценки  и s2 независимы.

Как и в случае простой регрессии, справедливо соотношение:

 или

Tss = Ess + Rss ,                                                                                      (18)

в векторном виде:

 ,

где   =  . Поделив обе части на полную вариацию игреков

Tss =  , получим коэффициент детерминации

R2 =                                                             (19)

Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием  . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации

                          (20)

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки   является величина   , оценка для которой

sj = j = 0, 1, ..., k,                                                                        (21)

где zjj - диагональный элемент матрицы Z. Если ошибки  i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

                                  (22)

распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство

 <= tp sj ,                                                                  (23)

где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для  j   с уровнем доверияРД.

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0:  1 =  2 = ... =  k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента  0 при константе, используется статистика

F =   =   =   ,                            (24)

распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если

F > F (k, n - k - 1),                                                                             (25)

где F - квантиль уровня 1 -  .

Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого   максимален

11. Сезонные колебания

Первая гармоника:

Вторая гармоника: ,

где параметры гармоники равны: ,

, а1=-219,65, а2=31,67;

, b1=-87,36, b2=34,64.

Задание: показать процесс выравнивания сезонных колебаний по ряду Фурье на условных месячных данных о численности персонала фирмы, связанной с переработкой сельскохозяйственной продукции.