Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что
yi = b o + b 1xi1 + ... + b k xik+ i , i = 1, ..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M i = 0, M = 2,
M( i j) = 0, i не равно j, (12a)
т.е. i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:
Y = X + , (13)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, = ( 0, 1, ..., k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, = ( 1 , ..., n)T - вектор случайных отклонений,
-матрица n x (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора так, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
по .
Решением является (если ранг матрицы Х равен k +1) оценка
= (XTX)-1 XTY (14)
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = ( - b ) ( - b )T = s 2 (XTX)- 1 = s 2 Z , (15)
где обозначено Z = (XTX)- 1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии 2 ошибок. Обозначим
e = Y - = Y - Х = [I - X (XTX)- 1 XT] Y = BY (16)
вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов справедливо соотношение
M = M (n - k -1) 2 ,
откуда следует, что несмещенной оценкой для 2 является
s2 = . (17)
Если предположить, что i в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат с n-k-1 степенями свободы;
2) оценки и s2 независимы.
Как и в случае простой регрессии, справедливо соотношение:
или
Tss = Ess + Rss , (18)
в векторном виде:
,
где = . Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
R2 = (19)
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
(20)
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой
sj = , j = 0, 1, ..., k, (21)
где zjj - диагональный элемент матрицы Z. Если ошибки i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
(22)
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
<= tp sj , (23)
где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для j с уровнем доверияРД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: 1 = 2 = ... = k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента 0 при константе, используется статистика
F = = = , (24)
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > F (k, n - k - 1), (25)
где F - квантиль уровня 1 - .
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален
11. Сезонные колебания
Первая гармоника:
Вторая гармоника: ,
где параметры гармоники равны: ,
, а1=-219,65, а2=31,67;
, b1=-87,36, b2=34,64.
Задание: показать процесс выравнивания сезонных колебаний по ряду Фурье на условных месячных данных о численности персонала фирмы, связанной с переработкой сельскохозяйственной продукции.
- Парная регрессия
- Линейные и нелинейные модели регрессии
- Определение параметров в моделях парной регрессии
- Линейный коэффициент корреляции
- Критерий Стьюдента (t-критерий)
- А) случай независимых выборок
- Случай связанных (парных) выборок
- Множественная регрессия
- Изучение сезонных колебаний
- Логит и пробит модели
- Основные стадии экспертного опроса
- 1.3 Модель адаптивных ожиданий
- 1.4 Модель исправления ошибок
- 5.4.МетодМонте-Карло(методстатистическихиспытаний).
- Портфель Марковица минимального риска