logo
Анализ и планирование хозяйственной деятельности ОАО "Приморское агентство авиационных компаний"

3.2 Модель авторегрессии - проинтегрированного скользящего среднего

Процедуры оценки параметров и прогнозирования, описанные в предыдущем разделе, предполагают, что математическая модель процесса известна. В реальных данных часто нет отчетливо выраженных регулярных составляющих. Отдельные наблюдения содержат значительную ошибку, тогда как вы хотите не только выделить регулярные компоненты, но также построить прогноз. Методология АРПСС, разработанная Боксом и Дженкинсом (1976), позволяет это сделать. Данный метод чрезвычайно популярен во многих приложениях, и практика подтвердила его мощность и гибкость. Однако из-за мощности и гибкости, АРПСС - сложный метод. Его не так просто использовать, и требуется большая практика, чтобы овладеть им. Хотя часто он дает удовлетворительные результаты, они зависят от квалификации пользователя.

Большинство временных рядов содержат элементы, которые последовательно зависят друг от друга. Такую зависимость можно выразить следующим уравнением:

, (1)

где - константа (свободный член);

- параметры авторегрессии.

Вы видите, что каждое наблюдение есть сумма случайной компоненты (случайное воздействие, ) и линейной комбинации предыдущих наблюдений.

Заметим, что процесс авторегрессии будет стационарным только, если его параметры лежат в определенном диапазоне. Например, если имеется только один параметр, то он должен находиться в интервале . В противном случае, предыдущие значения будут накапливаться и значения последующих могут быть неограниченными, следовательно, ряд не будет стационарным. Если имеется несколько параметров авторегрессии, то можно определить аналогичные условия, обеспечивающие стационарность.

В отличие от процесса авторегрессии, в процессе скользящего среднего каждый элемент ряда подвержен суммарному воздействию предыдущих ошибок. В общем виде это можно записать следующим образом

, (2)

где - константа;

- параметры скользящего среднего.

Другими словами, текущее наблюдение ряда представляет собой сумму случайной компоненты (случайное воздействие, ) в данный момент и линейной комбинации случайных воздействий в предыдущие моменты времени.

Не вдаваясь в детали, отметим, что существует "двойственность" между процессами скользящего среднего и авторегрессии. Это означает, что приведенное выше уравнение скользящего среднего можно переписать (обратить) в виде уравнения авторегрессии (неограниченного порядка), и наоборот. Это так называемое свойство обратимости. Имеются условия, аналогичные приведенным выше условиям стационарности, обеспечивающие обратимость модели.

Модель авторегрессии и скользящего среднего. Общая модель, предложенная Боксом и Дженкинсом включает как параметры авторегрессии, так и параметры скользящего среднего. Именно, имеется три типа параметров модели: параметры авторегрессии (обозначение ), порядок разности (обозначение ), параметры скользящего среднего (обозначение ). В обозначениях Бокса и Дженкинса модель записывается как АРПСС (). Например, модель (0, 1, 2) содержит 0 (нуль) параметров авторегрессии и 2 параметра скользящего среднего, которые вычисляются для ряда после взятия разности с лагом 1.

Как отмечено ранее, для модели АРПСС необходимо, чтобы ряд был стационарным, это означает, что его среднее постоянно, а выборочные дисперсия и автокорреляция не меняются во времени. Поэтому обычно необходимо брать разности ряда до тех пор, пока он не станет стационарным (часто также применяют логарифмическое преобразование для стабилизации дисперсии). Число разностей, которые были взяты, чтобы достичь стационарности, определяются параметром . Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и автокоррелограмму. Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка (лаг = 1). Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности. Если имеется медленное убывание выборочных коэффициентов автокорреляции в зависимости от лага, обычно берут разность первого порядка. Однако следует помнить, что для некоторых временных рядов нужно брать разности небольшого порядка или вовсе не брать их. Заметим, что чрезмерное количество взятых разностей приводит к менее стабильным оценкам коэффициентов.

На этом этапе (который обычно называют идентификацией порядка модели) вы также должны решить, как много параметров авторегрессии () и скользящего среднего () должно присутствовать в эффективной и экономной модели процесса. (Экономность модели означает, что в ней имеется наименьшее число параметров и наибольшее число степеней свободы среди всех моделей, которые подгоняются к данным). На практике очень редко бывает, что число параметров или больше 2.

Следующий, после идентификации, шаг (оценивание) состоит в оценивании параметров модели (для чего используются процедуры минимизации функции потерь). Полученные оценки параметров используются на последнем этапе (прогноз) для того, чтобы вычислить новые значения ряда и построить доверительный интервал для прогноза. Процесс оценивания проводится по преобразованным данным (подвергнутым применению разностного оператора). До построения прогноза нужно выполнить обратную операцию (интегрировать данные). Таким образом, прогноз методологии будет сравниваться с соответствующими исходными данными. На интегрирование данных указывает буква П в общем названии модели (АРПСС - Авторегрессионное Проинтегрированное Скользящее Среднее).

Дополнительно модели АРПСС могут содержать константу, интерпретация которой зависит от подгоняемой модели. Именно, если в модели нет параметров авторегрессии, то константа есть среднее значение ряда, если параметры авторегрессии имеются, то константа представляет собой свободный член. Если бралась разность ряда, то константа представляет собой среднее или свободный член преобразованного ряда. Например, если бралась первая разность (разность первого порядка), а параметров авторегрессии в модели нет, то константа представляет собой среднее значение преобразованного ряда и, следовательно, коэффициент наклона линейного тренда исходного.

Конечно, до того, как начать оценивание, вам необходимо решить, какой тип модели будет подбираться к данным, и какое количество параметров присутствует в модели, иными словами, нужно идентифицировать модель АРПСС. Основными инструментами идентификации порядка модели являются графики, автокорреляционная функция (АКФ), частная автокорреляционная функция (ЧАКФ). Это решение не является простым и требуется основательно поэкспериментировать с альтернативными моделями. Тем не менее, большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать одной из 5 основных моделей, которые можно идентифицировать по виду автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ). Ниже дается список этих моделей:

а) один параметр (): АКФ - экспоненциально убывает; ЧАКФ - имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах;

б) два параметра авторегрессии (): АКФ имеет форму синусоиды или экспоненциально убывает; ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах;

в) один параметр скользящего среднего (): АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах. ЧАКФ экспоненциально убывает;

д) два параметра скользящего среднего (): АКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах. ЧАКФ имеет форму синусоиды или экспоненциально убывает;

е) один параметр авторегрессии () и один параметр скользящего среднего (): АКФ экспоненциально убывает с лага 1; ЧАКФ - экспоненциально убывает с лага 1.

Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ряды, в которых имеется периодическая сезонная компонента. В дополнении к несезонным параметрам, в модель вводятся сезонные параметры для определенного лага (устанавливаемого на этапе идентификации порядка модели). Аналогично параметрам простой модели АРПСС, эти параметры называются: сезонная авторегрессия (), сезонная разность () и сезонное скользящее среднее (). Таким образом, полная сезонная АРПСС может быть записана как АРПСС ()(). Например, модель (0,1,2)(0,1,1) включает 0 регулярных параметров авторегрессии, 2 регулярных параметра скользящего среднего и 1 параметр сезонного скользящего среднего. Эти параметры вычисляются для рядов, получаемых после взятия одной разности с лагом 1 и далее сезонной разности. Сезонный лаг, используемый для сезонных параметров, определяется на этапе идентификации порядка модели.

Общие рекомендации относительно выбора обычных параметров (с помощью АКФ и ЧАКФ) полностью применимы к сезонным моделям. Основное отличие состоит в том, что в сезонных рядах АКФ и ЧАКФ имеют существенные значения на лагах, кратных сезонному лагу (в дополнении к характерному поведению этих функций, описывающих регулярную (несезонную) компоненту АРПСС).

Существуют различные методы оценивания параметров, которые дают очень похожие оценки, но для данной модели одни оценки могут быть более эффективны, а другие менее эффективны. В общем, во время оценивания порядка модели используется так называемый квазиньютоновский алгоритм максимизации правдоподобия (вероятности) наблюдения значений ряда по значениям параметров. Практически это требует вычисления (условных) сумм квадратов () остатков модели. Имеются различные способы вычисления суммы квадратов остатков ; вы можете выбрать: приближенный метод максимального правдоподобия МакЛеода и Сейлза, приближенный метод максимального правдоподобия с итерациями назад, точный метод максимального правдоподобия по Meларду.

В общем, все методы дают очень похожие результаты. Также все методы показали примерно одинаковую эффективность на реальных данных. Однако метод первый - самый быстрый, и им можно пользоваться для исследования очень длинных рядов (например, содержащих более 30000 наблюдений). Метод Меларда может оказаться неэффективным, если оцениваются параметры сезонной модели с большим сезонным лагом (например, 365 дней). С другой стороны, вы можете использовать вначале приближенный метод максимального правдоподобия (для того, чтобы найти прикидочные оценки параметров), а затем точный метод; обычно требуется только несколько итераций точного метода, чтобы получить окончательные оценки.

Для всех оценок параметров вычисляются так называемые асимптотические стандартные ошибки, для вычисления которых используется матрица частных производных второго порядка, аппроксимируемая конечными разностями.

Процедура оценивания минимизирует (условную) сумму квадратов остатков модели. Если модель не является адекватной, может случиться так, что оценки параметров на каком-то шаге станут неприемлемыми - очень большими (например, не удовлетворяют условию стационарности). В таком случае, будет приписано очень большое значение (штрафное значение). Обычно это "заставляет" итерационный процесс удалить параметры из недопустимой области. Однако в некоторых случаях и эта стратегия может оказаться неудачной, и вы все равно увидите на экране (во время процедуры оценивания) очень большие значения на серии итераций. В таких случаях следует с осторожностью оценивать пригодность модели. Если модель содержит много параметров и, возможно, имеется интервенция, то следует несколько раз испытать процесс оценивания с различными начальными. Если модель содержит много параметров и, возможно, интервенцию, вам следует повторить процедуру с различными начальными значениями параметров.

Если значения вычисляемой статистики не значимы, соответствующие параметры в большинстве случаев удаляются из модели без ущерба подгонки.

Другой обычной мерой надежности модели является сравнение прогноза, построенного по урезанному ряду с "известными (исходными) данными".

Однако качественная модель должна не только давать достаточно точный прогноз, но быть экономной и иметь независимые остатки, содержащие только шум без систематических компонент (в частности, АКФ остатков не должна иметь какой-либо периодичности). Поэтому необходим всесторонний анализ остатков. Хорошей проверкой модели являются: график остатков и изучение их трендов, проверка АКФ остатков (на графике АКФ обычно отчетливо видна периодичность).

Если остатки систематически распределены (например, отрицательны в первой части ряда и примерно равны нуля во второй) или включают некоторую периодическую компоненту, то это свидетельствует о неадекватности модели. Анализ остатков чрезвычайно важен и необходим при анализе временных рядов. Процедура оценивания предполагает, что остатки не коррелированны и нормально распределены.

Следует напомнить, что модель АРПСС является подходящей только для рядов, которые являются стационарными (среднее, дисперсия и автокорреляция примерно постоянны во времени); для нестационарных рядов следует брать разности. Рекомендуется иметь, как минимум, 50 наблюдений в файле исходных данных. Также предполагается, что параметры модели постоянны, т.е. не меняются во времени.

Существуют две основные цели анализа временных рядов: (1) определение природы ряда и (2) прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, появляется возможность с ее помощью интерпретировать рассматриваемые данные (например, использовать в теории для понимания сезонного изменения выручки). Не обращая внимания на глубину понимания и справедливость теории, возможно, экстраполировать затем ряд на основе найденной модели, т.е. предсказать его будущие значения.