Пример выполнения задания с помощью пакета анализа Excel
Пакет анализа - это надстройка Excel, которая представляет широкие возможности для проведения статистического анализа. Установка средств Пакет анализа
В стандартной конфигурации программы Excel вы не найдете средства Пакет анализа. Это средство надо установить в качестве надстройки Excel. Для этого выполните следующие действия:
Выберите команду Сервис => Надстройки.
В диалоговом окне Надстройки (рис. 12) установите флажок Пакет анализа.
Щелкните по кнопке ОК.
В результате выполненных действий в нижней части меню Сервис появится новая команда Анализ данных. Эта команда предоставляет доступ к средствам анализа, которые есть в Excel.
Рис. 12. Диалоговое окно Надстройки
Продемонстрируем возможности Пакета программ на следующем примере.
Пример
Построим модель объема реализации одного из продуктов фирмы.
Объем реализации - это зависимая переменная Y. В качестве независимых, объясняющих переменных выбраны:
Х1 - время,
Х2 - расходы на материал,
Х3 - цена изделия,
Х4 - средняя цена по отрасли,
X5 - индекс расходов.
Статистические данные по всем переменным приведены в табл. 5.
В рассматриваемом примере число наблюдений п = 16, факторных признаков т = 5.
Таблица 5
Y | X1 | Х2 | Х3 | Х4 | Х5 |
126 | 1 | 4 | 15 | 17 | 100 |
137 | 2 | 4,8 | 14,8 | 17,3 | 98,4 |
148 | 3 | 3,8 | 15,2 | 16,8 | 101,2 |
191 | 4 | 8,7 | 15,5 | 16,2 | 103,5 |
274 | 5 | 8,2 | 15,5 | 16 | 104,1 |
370 | 6 | 9,7 | 16 | 18 | 107 |
432 | 7 | 14,7 | 18,1 | 20,2 | 107,4 |
445 | 8 | 18,7 | 13 | 15,8 | 108,5 |
367 | 9 | 19,8 | 15,8 | 18,2 | 108,3 |
367 | 10 | 10,6 | 16,9 | 16,8 | 109,2 |
321 | 11 | 8,6 | 16,3 | 17 | 110,1 |
307 | 12 | 6,5 | 16,1 | 18,3 | 110,7 |
331 | 13 | 12,6 | 15,4 | 16,4 | 110,3 |
345 | 14 | 6,5 | 15,7 | 16,2 | 111,8 |
364 | 15 | 5,8 | 16 | 17,7 | 112,3 |
384 | 16 | 5,7 | 15,1 | 16,2 | 112,9 |
Использование инструмента Корреляция
Для проведения корреляционного анализа нужно выполнить следующие действия:
1) расположить данные в смежных диапазонах ячеек;
2) выбрать команду Сервис => Анализ данных (рис. 13). Появится диалоговое окно Анализ данных (рис. 14);
Рис.13. Выбор команды Анализ данных
3)в диалоговом окне Анализ данных выбрать инструмент Корреляция (рис.14), щелкнуть по кнопке ОК. Появится диалоговое окно Корреляция (рис.15);
Рис.14. Выбор команды Анализ данных
4)в диалоговом окне Корреляция в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если также выделены заголовки столбцов, то установить флажок «Метки в первой строке» (рис.15);
5) выбрать параметры вывода. В данном примере - установить переключатель «Новый рабочий лист»;
6) щелкнуть по кнопке ОК.
Рис.15. Диалоговое окно Корреляция
На новом рабочем листе получаем результаты вычислений- таблицу значений коэффициентов парной корреляции(рис.16).
Рис.16. Результаты корреляционного анализа
Выбор вида модели
Анализ матрицы коэффициентов парной корреляции показывает, что зависимая переменная, т.е. объем реализации, имеет тесную связь:
- с индексом расходов ryX5 =0,816,
с расходами наматериал ryX2 = 0,646,
со временем ryX1 = 0,678.
Однако факторы Х1 и Х5 тесно связаны между собой : rX1X5=0,96,
что свидетельствует о наличии коллинеарости. Из этих двух переменных оставим в модели Х5 - индекс расходов. Переменные X1 (время), X3 (цена изделия) и Х4 (цена отрасли) также исключаем из модели, т.к. связь их с результативным признаком Y (объемом реализации) невысокая.
После исключения незначимых факторов имеем п=16,k = 2. Модель приобретает вид:
= ао+а1Х2+а2Х5.
Оценка параметров модели
На основе метода наименьших квадратов проведем оценку параметров регрессии по формуле (3). При этом используем данные, приведенные в табл.6.
Таблица 6
Y | Х0 | X2 | X5 |
Объем реал. |
| Реклама | Инд. п.расх. |
126 | 1 | 4 | 100 |
137 | 1 | 4,8 | 98,4 |
148 | 1 | 3,8 | 101,2 |
191 | 1 | 8,7 | 103,5 |
274 | 1 | 8,2 | 104,1 |
370 | 1 | 9,7 | 107 |
432 | 1 | 14,7 | 107,4 |
445 | 1 | 18,7 | 108,5 |
367 | 1 | 19,8 | 108,3 |
367 | 1 | 10,6 | 109,2 |
321 | 1 | 8,6 | 110,1 |
307 | 1 | 6,5 | 110,7 |
331 | 1 | 12,6 | 110,3 |
345 | 1 | 6,5 | 111,8 |
364 | 1 | 5,8 | 112,3 |
384 | 1 | 5,7 | 112,9 |
Непосредственное вычисление (вычисление «вручную») вектора оценок параметров регрессии а согласно формуле (3) весьма громоздко, т.к. матрица независимых переменных X имеет довольно высокую размерность (16 х 3), матрица Y- размерности (16 х 1). В табл. 7 приведены размерности матриц - результатов промежуточных действий.
Таблица 7
XT | (3 х 16) |
ХTХ | (3x3) |
(XTX)-1 | (3x3) |
(ХTХ)-1ХT | (3 х 16) |
(ХTX)-1ХTY | (3x1) |
Задача существенно упрощается при использовании средств Excel. Операции, предписанные формулой (3) целесообразно проводить с помощью следующих встроенных в Excel функций:
•МУМНОЖ - умножение матриц,
•ТРАНСП - транспонирование матриц,
•МОБР - вычисление обратной матрицы.
Для вычисления вектора оценок параметров регрессии а в Excel необходимо выполнить следующие действия:
Ввести данные (табл. 6).
Выделить диапазон ячеек для записи вектора а, соответствующий его размерности (3x1) (рис. 16).
Используя встроенные в Excel функции, ввести формулу (3), определяющую вектор а.
Нажать одновременно клавиши CTRL + SHIFT + ENTER. Появится результат (рис. 17).
Таким образом, имеем
Рис. 16. Выделение диапазона ячеек (3 х 1) для записи вектора оценок параметров регрессии а
Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в виде:
= -1471,3143 + 9,5684*Х2+15,7529*Х5.
Рис. 17. Результат вычислений - вектор оценок параметров регрессии а
Расчетные значения Y определяются путем последовательной подстановки в эту модель значений факторов, взятых для каждого момента времени t.
Применение инструмента Регрессия
Для проведения регрессионного анализа с помощью Excel выполните следующие действия:
выберите команду Сервис => Анализ данных;
в диалоговом окне Анализ данных выберите инструмент Регрессия. Щелкните по кнопке ОК;
в диалоговом окне Регрессия в поле «Входной интервал F» введите адрес диапазона ячеек, который представляет зависимую переменную Y. В поле «Входной интервал X» введите адреса одного или нескольких диапазонов, которые содержат значения независимых переменных (в рассматриваемом примере - переменные Х2, Х5). Если выделены заголовки столбцов, то установить флажок «Метки в первой строке»;
выберите параметры вывода. В данном примере – установите переключатель «Новая рабочая книга»;
в поле «Остатки» поставьте необходимые флажки;
щелкните по кнопки ОК.
Результаты представлены на рис. 18 и заключены в таблицах.
Пояснения к таблице «Регрессионная статистика» (рис. 18)
Регрессионная статистика | ||
Наименования в отчете Excel | Принятые наименования | Формула |
Множественный R | Коэффициент множественной корреляции, индекс корреляции | |
R - квадрат
| Коэффициент детерминации, R2 | |
Нормированный R2 | Скорректированный R2 | |
Стандартная ошибка | Стандартная ошибка оценки | |
Наблюдения | Количество наблюдений, п | п |
Рис. 18. Результаты регрессионного анализа, проведенного с помощью Excel
Пояснения к таблице «Дисперсионный анализ» (рис. 18)
| Df - число степеней свободы | SS -сумма квадратов | MS | F-критерий Фишера |
Регрессия
| k
| |||
Остаток | n-k-1 |
| ||
Итого | n-1 |
|
|
|
Во втором столбце таблицы дисперсионного анализа (рис. 18) содержатся коэффициенты уравнения регрессии а0, а1 а2, в третьем столбце содержатся стандартные ошибки коэффициентов уравнения регрессии, в четвертом - F-статистика, используемая для проверки значимости коэффициентов уравнения регрессии.
Рис.19. График остатков
Оценка качества модели
В таблице «Вывод остатка» (рис. 18) приведены вычисленные по модели значения и значения остаточной компоненты е.
Исследование на наличие автокорреляции остатков проведем с помощью d-критерия Дарбина - Уотсона. Для определения величины d-критерия воспользуемся расчетной таблицей 7.
Имеем:
.
В качестве критических табличных уровней при п = 16, двух объясняющих факторах при уровне значимости = 0,05 возьмем величины вdL = 0,98 и dU=1,54 (приложения А и Б). Расчетное значение d = 1,3567 попало в интервал от dL= 0,98 до dU =1,54 (рис.20)
Таблица 7
Набл. | Y | Предск.Y | (Y-Yср)2 | ||||
1 | 126 | 142,2467 | -16,2467 | 263,9565 |
|
| 32693,1602 |
2 | 137 | 124,6969 | 12,3031 | 151,3670 | 815,0949 | -199,8857 | 28836,2852 |
3 | 148 | 159,2365 | -11,2365 | 126,2590 | 554,1143 | -138,2442 | 25221,4102 |
4 | 191 | 242,3533 | -51,3533 | 2637,1658 | 1609,3607 | 577,0321 | 13412,5352 |
5 | 274 | 247,0209 | 26,9791 | 727,8740 | 6135,9778 | -1385,469 | 1076,6602 |
6 | 370 | 307,0568 | 62,9432 | 3961,8444 | 1293,4125 | 1698,153 | 3992,6602 |
7 | 432 | 361,2000 | 70,8000 | 5012,6351 | 61,7290 | 4456,375 | 15671,9102 |
8 | 445 | 416,8019 | 28,1981 | 795,1356 | 1814,9148 | 1996,428 | 19095,7852 |
9 | 367 | 424,1765 | -57,1765 | 3269,1558 | 7288,8361 | -1612,272 | 3622,5352 |
10 | 367 | 350,3247 | 16,6753 | 278,0653 | 5454,0914 | -953,4352 | 3622,5352 |
11 | 321 | 345,3655 | -24,3655 | 593,6761 | 1684,3439 | -406,3013 | 201,2852 |
12 | 307 | 334,7235 | -27,7235 | 768,5939 | 11,2765 | 675,4967 | 0,0352 |
13 | 331 | 386,7897 | -55,7897 | 3112,4907 | 787,7102 | 1546,687 | 585,0352 |
14 | 345 | 352,0517 | -7,0517 | 49,7263 | 2375,3939 | 393,4115 | 1458,2852 |
15 | 364 | 353,2302 | 10,7698 | 115,9879 | 317,6042 | -75,94502 | 3270,4102 |
16 | 384 | 361,7251 | 22,2749 | 496,1704 | 132,3677 | 239,8953 | 5957,9102 |
4909 | 4909,0000 | 0,0000 | 22360,1037 | 30336,2280 | 6811,9263 | 158718,4375 |
Рис. 20. Сравнение расчетного значения d-критерия Дарбина -Уотсона с критическими значениями вdL и dU
Так как расчетное значение d-критерия Дарбина-Уотсона попало в зону неопределенности, то нельзя сделать окончательный вывод об автокорреляции остатков по этому критерию.
Для определения степени автокорреляции вычислим коэффициент автокорреляции и проверим его значимость при помощи критерия стандартной ошибки. Стандартная ошибка коэффициента корреляции рассчитывается по формуле:
Коэффициенты автокорреляции случайных данных должны обладать выборочным распределением, приближающимся к нормальному с нулевым математическим ожиданием и средним квадратическим отклонением, равным
Если коэффициент автокорреляции первого порядка r1 находится в интервале
-1,96 * 0,25 < r1 < 1,96* 0,25,
то можно считать, что данные не показывают наличие автокорреляции первого порядка.
Используя расчетную таблицу 7, получаем:
.
Так как -0,49 < r1 =0,3046 < 0,49, то свойство независимости остатков выполняется.
Вычислим для построенной модели множественный коэффициент детерминации
.
Множественный коэффициент детерминации показывает долю вариации результативного признака под воздействием включенных в модель факторов Х2 и Х5. Т.о., около 86 % вариации зависимой переменной (объема реализации) в построенной модели обусловлено влиянием включенных факторов Х2 (расходы на рекламу) и Х5 (индекс потребительских расходов).
Проверку значимости уравнения регрессии проведем на основе F-критерия Фишера
.
Табличное значение F-критерия при доверительной вероятности 0,95, степенями свободы 1=k=2 и 2=(n-k-1)=16-2-1=13 составляет Fтабл=3,8.
Поскольку
Fфакт=39б599 Fтабл=3,8,
то уравнение регрессии следует признать адекватным.
Значимость коэффициентов уравнения регрессии а1 и а2 оценим с использованием t-критерия Стьюдента:
ta1=a1/Sa1=9,5684/2,2659=4,2227,
ta2=a2/Sa2=15,7529/2,4669=6,3857.
Табличное значение t-критерия Стьюдента при уровне значимости 0,05 и степенях свободы (16-2-1) = 13 составляет tma6n =2,16. Так как
ta1=4,2227 tma6n =2,16,
ta2=6,3857 tma6n =2,16.
то отвергаем гипотезу о незначимости коэффициентов уравнения регрессии а1 и а2.
Влияние факторов на зависимую переменную
Проанализируем влияние включенных в модель факторов на зависимую переменную по модели. Учитывая, что коэффициенты регрессии невозможно использовать для непосредственной оценки влияния факторов на зависимую переменную из-за различия единиц измерения, вычислим соответствующие коэффициенты эластичности, -коэффициенты:
,
,
,
.
Таким образом, при увеличении расходов на материл на 1 % величина объема реализации изменится приблизительно на 0,3 %, при увеличении расходов на 1 % величина объема реализации изменится на 5,5 %.
Кроме того, при увеличении затрат на материалы на 4,9129 ед. объем реализации увеличится на 47 тыс. руб. (0,4569*102,865147), при увеличении расходов на 4,5128 ед. объем реализации увеличится на 71 ед. (0,6911*102,865171).
Точечное и интервальное прогнозирование
Найдем точечные и интервальные прогнозные оценки объема реализации на два квартала вперед.
Для построения прогноза результативного признака Y и оценок прогноза необходимо определить прогнозные значения, включенных в модель факторов Х2 и Х5. В п. 1.3 на рис. 10 приведен результат построения тренда и прогнозирования по тренду для временного ряда «Индекс расходов».
В качестве аппроксимирующей функции выбран полином второй степени - парабола:
Х5 = 97,008 + 1,739 t - 0,0488 t2,
по которой построен прогноз на два шага вперед, причем прогнозные значения на 17-ый и 18-ый периоды соответственно составляют:
Х5(17) = 97,008+1,739*17-0,0488*172= 112,4678,
Х5(18) = 97,008 +1,739*18-0,0488* 182= 112,4988.
Описанным выше способом (п. 1.3) построим линию тренда для временного ряда «Расходы на материалы» (рис. 20).
Рис. 20. Результат построения тренда и прогнозирования по тренду для временного ряда «Расходы на материал»
Для фактора Х2 «затраты на материал» выбираем полиномиальную модель пятой степени (этой модели соответствует наибольшее значение коэффициента детерминации):
Х2= -0,00055157*t5 + 0,02915029*t4 - 0,55145744 *t3 + 4,31897327*t2 - 11,61564797*t + 12,83076923.
Замечание. Полиномы высоких порядков редко используются при прогнозировании экономических показателей. В этом случае при вычислении прогнозных оценок коэффициентов модели необходимо учитывать большое число знаков после запятой.
Прогнозные значения на 17-ый и 18-ый периоды соответственно составляют:
Х2(17) = 5,7485,
Х2(18) = 4,8485.
Для получения прогнозных оценок переменной 7 по модели
=-1471,3143 + 9,5684*X2+15,7529*X5
подставим в нее найденные прогнозные значения факторов Х2 и Х5, получим:
(17) =-1471,3143 + 9,5684*5,7485 + 15,7529*112,4678 = 355,3805,
(18) = -1471,3143 + 9,5684*4,8485 + 15,7529*112,4988 = 347,2573.
Доверительный интервал прогноза имеет границы:
верхняя граница прогноза: (n+l) + U(l),
нижняя граница прогноза: (n+l) - U(l),
где
, Vпр=XпрT(XTX)-1Xпр.
Имеем
,
tкр=2,16 (по таблице при =0,05 и числе степеней свободы 13),
, .
Тогда с использованием Excel , имеем
Vпр(17)=XпрT(XTX)-1Xпр=0,2300,
U(1)=41,473*2,16*=42,9714
и
Vпр(18)=XпрT(XTX)-1Xпр=0,2613,
U(2)=41,473*2,16*=45,7964.
Результаты прогнозных оценок модели регрессии представим в таблице прогнозов (табл. 8).
Таблица 8
Упреждение | Прогноз | Нижняя граница | Верхняя граница |
1 | 355,3805 | 312,4091 | 398,3520 |
2 | 347,2573 | 301,4609 | 393,0537 |
- Решение задач корреляционного и регрессионного анализа временных моделей
- Брянск 2007
- Содержание
- Введение
- Элементы анализа и прогнозирования временных рядов
- Основные понятия и определения
- Анализ временных рядов
- Построение линий тренда
- Технология решения задач корреляционного и регрессионного анализа временных моделей
- Построение системы показателей
- Выбор вида модели и оценка ее параметров
- Проверка качества модели
- Оценка на основе модели влияния отдельных факторов на зависимую переменную
- Использование многофакторных моделей для анализа и прогнозирования развития технических систем
- Пример выполнения задания с помощью пакета анализа Excel
- Варианты заданий контрольной работы № 2
- Литература
- Приложение а
- Приложение б
- Приложение в