Анализ и прогноз величин, распределенных по закону Парето

курсовая работа

1.5 Методы обработки данных, имеющих распределения с тяжелыми хвостами, предложенные Малинецким Г.Г.

Один из общих подходов к обработке положительных величин, имеющих распределения с тяжелым хвостом, состоит в переходе от наблюдаемых величин xi к их логарифмам yi = ln xi. В случае степенного убывания хвостов с любым показателем степени величины yi уже будут иметь все статистические моменты и, таким образом, к ним можно применять стандартные методы статистической обработки. Следует отметить важный недостаток этого подхода. Если нас интересует суммарный эффект Sn, то переход к логарифмам не поможет, ибо связать поведение Sn и ln x1 + ln x2 +… + ln xn в общем случае очень трудно. Остановимся подробнее на важном частном случае, когда можно считать априори известным, что хвост распределения удовлетворительно описывается степенной зависимостью при x, превышающем некоторый также известный порог x0 (отметим, что для каждого типа природных и техногенных катастроф этот вопрос должен рассматриваться отдельно на основе известной статистики или результатов математического моделирования). При этом не обязательно, чтобы это приближение выполнялось для всего диапазона наблюдаемых значений, достаточно, чтобы оно выполнялось для хвоста распределения, т.е. при x > x0. Действительно, для распределений с тяжелыми хвостами основной вклад в суммарный эффект Sn вносят наибольшие наблюдения. Поэтому указанное пороговое ограничение не скажется заметно на оценке вероятностных характеристик сумм Sn при достаточно больших значениях n. После перенормировки на известное значение порога можно считать, что нормированные величины x/x0 имеют распределение Парето. Нужно только выбирать порог x0 так, чтобы осталось достаточное для оценки параметра число наблюдений выше этого порога. Практика показывает, что следует оставлять не менее 25_30 наибольших наблюдений. Оценка максимального правдоподобия для параметра имеет вид:

(1.22)

В качестве разброса этой оценки можно взять стандартное отклонение :

. (1.23)

Если для медианы максимального члена med mn использовать выражение (1.12) то в качестве оценки характерного значения суммы можно взять значение

, (1.24) где . (1.25)

Для распределения Парето математическое ожидание (1.25) можно вычислить точно:

, (1.26)

где через обозначена бета-функция. В табл.1.2 приведены величины Rn для некоторых значений и n.

Таблица 1.2 - Средние значения отношений Sn/mmax

Параметр

Объем выборки, n

10

20

50

100

2000

5000

1000

0,7

2,23

2,52

2,78

2,92

3,03

3,13

3,18

3,33

0,9

2,66

3,21

4,32

4,74

5,25

5,60

6,60

10,0

1,0

2,97

3,62

4,51

5, 19

5,88

6,79

7,49

1,5

5,84

7,36

9,98

12,58

15,85

21,51

27,10

Неизвестный параметр в (1.25), (1.26) необходимо заменить на его оценку . При этом погрешность такой замены можно проконтролировать, подставив в (1.25) и (1.26) значения . Оценку по формуле (1.24) можно использовать для предсказания будущих характерных значений суммарного эффекта Sn. Как было отмечено ранее эта оценка растет нелинейно с увеличением n. Поскольку величина n обычно пропорциональна интервалу времени наблюдения, то можно сказать, что суммарный эффект растет нелинейно со временем. Необходимо отметить, что, хотя среднее значение отношения Sn/mmax согласно (1.21) при n стремится к константе 1/ (1 - ) в случае < 1, дисперсия этого отношения не уменьшается до нуля; она также стремится к некоторой константе. Характерные значения сумм Sn растут согласно уравнению (1.24). Однако случайные отклонения весьма велики. Поэтому во многих прогноз суммарного эффекта целесообразней делать не в виде точечной оценки, а в виде доверительного интервала такого, что:

, (1.27)

где - задаваемое исследователем малое число, характеризующее уровень доверия. Можно дать следующую приближенную оценку для верхней доверительной границы:

. (1.28)

Оценка для нижней доверительной границы - соответственно:

. (1.29)

Таким образом в данном подразделе была рассмотрена методика расчета и прогноза теоретических значений суммы накопленных эффектов в зависимости от количества событий n при распределении таких эффектов по закону Парето с .

Делись добром ;)