logo
Методы машинного обучения для моделирования и прогнозирования финансовых временных рядов

1.3 Появление новых методов анализа информации

Мир XXI века можно охарактеризовать, как зарождающееся информационное общество - такое состояние мировой экономики и общества, при котором значительное место занимают процессы создания, хранения и обработки информации. Основным драйвером формирования информационного общества несомненно является глобализация. Именно глобализация, со всеми производными ей процессами, создает предпосылки для значительного увеличения информационных потоков и как следствие существенного увеличение генерируемой информации.

Мы не можем представить нашу жизнь без таких атрибутов современного человека, как социальных сетей, предоставляющих возможность поддерживать постоянную связь с сотнями людей по всему миру, новостных агрегаторов, поставляющих актуальную информацию, обо всем происходящем в мире, торговых терминалов, открывающих круглосуточный доступ к десяткам финансовых центров по всему миру. Информация окружает нас всюду. Согласно исследованию, проведенному командой Мартина Гилберта из Университета Южной Калифорнии США, объем хранимой в цифровом виде информации составляет фантастические 277,3 эксабайта (1018 байт). При этом, по расчетам ученых, на все время наблюдений (исследование проводилось по периоду с 1986 по 2007 год) скорость вычислений растет со среднегодовым темпом в 58%, количество передаваемой информации - с темпом в 28%, а объемы хранимой информации - в 23% в год.

Становится очевидным, что человечество имеет в своем распоряжение огромные объемы информации. Из этого возникает своевременный вопрос о возможности использования этого огромного объема ежедневно генерируемых данных. При первом взгляде на объект исследования перед учеными встал ряд проблем:

Анализируемые данные имеют объем, который стремится к бесконечности;

Данные являются разнородными (количественные, качественные, мультимедийные, текстовые и др.);

Результаты анализа должны быть выражены в простой и понятной человеку форме.

Именно такие предпосылки легли в основу направления DataMining - области информатики, зародившейся в конце 80-х. Формальным появлением этой области исследования можно считать семинар проведенный Грегорием Пятецким-Шапиро в 1989 году. Основной гипотезой данного направления является тезис о том, что данные могут иметь некие «скрытые данные». Характеристиками скрытых знаний (hidden knowledge) являются:

Новизна. Данные не должны подтверждать результаты, полученные другими более простыми методами;

Нетривиальность. Данные должны выявлять зависимости, которые не могут быть объяснены простыми причинно-следственными связями;

Практически-полезными. Данные должны иметь практическое приложение.

Говоря о «скрытых данных» нельзя обойти важнейшее для DataMiningа понятие шаблона (pattern). Вся современная технология построена на концепции шаблона, отражающейфрагменты многоаспектных связей в анализируемых данных. Шаблоны предоставляют собой закономерности, характерные для определенных наборов данных. Важной особенностью данного направления является то, что методы, используемые для поиска шаблонов, не предполагают априорной структуры данных, вида их взаимосвязей. Это позволяет использовать данные, не обладая глубокими предметными знаниями в области исследуемых данных.

Как уже было сказано ранее, нетривиальность шаблонов является одним из важнейших критериев поиска. Изыскиваемые регулярности в данных должны быть неожиданными (unexpected), раскрывая целый пласт глубинных данных. Именно это дало название области - раскопки данных (datamining).

Рисунок 1 Уровни знаний

Одним из важнейших приемов при поиске закономерностей в данных является обобщение. Именно эта задача, простая для человеческого ума, вызывает множество сложностей при реализации классическими методами моделирования. Основная проблема, что часто сложно, а иногда и невозможно выделить априорную структуру данных, что мешает построению адекватной модели.

Рисунок 2 Подходы к анализу данных

Для решения этой проблемы используются методы, способные работать с данными без предварительно обозначенной структуры данных. Класс таких методов принято объединять в понятии машинного обучения(machinelearning).Исходя из названия области можно понять, что особенностью является обучаемость алгоритмов - их способность выстроить собственную логику, на основе предоставляемых модельных данных. Существует два вида обучения - дедуктивное и индуктивное. Индуктивное, или обучение по прецедентам, представляет собой процесс выявления закономерностей в эмпирических данных. Для этого применяются два подхода: обучение с учителем и самообучение или спонтанное обучение. В работе будет сделан фокус на обучение с учителем.

Классификация методов обучения в machinelearning:

Индуктивное обучение - выявление взаимосвязей в исследуемых данных;

Обучение с учителем;

Обучение без учителя;

Дедуктивное обучение - формализация экспертных оценок.

Обучение с учителем. Один из самых распространенных методов обучения в машинном обучении. Формально задачу можно описать так: имеется массив объектов A, состоящее из признаков объекта (a1, a2,a3 …ai),и поле откликов B,состоящее из реакций на эти признаки (b1, b2, b3 … bi) Между объектами полей существует взаимосвязи l, характер взаимосвязей неизвестен, лишь известно о существовании отображения. Задачей обучения является восстановить взаимосвязи l, сформулировав модельную взаимосвязь , которая бы могла дать достаточно точно интерпретировать каждый объектобучающей выборки. Этот метод получил название минимизации эмпирического риска(empiricalriskminimization). Эмпирическим риском называют среднюю ошибку модели на обучающей выборке. ERM-метод самый широко применимый при построении обучающего алгоритма.

После процедуры построения модели на обучающей выборке, или как принято говорить в рамках области - «процесса обучения», необходимо оценить ее адекватность. Обычно для этого используется применение модели на данных, не входящих в обучающую выборку. В рамках этой проверки у исследователя есть возможность выявить такие важные характеристики модели, как коэффициент детерминации тестовой выборки, MSEи MAPE.

Рисунок 3

Одной из важнейших проблем, которые возникают при использовании ERM-метода, является проблема переобучения (overfitting). Переобучение - явление, характеризующееся высокой разницей в объясняющей способности модели на обучающей и тестовой выборке. Данное явление может быть объяснено следующими причинами:

В рамках построения (fitting) модели, были выявлены закономерности, характерные для обучающей выборки, но не выявленные в тестируемых данных;

При создании модели была проведена столь точная подгонка к обучающим данным, что это привело к ложной интерпретации случайной компоненты, как закономерности;

В рамках выбора алгоритма обучения была выбрана слишком сложная модель. Для любого моделирования существует оптимальная сложность модели, дающая минимальное переобучение.

Для иллюстрации(machinelearning, 2010) рассмотрим задачу аппроксимации функции . Тренировочными данными будут являться

50 наблюдений . В качестве модели будет использована полиномиальная модель . Для построения обучающей модели будет использован МНК . Варьируя степень полинома, то есть сложность модели, можно увидеть, что происходит с моделью.

Рисунок 4 Источник:machinelearning.ru

Рисунок 5 Источник: machinelearning.ru

Рисунок 6 Источник:machinelearning.ru

Рисунок 7 Источник:machinelearning.ru

Как видно из графика, при увеличении сложности модели сначала происходит увеличение эффективности. Но в какой-то момент усложнение начинает ухудшать качество модели, что и является отражением эффекта переобучения.

В рамках дисциплины был разработан ряд методов, позволяющих бороться с эффектом переобучения. Так широкое распространение приобрели следующие методы: перекрестная проверка (cross-validation), регуляризация (regularization), принудительная остановка алгоритма, априорная вероятность, уменьшение размерности и др.

Перекрестная проверка- метод оценки аналитической модели и ее поведения на независимых данных. При оценке модели имеющиеся в наличии данные разбиваются на k частей. Затем на k?1 частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется k раз; в итоге каждая из k частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных.(Википедия, 2013)

Регуляризация - метод, заключающийся в имплементации дополнительного условия с целью предотвращения переобучения, ограничения вычислительной сложности алгоритма и решении некорректно поставленных задач. Данное дополнительное условие, чаще всего принимает вид штрафа за сложность модели.

Уменьшение размерности - процедура уменьшающая количество объясняющих переменных. В рамках процедуры стоит задача классификации и ранжирования переменных по их влиянию на объясняющую способность алгоритма. В рамках задачи уменьшения размерности применяются такие методы, как метод главных компонент, исследование информационной энтропии, а также формы корреляционного анализа