Анализ и прогнозирование временных рядов
Опубликованно 17.02.2020 14:45
На протяжении многих лет люди предсказывают погоду, экономические и политические события и спортивные результаты в последние годы, этот обширный список пополнился криптовалюты. Прогнозы для различных событий, есть много способов разработки прогнозов. Например, интуиции, экспертных заключений, используя последние результаты, чтобы сравнить с традиционной статистики и прогнозирования временных рядов, является только одним из них, с помощью самых современных и точных прогнозов с широким спектром применения. Метод временных рядов
Метод с использованием временных рядов (ТС) - это набор данных, который собирает информацию в течение определенного периода времени. Есть специальные методы для выделения этого типа: линейные и нелинейные; параметрические и непараметрические; однофакторный и многофакторный.
Прогнозирование временных рядов приносит с собой уникальный набор возможностей для решения современных проблем. Моделирование на основе проведенного исследования для установления движущей силой изменения данных. Процесс долгосрочных тенденций, сезонных эффектов или нерегулярные осцилляции, характерные для ТС, и не наблюдается при других видах анализа.
Машинное обучение-это область компьютерной науки, где алгоритмы на основе данных, и включают в себя искусственные нейронные сети глубинного обучения, ассоциативных правил, деревьев решений, обучение с подкреплением и байесовские сети. Различные алгоритмы обеспечивают решение проблем, и каждая имеет свои требования и ставит под угрозу ввод данных скорости и точности результатов. Они, наряду с точностью окончательные прогнозы будут приостановлены, когда пользователь решает, какой алгоритм будет работать лучше для вашего изучения ситуации.
Прогнозирование временных рядов заимствует из области статистики, а также предлагает новые подходы для решения задач моделирования. Основная проблема машинного обучения и временных рядов один и тот же - предсказать новые результаты, основанные на ранее известных данных. Цель прогностической модели
ТС-это набор точек данных, собранных через постоянные промежутки времени. Они будут проанализированы, чтобы определить долгосрочные тенденции, предсказывать будущее или выполнять любой другой вид анализа. Есть 2 вещи, которые отличают TS от обычной задачи регрессии: Они зависят от времени. Таким образом, основное допущение модели линейной регрессии заключается в том, что наблюдения являются независимыми, в этом случае не производится. Наряду с тенденцией к увеличению или снижению, большинство ТС имеют некоторую сезонность, т. е. изменения, характерные для определенного периода времени.
Целью модели прогнозирования временных рядов для прогнозирования по запросу. Временной ряд имеет времени (t) в качестве независимой переменной и целевой зависимой переменной. В большинстве случаев прогноз является конкретный результат, например, стоимость дома при продаже, спортивным результатом конкурса, по результатам торгов на бирже. Прогноз представляет медиану и среднее значение и включает в себя доверительный интервал выражает уровень адвоката в диапазоне 80-95 %. Когда они фиксируются через равные промежутки времени, этот процесс называется временной ряд и выражаются двумя способами: одномерный временной индекс, который создает неявный порядок; набор из двух измерений: независимой переменной времени и другой зависимой переменной.
Создание функции является одним из самых важных и трудоемких задач в области прикладной машинного обучения. Однако, при прогнозировании временных рядов создаются особенность, по крайней мере в традиционном смысле. Это особенно верно, когда вы хотите предсказать результат несколько шагов вперед, а не просто следующее значение.
Это не означает, что данная функция полностью запрещена. Просто они должны использоваться с осторожностью по следующим причинам: Непонятно, какое будущее реальное значение будет для этих функций. Если объекты предсказуемы и имеют определенные закономерности, можно построить модель прогнозирования для каждого из них.
Однако, вы должны иметь в виду, что при использовании прогнозируемых значений как признаки распространения ошибки для целевой переменной и может привести к ошибкам или дать необъективные прогнозы. Компоненты временных рядов
Существует тенденция, когда количество увеличивается, уменьшается или остается постоянным во времени, и поэтому он получает возможность. Сезонность относится к имуществу временных рядов, который отображает периодические закономерности, которые повторяются с постоянной периодичностью (м), например, M = 12 означает, что рисунок повторяется через каждые двенадцать месяцев.
Аналогичным образом, фиктивные переменные сезонности могут быть добавлены в качестве двоичной функции. Вы можете, например, считать праздники, специальные мероприятия, маркетинговые кампании, независимо от того, является ли значение для чужаков, или нет. Тем не менее, мы должны помнить, что эти переменные должны иметь определенные шаблоны. Количество дней, можно легко рассчитать даже на будущие периоды и влияние прогнозирования на основе временных рядов, особенно в финансовой сфере.
Циклы сезонов, которые не происходят с постоянной скоростью. Например, годовой атрибутами размножения канадской рыси, отражающие сезонные и циклические модели. Они не повторяются с регулярными интервалами, и это может произойти, даже если частота равна 1 (м = 1).
Лагированные значения в качестве возможных предикторов включают трейлинг значений переменной. Некоторые модели, такие как ARIMA, векторные авторегрессии (VAR) или авторегрессионной нейронной сети (NNAR), работает таким образом.
Компоненты интересующей нас переменной очень важно для анализа временных рядов и прогнозирования, чтобы понять их модели поведения и уметь выбрать подходящую модель. Набор атрибутов данных
Возможно, программист использовал, чтобы войти в тысячи, миллионы и миллиарды точек данных в модели машинного обучения, но это не требуется для временных рядов. На самом деле, вы можете работать с малыми и средними ТС, в зависимости от частоты и тип переменной, и это не является недостатком. Кроме того, на самом деле в таком подходе есть ряд преимуществ: Эти наборы информации будет в рамках возможностей домашнего компьютера. В некоторых случаях, выполнять анализ временных рядов и прогнозирование, используя весь набор данных, а не только образец. Длина ТС легко создавать диаграммы, которые могут быть проанализированы. Это очень важно, потому что программисты на основе диаграммы на этапе анализа. Это не значит, что они не работают с огромным временных рядов, но изначально они должны быть в состоянии обрабатывать меньше ТС. Любой набор данных, который содержит поля, связанные со временем, могут извлечь пользу из анализа временных рядов и прогнозирования. Однако, если программист имеет большой набор базы данных (ЦДБ) может быть более подходящим.
Некоторые из этих наборов из регистрируемых событий с меткой времени, системных журналов, и финансовые данные. Поскольку ЦДБ изначально работает с временными рядами, это отличная возможность применить эту технику для больших объемов данных. Машинное обучение
Машинное обучение (МО) может превзойти традиционные методы прогнозирование временных рядов. Есть целая куча исследований, в которых методы машинного обучения по сравнению с более классической статистической ТС к данным. Нейронные сети являются одним из способов, которые широко исследованы и подходы ТС. Методы машинного обучения являются ведущими в рейтинге сбора данных на основе временных рядов. Эти подходы доказали свою эффективность, превзойдя подходов с четким ТС в конкуренции с М3 или Kaggle.
МО имеет свои специфические проблемы. Развитие функций или создание новых предикторов из набора данных является важным шагом для него и может иметь огромное влияние на производительность и может быть необходимым способом решения проблемы тенденции и сезонности данных ТС. Кроме того, некоторые модели имеют проблемы с тем, как хорошо они вписываются данные, а если нет, они могут пропустить основной тренд.
Временных рядов и подходов машинного обучения не должны существовать в отрыве друг от друга. Они могут быть объединены вместе, чтобы дать преимущества каждого подхода. Методы прогнозирования и анализ временных рядов хорошо справляется с разложением данные в тренд и сезонные элементы. Тогда этот анализ может быть использован в качестве входных данных для модели МО, которая имеет в своем алгоритме информации о тенденции и сезонности, что дает лучшее из двух возможностей. Понимание постановки задачи
Например, рассмотрим ТС, что связано с предсказанием количество пассажиров нового скоростного железнодорожного транспорта. Например, имеются данные за 2 года (август 2016 - Сентябрь 2018), и, используя эти данные для прогнозирования количества пассажиров на ближайшие 7 месяцев, имея данные за 2 года (2016-2018) на почасовой уровне с количеством пассажиров, и необходимо оценить их количество в будущем.
Подмножество набора данных для прогнозирования с временными рядами: Создание железнодорожного и тестовый файл для моделирования. Первые 14 месяцев (август 2016 - Октябрь 2017) используются в качестве обучающих данных, и в ближайшие 2 месяца (ноябрь 2017 - Декабрь 2017) - данных испытаний. Объединение наборов данных на ежедневной основе.
Отображения данных, чтобы знать, как они меняются за определенный период времени.
Метод построения наивный подход
Библиотеки, которые в данном случае были использованы для прогнозирования ТС - statsmodels. Он должен быть установлен, прежде чем вы можете применить любой из этих подходов. Возможно, statsmodels уже установленной игры в среде Python, но он не поддерживает методы прогнозирования, поэтому вам нужно будет клонировать репозиторий и установить с помощью исходного кода.
Например, существует мнение, что стоимость приема монет стабильной с самого начала и на протяжении всего периода времени. Этот метод предполагает, что следующий ожидаемый точка равна последней наблюдаемой точки и называется наивный подход (наивный метод).
Теперь рассчитываем стандартное отклонение для проверки точности модели на тестовых данных. От значения СКО и график можно сделать вывод, что наивных не подходит для вариантов с высокой вариабельностью, и используется для стабильного. Легкий средний стиль
Для демонстрации метода, вычерчивается, при условии, что ось Y отображает цены, а по оси Х- время (дни).
Можно сделать вывод, что цена увеличивается и уменьшается случайным образом с небольшим запасом, так что среднее значение остается постоянным. В этом случае можно прогнозировать цену на следующий период той же средней за все прошедшие дни.
Этот метод прогнозирования ожидаемое среднее значение из ранее наблюдаемых точек называется простым средний способ.
Принимая ранее известные значения, вычислить среднее и принять его в качестве следующего значения. Конечно, это не совсем так, но довольно близко, и бывают случаи, когда этот метод работает лучше всего.
На основе результатов, отображенных на графике, понятно, что этот метод работает лучше всего, когда среднее значение для каждого периода времени остается неизменным. Хотя наивный способ лучше, чем средний, но не для всех наборов данных. Рекомендуемый шаг за шагом, чтобы попробовать каждую модель и посмотреть, будет ли он улучшает результат или нет. Модель скользящего среднего
На основе этого графика можно сделать вывод, что цена была увеличена несколько раз, последний с большим отрывом, но сейчас стабильный. Для того, чтобы использовать предыдущий метод усреднения, нужно взять среднее всех предыдущих данных. Цены на начальном периоде будет в значительной степени повлиять на прогноз следующего периода. Поэтому, как улучшение по сравнению с простой средней возьмите среднее из цен в последние периоды времени.
Этот метод прогноза называется методом скользящего среднего, иногда называемый "скользящий" размер "Н". Используя простую модель для прогнозирования следующего значения в ТС для проверки точности метода. Очевидно превосходят наивные средней и скользящей средней для этого набора данных.
Существует вариант прогноза с помощью простого экспоненциального сглаживания. В методе скользящей средней, одинаково весят последние "Н" наблюдение. В этом случае, вы можете столкнуться с ситуациями, в каждой из последних N-влияют на прогноз по-другому. Тот вариант, что разный вес последних наблюдений, называется методом взвешенной скользящей средней. Шаблоны экстраполяции
Одним из важнейших свойств, необходимых для рассмотрения алгоритмов для прогнозирования временных рядов является возможность экстраполяции модели за пределы области подготовки данных. Многие алгоритмы МО не имеют эту опцию, так как они, как правило, ограничивается областью, которая определяется учебной информации. Поэтому они не подходят для ТС, целью которого проекцию результата в будущем.
Еще одно важное свойство алгоритма, ТС-это возможность получить доверительные интервалы. Хотя это свойство по умолчанию для модели TS, и большинство моделей МО не имели такой возможности, потому что не все из них основаны на статистических распределений.
Не стоить думать, чтобы предсказать ТС, которые используют только простые статистические методы. Это не так. Есть много комплексных подходов, который может быть очень полезным в особых случаях. Обобщенной авторегрессионной условной гетероскедастичности (garch модель), и байесовского ВАР лишь некоторые из них.
Есть также модели нейронных сетей, которые могут применяться для временных рядов, которые используют в изолированных предикторы и может обрабатывать такие функции, как нейронные сети авторегрессии (NNAR). Есть даже модели временных рядов, заимствованные из комплекса исследований, в частности, в семье — рекуррентной нейронной сети, такие как сети ЛСТМ и ГРУ. Метрики оценки и диагностики остатков
Наиболее распространенные показатели оценки для прогнозирования являются среднеквадратичные средние значения, которые многие люди используют при решении задач регрессии: МАПО, так как он не зависит от масштаба и представляет собой отношение ошибки к фактическим значениям в процентах; Мэйс, который показывает, насколько хорошо выполняет прогноз по сравнению с наивной средний прогноз.
После того, как метод прогнозирования был адаптирован, важно оценить, насколько хорошо он способен фиксировать модель. Хотя метрики оценки помогают определить, насколько близко фактические значения равны, они не оценивают, является ли модель ТС. Остатки-это хороший способ оценить его. Поскольку программист пытается применить шаблон ТС можно ожидать, что погрешность будет вести себя как "белый шум", потому что они представляют то, что нельзя отразить с помощью модели.
"Белый шум" должен иметь следующие свойства: Остается некоррелированных (АКФ = 0) Остатки соответствуют нормальному распределению с нулевым средним (объективной) и постоянной дисперсией. Если любой из этих двух свойств отсутствует, то это означает, что модель имеет комнату для улучшения. Свойство нулевым средним может быть легко проверена с помощью T-теста. Свойства нормальности и постоянную дисперсию визуальный контроль с помощью гистограммы остатков или соответствующий тест одномерной нормальности. Модели ARIMA
Арима модель авторегрессии интегрированного Скользящего Среднего является одним из наиболее популярных методов, используемых при прогнозировании ТС, в основном из-за автокорреляции данных для создания высококачественных моделей.
При оценке коэффициентов Арима основным предположением является то, что данные являются стационарными. Это означает, что тренд и сезонность не влияет на дисперсию. Качество модели можно оценить, сравнивая график фактических значений с прогнозными значениями. Если обе кривые близки, можно считать, что модель пригодна для анализа дела. Он должен выявить какую-либо тенденцию и сезонность, если таковые имеются.
После анализа остатки должны показать, является ли модель: случайных остатков означает, что она является точной. Подгонка параметров АРПСС (0,1,1) даст такой же результат, как экспоненциальное сглаживание, использование параметров (0,2,2) даст результаты двойного экспоненциального сглаживания.
Вы можете получить доступ к настройкам Арима в Excel: Запустить Excel. На панели инструментов найти ХL Шахтер. На ленте в выпадающем меню выберите Арима.
Набор функций модели ARIMA: АРПСС - авторегрессии и проинтегрированного скользящего среднего. Модели прогнозирования, используемые в анализе временных рядов. Синтаксис параметры Арима : АРПСС (Р, D, Q), где п = количество членов авторегрессии, D = количество сезонные различия, и Q = число членов скользящего среднего. Алгоритмы в SQL сервере
Выполнение перекрестного прогнозирования является одним из важных особенностей временных рядов при прогнозировании финансовых целей. При использовании двух связанных рядов, полученная модель может использоваться для прогнозирования результатов одной серии, в основе поведения других людей.
В SQL Server 2008 имеет мощное новое время особенности серии, которые нужно изучать и использовать. Инструмент имеет легко доступные данные ТС, простой в использовании интерфейс для моделирования и воспроизведения алгоритма и окно пояснения со ссылками на инструкции расширений интеллектуального анализа данных на стороне сервера, так что вы можете понять, что происходит внутри.
Временные ряды рынок — это широкое поле, которое можно применить к модели и алгоритмы глубокого обучения. Банков, брокеров и фондов сейчас экспериментируют с их развертыванием анализа и прогнозирования индексов, валют, фьючерсов, цены за наличные, публичных акций, и многое другое.
Когда серия прогнозирования времени, нейронная сеть находит предсказуемых моделей, изучения структуры и тенденций развития рынков, а также дает советы для трейдеров. Эти сети также могут помочь в выявлении аномалий, таких как внезапные всплески, капли, изменениям тенденций и сдвигов уровня. Многие модели искусственного интеллекта используются для финансовых прогнозов.
Иван Фролов
Категория: Культура