Эксперты лаборатории отраслевых рынков и инфраструктуры Института Гайдара рассказали о новых специализированных архитектурах в мире прогнозирования временных рядов: NBEATS и недавно появившаяся NHITS. Они приходят на смену классическим рекуррентным нейронным сетям (например, LSTM и GRU).
NHITS (Neural Hierarchical Interpolation for Time Series) – это новая глубокая модель, специально адаптированная под задачи прогнозирования временных рядов. Главная её особенность – комбинирование преимуществ подходов ансамблей (таких как случайный лес), когда сложные закономерности описываются с помощью набора простых моделей, и рекуррентных нейронных сетей, где прогноз строится рекурсивно на основе предыдущих наблюдений.
Эксперты отметили основные принципы NHITS:
- Модель рекурсивно разбивает задачу прогноза на несколько уровней детализации.
- На каждом уровне простые локальные модели объясняют ту часть временного ряда, которая не была описана на предыдущих шагах.
Эксперты выделили два основных преимущества NHITS перед классическими рекуррентными моделями. Во-первых, модель более устойчива к шумам и сложным паттернам за счёт многоуровневого объяснения. Во-вторых, иерархический подход снижает риск переобучения, поскольку избегает перегрузки параметрами, характерной для многих рекуррентных сетей.
В лаборатории отраслевых рынков и инфраструктуры NHITS используется для прогнозирования индекса промышленного производства, где в сравнении с бенчмарком ARIMAX, нейросеть позволила повысить на тестовых данных метрику Directional Accuracy c 60% до 75% (процент верно предсказанных направлений изменения показателя) при статистически неотличимых средквадратических ошибках прогноза. Такой результат объясняется двумя основными причинами:
1) ARIMA не находит достаточно устойчивых линейных зависимостей и её прогноз вырождается в прогноз последнего значения (наивный прогноз), что, хотя и оптимально с точки зрения минимизации ожидаемой квадратичной ошибки, плохо подходит для задач прогнозирования направлений изменения показателя.
2) Модель NHITS, благодаря своей нелинейной архитектуре и иерархической структуре, оказалась способна выявить зависимости в многомерных данных. Это позволило преодолеть ограничение наивного прогноза, обусловленное избыточным следованием последнему наблюдаемому значению ряда.