Как большие языковые модели помогают в построении опережающих индикаторов макроэкономических показателей Экономические агенты принимают решения не только под влиянием официальной статистики, но и под воздействием новостного фона, который формирует ожидания относительно перспектив развития и будущих мер политики. Эти эффекты опосредованно влияют на реальный сектор: через отсрочку инвестиционных решений фирмами, изменение склонности к сбережению домохозяйствами, корректировку инфляционных ожиданий. Михаил Аникутин, научный сотрудник лаборатории отраслевых рынков и инфраструктуры Института Гайдара, рассказал об исследовании лаборатории, в котором эксперты построили индикаторы на основе анализа новостей для российской экономики с помощью больших языковых моделей (LLM) и RAG-архитектуры.
Эволюция подходов к анализу новостей.
Первый этап словарный: текст считали позитивным или негативным по подсчету тональности слов. При этом методе контекст и нюансы смысла оставались за скобками, но уже давал мощные инструменты. Например, индекс экономической неопределенности (EPU), рассчитывался на основе частоты употребления местной прессой сочетания слов индикаторов (таких как «экономика», «неопределенность» и «политика»), уже зарекомендовал себя как важный фактор экономической динамики при моделировании ВВП и инвестиций.
Второй этап связан с архитектурой трансформеров, которая научилась понимать семантику слов и оперировать контекстом. В 2018 году появился BERT, а затем и специализированные модели, такие как FinBERT (2019), дообученная на финансовых текстах. Исследования показали, что построенные на её основе индексы тональности лучше объясняют краткосрочную реакцию фондового рынка, включая аномальную доходность вокруг выхода новостей и отчётности, по сравнению с традиционными методами.
Третий этап – эпоха агентов и систем с дополненной генерацией (RAG). Ключевым прорывом стали модели с «цепочкой рассуждений» (chain‑of‑thought), которые перед ответом обдумывали решение. Например OpenAI GPT‑o1 (2024), и архитектура RAG, позволяющая LLM динамически извлекать актуальную информацию из внешних баз – новостных лент, пресс-релизов центрального банка, биржевых сводок. Современные исследования подтверждают, что построение новостных индексов на основе LLM с рассуждением и RAG полезно для прогнозирования. В работе Zijie Zhao и Roy E. Welsch портфель, сформированный на основе стратегии покупки акций с положительным сентиментом и продажи с негативным, обеспечил доходность выше S&P 500 в бычьем рынке на 4,8% и сократил убытки примерно в 5 раз в медвежьем.
Отдельный интерес представляет период после 2022 года, сопровождавшийся структурными изменениями не только в экономике, но и в информационном фоне.
В условиях изменения терминологии методы, основанные на ключевых словах, оказываются менее устойчивыми, тогда как языковые модели лучше адаптируются благодаря семантическому анализу текста.
Как лаборатория отраслевых рынков и инфраструктуры строит новостные индексы?
Подход Института Гайдара объединяет широкую базу источников (240 тыс. новостей с 2015 года из ТАСС, РБК, Интерфакса и пресс-релизов ЦБ) с языковой моделью DeepSeek, использующей механизм рассуждения и систему дополненного поиска (RAG).
Отбор новостей. Применяется механизм ранжирования, настроенный на целевые макропоказатели: промышленное производство, инфляция, ВВП, реальная зарплата. Система отбирает только те новости, которые действительно релевантны для оценки влияния на данный показатель.
Рис: кластеры релевантных новостей по теме “химическое производство”
Разметка контекста. Для каждой новости система находит семантически и лексически близкие отрывки – публикации на ту же тему или связанные пресс-релизы ЦБ. Гибридный поиск сочетает смысловую близость и точные совпадения терминов, что полезно для идентификации тикеров компаний, названий активов и т.д.
Оценка тональности. Модель получает новость, обогащенную контекстом, и оценивает тональность текста, а также степень своей уверенности. Полученные оценки агрегируются в новостной индекс: возможны варианты расчета – частота негативных новостей, отношение негативных ко всем выпущенным или средняя тональность за период.
Лаборатория использует построенные индексы для прогнозирования отраслевых индексов промышленного производства. Наибольший эффект наблюдается для отраслей, которые до 2022 года в высокой степени зависели от внешней торговли и импортных поставок – прежде всего производства машин и оборудования, металлургической промышленности, а также производства резиновых и пластмассовых изделий. Для таких отраслей новостной поток относительно быстро отражает изменение внешних условий деятельности компаний: санкционные ограничения, разрывы логистических цепочек, пересмотр контрактов и доступность импорта. В результате новостной индекс содержит информацию о будущей динамике выпуска раньше, чем соответствующие изменения проявляются в официальной статистике.
Для отраслей с более длинным производственным циклом и высокой инерционностью выпуска – например, производство нефтепродуктов и химическое производство – даже значимые оперативные изменения внешней конъюнктуры и ценовых условий не всегда приводят к быстрому изменению выпуска из-за ограничений производственной инфраструктуры, долгосрочных контрактов и низкой краткосрочной эластичности предложения. В результате новостной фон оказывается менее полезным для краткосрочного прогнозирования.
Перспективы
Развитие ИИ открывает возможности для анализа сложных неструктурированных данных. Следующий шаг – агентные системы, способные самостоятельно находить релевантную информацию и проводить расчеты для оценки экономического эффекта новостного фона. Перспективно также моделирование графов новостей: изучение связей между сообщениями, динамики накопленной тональности в зависимости от контекста и трансформации экономических ожиданий под влиянием конкретных событий.