Научные сотрудники лаборатории отраслевых рынков и инфраструктуры Института Гайдара рассказали о применении больших языковых моделей (LLM) для анализа экономических новостей. Они используют ИИ для определения семантической окраски текстов, что является ключевым шагом в построении новостного индекса.
Как объяснили эксперты, такой индекс отражает настроение бизнеса и потребителей и может служить опережающим индикатором деловой активности – сигналом о том, куда движется экономика ещё до выхода официальной статистики.
Результаты исследования сотрудников лаборатории показывают, что использование Deepseek R1 в качестве разметчика сентимента позволяет увеличть корреляцию новостного индекса с ИПП (индексом промышленного производства) на 3–9 п.п. относительно большой языковой модели Llama 3.1, а также дообчуеннной модели BERT на размеченном датасете.
Специалисты выделили несколько причин, по которым Deepseek R1 демонстрирует более высокую эффективность в анализе экономических текстов:
- Он умеет рассуждать поэтапно и учитывать контекст, благодаря чему делает более осмысленные выводы (например: «риск увеличения процентной ставки» → негативный сентимент, даже если тон нейтральный).
- Deepseek R1 обучался, в том числе, на массиве профессиональных экономических и технических текстов. Это позволяет модели выводить сентимент не на уровне «positive/negative», а в терминах влияния на экономику, т. е. применять экономическую интерпретацию событий.
- Модель использует цепочки размышлений, что позволяет ей интерпретировать многозначные тексты: «С одной стороны..., с другой...»; «Цены растут, но спрос падает...»
Таким образом, рассуждающая большая языковая модель (например, DeepSeek R1) точнее классических подходов улавливает «тон» новостей, а значит, позволяет экономистам раньше заметить смену экономических трендов.