26.03.2026

В России разработали метод быстрой адаптации чат-ботов и голосовых помощников к новым сценариям

Исследователи из MWS AI, Университета ИТМО и Международного университета информационных технологий (IITU) представили метод для повышения точности отслеживания состояния диалога в чат-ботах и голосовых помощниках. Этот механизм позволяет системе на каждом шаге разговора лучше понимать, что именно хочет пользователь. Работа вошла в программу EACL 2026 — одной из крупнейших международных конференций в области обработки текстов (NLP), которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 года.

Состояние диалога — память системы о запросе пользователя. Если в ходе общения она теряет или неверно интерпретирует хотя бы один параметр, дальнейший диалог начинает строиться на ошибочных данных. В результате пользователь получает нерелевантный ответ, а качество всего взаимодействия заметно снижается.

Исследование направлено на решение одной из ключевых проблем современных диалоговых систем — адаптацию к новым доменам. Например, если модель уже умеет помогать с бронированием отелей, важно, чтобы ее можно было быстро перенастроить на другие сценарии без необходимости каждый раз собирать тысячи размеченных диалогов.

Существующие подходы к этой задаче обычно зависят либо от больших массивов данных, либо от проприетарных моделей. Как правило, обучение строится на примерах правильных ответов: модели показывают нужный результат и учат его воспроизводить. Такой подход работает, но хуже переносится на новые сценарии и требует значительных затрат времени и ресурсов.

Авторы исследования предложили изменить сам принцип обучения. Вместо того чтобы показывать модели правильные ответы и учить их воспроизводить, ей дают возможность самой исследовать разные варианты решения и получать награду за точный результат. Для этого используется метод обучения с подкреплением GRPO, который не требует тяжелых дополнительных компонентов и может быть реализован в сравнительно доступном вычислительном контуре.

Эксперименты показали устойчивый прирост качества на моделях разного масштаба — от 1.5 до 32 миллиардов параметров. Один из самых показательных результатов связан с моделью на 8 миллиардов параметров: после обучения с использованием GRPO она превзошла не только GPT-4, но и модель в четыре раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях.

По метрике точности отслеживания диалога модель на 8 млрд параметров, обученная новым методом, показала результат 41,9%, тогда как у GPT-4 этот показатель составил 38,7%, а у модели на 32 млрд параметров с классическим дообучением — 39,9%. То есть модель среднего размера продемонстрировала результат более чем на 3% выше, чем GPT-4, и на 2% выше, чем система в четыре раза ее крупнее.

«Важно, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, тем самым снижая барьер входа при адаптации системы к новому сценарию. Если говорить о практической пользе, то он будет полезен в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах. Наибольший эффект подход даст там, где важно удерживать контекст диалога», — отметил инженер-исследователь MWS AI Тимур Ионов.

Весь процесс обучения и инференса укладывается на одну GPU. Код выложен в открытый доступ.