10.10.2025

MWS AI выпустила первый бенчмарк для оценки качества VLM, работающих на русском языке

MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, — предназначенного для оценки качества мультимодальных моделей искусственного интеллекта (VLM), способных одновременно анализировать изображения и текст.

MWS Vision Bench стал первым бенчмарком, ориентированным на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать возможности генеративного искусственного интеллекта в распознавании и понимании документов, содержащих визуальные данные.

Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Однако существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.

Бенчмарк MWS Vision Bench охватывает широкий спектр задач, направленных на оценку способности моделей работать с документами. Он проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому.

В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающих реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Все изображения полностью обезличены. Для удобства использования исходный набор данных был случайным образом разделён на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.

«Сегодня появляется множество ИИ-моделей, но инструментов для оценки их пригодности к решению практических задач мало. Это осложняет сравнение результатов и выбор решений для бизнес-процессов. Без единых стандартов трудно определить, какая модель лучше справится с анализом документов, извлечением данных или автоматизацией обращений клиентов. Для компаний, работающих на русском языке, особенно важно иметь объективный инструмент сравнения, учитывающий особенности языка и деловой документации», — отметил генеральный директор MWS AI Денис Филиппов.

Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.