MWS AI выпустила первый бенчмарк для оценки качества VLM, работающих на русском языке

fgfg Picture

MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, — предназначенного для оценки качества мультимодальных моделей искусственного интеллекта (VLM), способных одновременно анализировать изображения и текст.

MWS Vision Bench стал первым бенчмарком, ориентированным на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать возможности генеративного искусственного интеллекта в распознавании и понимании документов, содержащих визуальные данные.

Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Однако существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.

Бенчмарк MWS Vision Bench охватывает широкий спектр задач, направленных на оценку способности моделей работать с документами. Он проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому.

В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающих реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Все изображения полностью обезличены. Для удобства использования исходный набор данных был случайным образом разделён на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.

«Сегодня появляется множество ИИ-моделей, но инструментов для оценки их пригодности к решению практических задач мало. Это осложняет сравнение результатов и выбор решений для бизнес-процессов. Без единых стандартов трудно определить, какая модель лучше справится с анализом документов, извлечением данных или автоматизацией обращений клиентов. Для компаний, работающих на русском языке, особенно важно иметь объективный инструмент сравнения, учитывающий особенности языка и деловой документации», — отметил генеральный директор MWS AI Денис Филиппов.

Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.

Новости
Главное за последнее время
Смотреть все
Технологии
MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом
Технологии
MWS AI выпускает открытого ИИ-ассистента для программистов
Исследования
MWS AI выпустила первый бенчмарк для оценки качества VLM, работающих на русском языке
Партнерства
MWS AI и DIS Group заключили технологическое партнерство
Исследования
Опрос MWS AI и X5: каждый десятый житель Татарстана использует генеративный ИИ ежедневно
Исследования
Опрос MWS AI: 25% студентов признались, что пользовались нейросетями на экзаменах
Исследования
Исследование MWS AI: Как россияне используют ИИ на работе
ВобъективеИИ
«Клод» с 1 млн токенов контекста и новая ИИ-модель для роботов 
ВобъективеИИ
Новые открытые модели OpenAI и опенсорсный Grok 2 
MWS AI в медиа
«МТС Банк» улучшает качество обслуживания клиентов с помощью ИИ
ВобъективеИИ
Математические достижения ИИ и сохранение сов