06.07.2022

Датасет RuPAWS представили на конференции LREC 2022

State-of-the-art – решение для задачи классификации парафразов на русском языке, моноязычная адаптация BERT-a RuBERT

NLP-исследователи Никита Мартынов и Ирина Кротова рассказали о RuPAWS – уникальном наборе данных, предназначенном для идентификации парафразов.

Набор данных повышает точность работы языковой модели на 79%

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова выступили на одной из крупнейших международных конференций по языковым ресурсам и обработке естественного языка LREC 2022. Она состоялась в Марселе с 20 по 25 июня 2022 года.

«LREC – международная конференция с фокусом на лингвистических данных. Она проводится каждые два года при поддержке Европейской ассоциации языковых ресурсов, в этом году она состоялась уже в 13-й раз. Сбор качественных данных для оценки и тренировки моделей — первый шаг, необходимый для машинного обучения. Неудивительно, что работы, посвященные этим тематикам, часто цитируют, и по данным Google Scholar, конференция находится на 6-м месте в области компьютерной лингвистики по показателям H5-индекса (индекса цитируемости научных работ)», — рассказала старший разработчик Группы NLP MTS AI, Ирина Кротова.

На этой площадке традиционно собираются ученые, разработчики и представители бизнеса для продвижения технологий, продуктов и услуг в сфере обработки естественного языка. Участники LREC представляют новейшие исследования и разработки в сфере NLP-технологий, языковых ресурсов и датасетов для различных направлений, включая не только привычные текстовый или аудио-формат, но и, например, язык жестов. Они обсуждают дальнейшие направления исследований в области лингвистики и машинного обучения, их применение в продуктах и разработку новых стандартов, а также возможности для международного сотрудничества.

На LREC 2022 Никита Мартынов и Ирина Кротова представили статью RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Эта публикация была подготовлена при поддержке Сколтеха и посвящена уникальному датасету для русского языка.

RuPAWS — открытый набор данных, с помощью которого можно обучать и тестировать модели для индентификации парафразов. Этот датасет был разработан и протестирован в совместной лаборатории «MTS AI-Сколтех».

RuPAWS включает в себя 17 346 пар парафразов — перефразированных предложений, которые одинаковы по смыслу, но состоят из разных слов. Также он содержит около 3 тысяч предложений, которые очень близки по лексическому составу, но при этом не являются парафразами. Это предложения наподобие «У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?» и «У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?». В отличие от человека, ML-модели, которые обучались на классических датасетах, могут не понимать разницу между такими фразами.

В существующих датасетах для русского языка недостаточно примеров для качественной идентификации парафразов. Так, например, SoTA идентифицирует предложения с высоким пересечением слов как парафразы, даже когда они таковыми не являются. Эта проблема решается с помощью RuPAWS. Если этот набор данных добавить при обучении языковой модели, то точность работы на сложных примерах возрастает почти в два раза, до 79%.

В перспективе RuPAWS можно будет использовать при обучении поисковых систем, языковых помощников, голосовых и текстовых ботов. Это позволит им эффективно идентифицировать парафразы и корректно отвечать на запросы пользователей и, например, на запрос «Билеты из Москвы в Кинешму» не предлагать вариант «автобус Кинешма-Москва». Подробнее о датасете можно прочитать в статье.

Новости

Главное за последнее время

Смотреть все

Решения

MWS AI представила платформу для создания корпоративных ИИ-агентов в едином интерфейсе

Технологии

MWS AI разработала новую LLM с продвинутыми агентными навыками

Технологии

MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом

Технологии

MWS AI выпускает открытого ИИ-ассистента для программистов

Исследования

MWS AI выпустила первый бенчмарк для оценки качества VLM, работающих на русском языке

Партнерства

MWS AI и DIS Group заключили технологическое партнерство

Исследования

Опрос MWS AI и X5: каждый десятый житель Татарстана использует генеративный ИИ ежедневно

Исследования

Опрос MWS AI: 25% студентов признались, что пользовались нейросетями на экзаменах

Исследования

Исследование MWS AI: Как россияне используют ИИ на работе

ВобъективеИИ

«Клод» с 1 млн токенов контекста и новая ИИ-модель для роботов

ВобъективеИИ

Новые открытые модели OpenAI и опенсорсный Grok 2