Датасет RuPAWS представили на конференции LREC 2022

Picture

NLP-исследователи Никита Мартынов и Ирина Кротова рассказали о RuPAWS – уникальном наборе данных, предназначенном для идентификации парафразов. 

Набор данных повышает точность работы языковой модели на 79%

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова выступили на  одной из крупнейших международных конференций по языковым ресурсам и обработке естественного языка LREC 2022. Она состоялась в Марселе с 20 по 25 июня 2022 года.

«LREC – международная конференция с фокусом на лингвистических данных. Она проводится каждые два года при поддержке Европейской ассоциации языковых ресурсов, в этом году она состоялась уже в 13-й раз. Сбор качественных данных для оценки и тренировки моделей — первый шаг, необходимый для машинного обучения. Неудивительно, что работы, посвященные этим тематикам, часто цитируют, и по данным Google Scholar, конференция находится на 6-м месте в области компьютерной лингвистики по показателям H5-индекса (индекса цитируемости научных работ)», — рассказала старший разработчик Группы NLP MTS AI, Ирина Кротова.

На этой площадке традиционно собираются ученые, разработчики и представители бизнеса для продвижения технологий, продуктов и услуг в сфере обработки естественного языка. Участники LREC представляют новейшие исследования и разработки в сфере NLP-технологий, языковых ресурсов и датасетов для различных направлений, включая не только привычные текстовый или аудио-формат, но и, например, язык жестов. Они обсуждают дальнейшие направления исследований в области лингвистики и машинного обучения, их применение в продуктах и разработку новых стандартов, а также возможности для международного сотрудничества. 

На LREC 2022 Никита Мартынов и Ирина Кротова представили статью RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Эта публикация была подготовлена при поддержке Сколтеха и посвящена уникальному датасету для русского языка. 

RuPAWS — открытый набор данных, с помощью которого можно обучать и тестировать модели для индентификации парафразов. Этот датасет был разработан и протестирован в совместной лаборатории «MTS AI-Сколтех». 

RuPAWS включает в себя 17 346 пар парафразов — перефразированных предложений, которые одинаковы по смыслу, но состоят из разных слов. Также он содержит около 3 тысяч предложений, которые очень близки по лексическому составу, но при этом не являются парафразами. Это предложения наподобие «У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?» и «У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?». В отличие от человека, ML-модели, которые обучались на классических датасетах, могут не понимать разницу между такими фразами. 

В существующих датасетах для русского языка недостаточно примеров для качественной идентификации парафразов. Так, например, SoTA идентифицирует предложения с высоким пересечением слов как парафразы, даже когда они таковыми не являются. Эта проблема решается с помощью RuPAWS. Если этот набор данных добавить при обучении языковой модели, то точность работы на сложных примерах возрастает почти в два раза, до 79%. 

В перспективе RuPAWS можно будет использовать при обучении поисковых систем, языковых помощников, голосовых и текстовых ботов. Это позволит им эффективно идентифицировать парафразы и корректно отвечать на запросы пользователей и, например, на запрос «Билеты из Москвы в Кинешму» не предлагать вариант «автобус Кинешма-Москва». Подробнее о датасете можно прочитать в статье.

Новости
Главное за последнее время
Смотреть все

Инвестиции

MTS AI в медиа

Новости команды

Партнерство

Кейсы

Решения

ВобъективеИИ

События

Технологии

Без рубрики

ВобъективеИИ
О порядке в данных, законах физики и видении сквозь стены
ВобъективеИИ
Бан LLM и зеленый свет автономному транспорту
Новости команды
В России подготовили первый курс разметки данных для людей с аутизмом
MTS AI в медиа
МТС защитил свыше 5 млн абонентов от спам-звонков с помощью ИИ 
ВобъективеИИ
ИИ на атомном и космическом уровне
События
Вебинар: реальные кейсы использования платформы синтеза и распознавания речи от MTS AI
ВобъективеИИ
Интервью с чат-ботом и ИИ-система для старения за секунды
MTS AI в медиа
Как и над чем работают в MTS AI и VisionLabs. Репортаж из офисов компаний
ВобъективеИИ
Как ИИ судит в футболе и за что судят ИИ
ВобъективеИИ
Искусный переговорщик, хороший диагност и так себе кулинар