Датасет RuPAWS представили на конференции LREC 2022

Picture

NLP-исследователи Никита Мартынов и Ирина Кротова рассказали о RuPAWS – уникальном наборе данных, предназначенном для идентификации парафразов. 

Набор данных повышает точность работы языковой модели на 79%

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова выступили на  одной из крупнейших международных конференций по языковым ресурсам и обработке естественного языка LREC 2022. Она состоялась в Марселе с 20 по 25 июня 2022 года.

«LREC – международная конференция с фокусом на лингвистических данных. Она проводится каждые два года при поддержке Европейской ассоциации языковых ресурсов, в этом году она состоялась уже в 13-й раз. Сбор качественных данных для оценки и тренировки моделей — первый шаг, необходимый для машинного обучения. Неудивительно, что работы, посвященные этим тематикам, часто цитируют, и по данным Google Scholar, конференция находится на 6-м месте в области компьютерной лингвистики по показателям H5-индекса (индекса цитируемости научных работ)», — рассказала старший разработчик Группы NLP MTS AI, Ирина Кротова.

На этой площадке традиционно собираются ученые, разработчики и представители бизнеса для продвижения технологий, продуктов и услуг в сфере обработки естественного языка. Участники LREC представляют новейшие исследования и разработки в сфере NLP-технологий, языковых ресурсов и датасетов для различных направлений, включая не только привычные текстовый или аудио-формат, но и, например, язык жестов. Они обсуждают дальнейшие направления исследований в области лингвистики и машинного обучения, их применение в продуктах и разработку новых стандартов, а также возможности для международного сотрудничества. 

На LREC 2022 Никита Мартынов и Ирина Кротова представили статью RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Эта публикация была подготовлена при поддержке Сколтеха и посвящена уникальному датасету для русского языка. 

RuPAWS — открытый набор данных, с помощью которого можно обучать и тестировать модели для индентификации парафразов. Этот датасет был разработан и протестирован в совместной лаборатории «MTS AI-Сколтех». 

RuPAWS включает в себя 17 346 пар парафразов — перефразированных предложений, которые одинаковы по смыслу, но состоят из разных слов. Также он содержит около 3 тысяч предложений, которые очень близки по лексическому составу, но при этом не являются парафразами. Это предложения наподобие «У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?» и «У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?». В отличие от человека, ML-модели, которые обучались на классических датасетах, могут не понимать разницу между такими фразами. 

В существующих датасетах для русского языка недостаточно примеров для качественной идентификации парафразов. Так, например, SoTA идентифицирует предложения с высоким пересечением слов как парафразы, даже когда они таковыми не являются. Эта проблема решается с помощью RuPAWS. Если этот набор данных добавить при обучении языковой модели, то точность работы на сложных примерах возрастает почти в два раза, до 79%. 

В перспективе RuPAWS можно будет использовать при обучении поисковых систем, языковых помощников, голосовых и текстовых ботов. Это позволит им эффективно идентифицировать парафразы и корректно отвечать на запросы пользователей и, например, на запрос «Билеты из Москвы в Кинешму» не предлагать вариант «автобус Кинешма-Москва». Подробнее о датасете можно прочитать в статье.

Новости
Главное за последнее время
Смотреть все

Инвестиции

MTS AI в медиа

Новости команды

Партнерство

Кейсы

Решения

ВобъективеИИ

События

Технологии

ВобъективеИИ
ИИ спасает животных и помогает понять медицинские тексты
События
Вебинар от MTS AI: узнайте больше о возможностях Audiogram
ВобъективеИИ
Робот-патрульный и ИИ для создания архитектурных шедевров
События
MTS AI стала стратегическим партнером Machines Can See
События
Датасет RuPAWS представили на конференции LREC 2022
Технологии
NLP-исследователи разработали датасет для идентификации парафразов
MTS AI в медиа
Как превратить «дело безумцев» в единорога? История успеха Александра Ханина
Решения
Как голосовые и текстовые боты меняют клиентский сервис
MTS AI в медиа
Как заработать на искусственном интеллекте в России
Новости команды
MTS AI провела специальную оценку условий труда