Датасет RuPAWS представили на конференции LREC 2022

fgfg Picture

NLP-исследователи Никита Мартынов и Ирина Кротова рассказали о RuPAWS – уникальном наборе данных, предназначенном для идентификации парафразов. 

Набор данных повышает точность работы языковой модели на 79%

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова выступили на  одной из крупнейших международных конференций по языковым ресурсам и обработке естественного языка LREC 2022. Она состоялась в Марселе с 20 по 25 июня 2022 года.

«LREC – международная конференция с фокусом на лингвистических данных. Она проводится каждые два года при поддержке Европейской ассоциации языковых ресурсов, в этом году она состоялась уже в 13-й раз. Сбор качественных данных для оценки и тренировки моделей — первый шаг, необходимый для машинного обучения. Неудивительно, что работы, посвященные этим тематикам, часто цитируют, и по данным Google Scholar, конференция находится на 6-м месте в области компьютерной лингвистики по показателям H5-индекса (индекса цитируемости научных работ)», — рассказала старший разработчик Группы NLP MTS AI, Ирина Кротова.

На этой площадке традиционно собираются ученые, разработчики и представители бизнеса для продвижения технологий, продуктов и услуг в сфере обработки естественного языка. Участники LREC представляют новейшие исследования и разработки в сфере NLP-технологий, языковых ресурсов и датасетов для различных направлений, включая не только привычные текстовый или аудио-формат, но и, например, язык жестов. Они обсуждают дальнейшие направления исследований в области лингвистики и машинного обучения, их применение в продуктах и разработку новых стандартов, а также возможности для международного сотрудничества. 

На LREC 2022 Никита Мартынов и Ирина Кротова представили статью RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Эта публикация была подготовлена при поддержке Сколтеха и посвящена уникальному датасету для русского языка. 

RuPAWS — открытый набор данных, с помощью которого можно обучать и тестировать модели для индентификации парафразов. Этот датасет был разработан и протестирован в совместной лаборатории «MTS AI-Сколтех». 

RuPAWS включает в себя 17 346 пар парафразов — перефразированных предложений, которые одинаковы по смыслу, но состоят из разных слов. Также он содержит около 3 тысяч предложений, которые очень близки по лексическому составу, но при этом не являются парафразами. Это предложения наподобие «У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?» и «У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?». В отличие от человека, ML-модели, которые обучались на классических датасетах, могут не понимать разницу между такими фразами. 

В существующих датасетах для русского языка недостаточно примеров для качественной идентификации парафразов. Так, например, SoTA идентифицирует предложения с высоким пересечением слов как парафразы, даже когда они таковыми не являются. Эта проблема решается с помощью RuPAWS. Если этот набор данных добавить при обучении языковой модели, то точность работы на сложных примерах возрастает почти в два раза, до 79%. 

В перспективе RuPAWS можно будет использовать при обучении поисковых систем, языковых помощников, голосовых и текстовых ботов. Это позволит им эффективно идентифицировать парафразы и корректно отвечать на запросы пользователей и, например, на запрос «Билеты из Москвы в Кинешму» не предлагать вариант «автобус Кинешма-Москва». Подробнее о датасете можно прочитать в статье.

Новости
Главное за последнее время
Смотреть все
События
Вебинар: ИИ в финансовом секторе
События
Вебинар: как с помощью ИИ защитить бизнес и репутацию от дипфейков
События
Вебинар: разговор на языке данных
ВобъективеИИ
Предсказания Маска и конкуренция на ИИ-поле
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
События
FINOPOLIS 2024. 16-18 октября Сочи
События
AI Journey 2024. Ноябрь Москва
События
Вебинар «Биометрические сервисы в реалиях 572-ФЗ». 23 октября онлайн
ВобъективеИИ
ИИ в науке и Кэмерон в Stability AI
Технологии
MTS AI научила Cotype Lite общаться на татарском языке
Решения
Система умного поиска по базам данных от MTS AI
ВобъективеИИ
Китайская версия Д.Ж.А.Р.В.И.С. и Agentic AI
Технологии
Нейросети MTS AI научились синтезировать эмоции
Технологии
MTS AI представила Cotype PRO
ВобъективеИИ
Батарейки для микророботов и рост расходов на ИИ