NLP-исследователи Никита Мартынов и Ирина Кротова рассказали о RuPAWS – уникальном наборе данных, предназначенном для идентификации парафразов.
Набор данных повышает точность работы языковой модели на 79%
NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова выступили на одной из крупнейших международных конференций по языковым ресурсам и обработке естественного языка LREC 2022. Она состоялась в Марселе с 20 по 25 июня 2022 года.
«LREC – международная конференция с фокусом на лингвистических данных. Она проводится каждые два года при поддержке Европейской ассоциации языковых ресурсов, в этом году она состоялась уже в 13-й раз. Сбор качественных данных для оценки и тренировки моделей — первый шаг, необходимый для машинного обучения. Неудивительно, что работы, посвященные этим тематикам, часто цитируют, и по данным Google Scholar, конференция находится на 6-м месте в области компьютерной лингвистики по показателям H5-индекса (индекса цитируемости научных работ)», — рассказала старший разработчик Группы NLP MTS AI, Ирина Кротова.
На этой площадке традиционно собираются ученые, разработчики и представители бизнеса для продвижения технологий, продуктов и услуг в сфере обработки естественного языка. Участники LREC представляют новейшие исследования и разработки в сфере NLP-технологий, языковых ресурсов и датасетов для различных направлений, включая не только привычные текстовый или аудио-формат, но и, например, язык жестов. Они обсуждают дальнейшие направления исследований в области лингвистики и машинного обучения, их применение в продуктах и разработку новых стандартов, а также возможности для международного сотрудничества.
На LREC 2022 Никита Мартынов и Ирина Кротова представили статью RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Эта публикация была подготовлена при поддержке Сколтеха и посвящена уникальному датасету для русского языка.
RuPAWS — открытый набор данных, с помощью которого можно обучать и тестировать модели для индентификации парафразов. Этот датасет был разработан и протестирован в совместной лаборатории «MTS AI-Сколтех».
RuPAWS включает в себя 17 346 пар парафразов — перефразированных предложений, которые одинаковы по смыслу, но состоят из разных слов. Также он содержит около 3 тысяч предложений, которые очень близки по лексическому составу, но при этом не являются парафразами. Это предложения наподобие «У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?» и «У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?». В отличие от человека, ML-модели, которые обучались на классических датасетах, могут не понимать разницу между такими фразами.
В существующих датасетах для русского языка недостаточно примеров для качественной идентификации парафразов. Так, например,
В перспективе RuPAWS можно будет использовать при обучении поисковых систем, языковых помощников, голосовых и текстовых ботов. Это позволит им эффективно идентифицировать парафразы и корректно отвечать на запросы пользователей и, например, на запрос «Билеты из Москвы в Кинешму» не предлагать вариант «автобус Кинешма-Москва». Подробнее о датасете можно прочитать в