NLP-исследователи разработали датасет для идентификации парафразов

fgfg Picture

RuPAWS позволит научить поисковые системы, ИИ-помощников, чат- и войс-ботов корректно понимать запросы пользователей.

В чем особенность RuPAWS?

NLP-исследователи MTS AI вместе со Сколтехом создали уникальный датасет RuPAWS, с помощью которого можно обучать и тестировать модели для индентификации парафразов. 

Парафраз (или парафраза) —  это пересказ исходного предложения другими словами. Их точная идентификация и соответствующие датасеты необходимы для обучения поисковых систем, языковых голосовых помощников, чат- и войс-ботов. Благодаря точному распознаванию парафразов, ИИ-помощники будут корректно отвечать пользователям приложений и веб-сервисов и предоставлять информацию, строго соответствующую их запросам. 

Датасет RuPAWS состоит из 17 346 пар парафразов и содержит большое количество предложений, в которых много одинаковых слов, но смысл при этом разный. Это фразы наподобие «Может ли плохой человек стать хорошим?» и «Может ли хороший человек стать плохим?». 

Человек легко понимает, что эти предложения не являются парафразами, но ML-модели, обученные на классических датасетах, могут ошибаться. 

«От других русскоязычных датасетов RuPAWS отличается тем, что фокусируется на редких примерах парафразов, которые вызывают особые сложности при классификации – такой подход называют состязательными атаками (adversarial attacks) на системы машинного обучения», – рассказал NLP-инженер MTS AI Никита Мартынов.

Первыми идею такого датасета предложили авторы PAWS, аналогичного датасета для английского языка. В его основе лежат тексты из социальных сетей и Википедии, поэтому собранные данные подходят для многих практических задач. RuPAWS представляет собой переведенный с помощью nmt (машинного перевода) и проверенный вручную PAWS.

Для русского языка уже существуют датасеты для классификации парафразов, но в них не хватает сложных примеров. Один из эталонных датасетов, ParaPhraser, близок по объёму (9 151 пар предложений), и успешно используется для обучения и тестирования моделей машинного обучения. Но даже SoTA (state-of-the-art) – решение для задачи классификации парафразов на русском языке, моноязычная адаптация BERT-a RuBERT – идентифицирует предложения с высоким пересечением слов как парафразы,  когда они таковыми не являются.

Эта проблема решается с помощью датасета RuPAWS, показали исследования, проведенные в совместной лаборатории «МТС-Сколтех». 

«Эксперименты показали, что модель, обученная на данных из обоих датасетов, практически не теряет в качестве при классификации примеров из ParaPhraser, но при этом точность работы на сложных примерах возрастает почти в два раза, до 79%», — сообщила Ирина Кротова, старший разработчик в группе NLP MTS AI.

Рассмотрим несколько примеров предложений с большим количеством одинаковых слов, но не тождественных по смыслу. Языковая модель, обученная на  ParaPhraser, распознавала их как парафразы. Однако с точки зрения смысла это было неправильно. В свою очередь, если языковую модель обучали на двух датасетах — ParaPhraser и RuPAWS, она таких ошибок не допускала. 

Фраза 1 Фраза 2КомментарийРаспознавание как парафразы (Paraphraser)Распознавание 
как 
парафразы Paraphraser+RuPAWS
Можно ли хорошему человеку стать плохим?Можно ли плохому человеку стать хорошим?замена прилагательных0,960,02
У какой авиакомпании есть дешевый перелет из Амстердама в Джакарту?У какой авиакомпании дешевые перелеты из Джакарты в Амстердам?замена существительных0,970,08
Очередное исполнение оперы Карла Оге Расмуссена было записано в 2005 году и опубликовано в 2006 году.Еще одна экранизация оперы Карла Оге
Расмуссена была опубликована в 2005 году
и записана в 2006 году.
замена глаголов0,960,03
Эвари Байзо (3 июня 1821 — 6 февраля 1910 — Нант) – французский военный физиолог.Эвари Байзо (3 июня 1821 — 6 февраля 1910
— Нант) – французский военный физик.
замена одного слова на другое0,960,02

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова представят статью о новом языковом корпусе RuPAWS на одной из крупнейших международных конференций LREC 2022, которая пройдет в Марселе с 20 по 25 июня.

Новости
Главное за последнее время
Смотреть все
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
События
Разработка ботов: экспертиза, инструменты и кейсы MTS AI
ВобъективеИИ
Новые «Клоды», поющие портреты и аватар нейрохирурга
Партнерство
MTS AI запустила видеонаблюдение для «Гольфстрима»
ВобъективеИИ
Жажда скорости и ИИ против подделок
MTS AI в медиа
MTS AI создала LLM для корпоративного сектора
Новости команды
MTS AI провела специальную оценку условий труда
Новости команды
Сотрудник MTS AI вошел в Научный совет Альянса в сфере ИИ
События
ВЕБИНАР: LLM для бизнес: возможности, ограничения и реальные кейсы
ВобъективеИИ
Защита от биоугроз и LLM под знаком дракона