MTS AI и Сколтех разработали ИИ-редактора ненормативной лексики

fgfg Picture

Разработчики MTS AI и Сколтеха создали детоксификатор языка – ИИ-решение, которое распознает и заменяет токсичные слова и выражения. 

NLP-исследователи научили искусственный интеллект модерировать сообщения в интернете

Как сделать коммуникацию в интернете безопасной и нетоксичной? Ответ на этот вопрос нашли специалисты MTS AI и Сколтеха в области NLP. Они создали редактор ненормативной лексики, который заменяет или удаляет нецензурные слова и выражения. Детоксификатор языка в перспективе может найти свое применение в общении с голосовыми помощниками, чат- и войс-ботами, и, конечно же, в социальных сетях, рассказывают NLP-специалисты.  

«Скорость генерации контента настолько высока, что невозможно качественно фильтровать его вручную. Часто социальные сети просто блокируют оскорбительные высказывания. Наше решение позволяет не просто удалять сообщения или банить пользователей, а предлагать замену текста на более нейтральный, при этом не теряя сути сообщения», — сообщила Ирина Кротова, старший разработчик в группе NLP MTS AI.

Детоксификатор языка от MTS AI и Сколтеха — это уникальное решение для российского рынка. Большинство похожих разработок предназначены для английского языка. Для русскоязычных пользователей подобных сервисов практически нет, разработанные ранее решения оказались неэффективными.

MTS AI и Сколтех предложили два типа моделей для создания ботов и приложений, которые убирают негативную лексику из речи. Первый подход использует языковую модель BERT, основанную на нейросетевой архитектуре Трансформер. Модель делает локальные редактирования текста – находит в нем негативные слова и выражения, заменяет их на нейтральные синонимы или вовсе удаляет.

Picture

Второй подход также основан на архитектуре Трансформер, однако он решает другую задачу – условную генерацию текста по входному запросу. То есть языковая модель создает нейтральную версию токсичной фразы. Для академического соревнования в рамках конференции «Диалог», была подготовлена модель детоксификации на основе языковой модели ruT5.

«В рамках данного проекта, совместно с коллегами из МТС ИИ удалось создать ряд технологий для детектирования и переписывания токсичного контента. Предложенные методы и модели могут быть использованы для предотвращения репутационных рисков компании (чат-бот, обученный на текстах из Сети может ответить токсично). Возможны и другие применения. Например, до отправления комментария пользователю может быть предложена менее токсичная формулировка его сообщения. В подобном сценарии использования, свобода выражения не страдает, но количество эмоционально написанных токсичных комментариев может быть значительно сокращено», — рассказал Александр Панченко, PhD, старший преподаватель Сколтеха и руководитель совместной лаборатории МТС-Сколтех.

Примеры замены лексики с помощью детоксификатора

Да ты обалдел, м****! Да ты обалдел, автор!

З****** со своим повышением цен. Надоели со своим повышением цен.

Отключите этот п******** сервис. Отключите этот сервис.

Протестировать возможности детоксификатора языка можно самостоятельно. Просто обругайте нашего бота в мессенджере Telegram. О подробнее о методах и моделях, которые были использованы в рамках данного подхода, можно узнать в статье «Методы детоксификации текстов для русского языка», подготовленной специалистами MTS AI и Сколтеха, а также на страничке совместной лаборатории МТС-Сколтех в области ИИ. 

Новости
Главное за последнее время
Смотреть все

Инвестиции

MTS AI в медиа

Новости команды

Партнерство

Кейсы

Решения

ВобъективеИИ

События

Технологии

Без рубрики

События
ВЕБИНАР: Возможности генеративного ИИ для бизнеса
События
Конкурс для фанатов «Битвы роботов» от MTS AI
MTS AI в медиа
MTS AI внедрила аналитику для ритейлеров в «МТС Видеонаблюдение»
ВобъективеИИ
Документалисты против GenAI и тест LLM на безвредность
Новости команды
Инженер-исследователь MTS AI одержал тройную победу на соревнованиях AI Journey
ВобъективеИИ
Успехи ИИ в тесте Тьюринга и прогнозе погоды
Технологии
Как аспектный анализ коммуникаций помогает лучше понять своего клиента
Кейсы
Как автоматизировать сбор информации о клиентах в рекрутинговой компании
Audiogram
Как сделать кастомный голос за 5 шагов
События
Лекция Дмитрия Маркова в рамках марафона «Знание.Первые»
ВобъективеИИ
Чипы нового поколения и ИИ для ESG-инвестирования
События
Команда MTS AI приняла участие в «Битве роботов»