Нейросети MTS AI научились синтезировать эмоции

fgfg Picture

MTS AI внедрила в сервис Audiogram возможность выбора эмоций при синтезе речи. Нейросети могут воспроизвести пять ключевых эмоций, наиболее необходимых в колл-центрах: спокойствие, радость, злость, грусть и удивление.

Использование эмоций в синтезированной речи поможет сделать диалог с виртуальным ассистентом более естественным и логичным. Например, когда собеседник жалуется на качество услуг, голосовой бот может ответить с грустью и удивлением, а при информировании клиентов о победе в розыгрыше он может использовать радостные эмоции. Также технология синтеза эмоционального голоса будет востребована для создания виртуальных ассистентов и персонажей видеоигр.

Чтобы реализовать новую функцию, четыре диктора, голоса которых используются в Audiogram, дополнительно записали по два часа текста с разными эмоциями. На этих датасетах команда MTS AI дообучила нейросеть, на которой работает сервис Audiogram. В будущем компания сможет расширить количество доступных эмоций для различных бизнес-заказчиков.

«Эмоциональная синтезированная речь будет востребована в колл-центрах банков, ритейлеров, телеком-операторов и других крупных компаний, которые активно используют голосовых ботов для общения с потребителями. Мы видим на рынке значительный запрос на эмпатичную коммуникацию с клиентами — многие из них готовы общаться с чат-ботом, если его речь будет близка к человеческой не только по смыслу, но и интонационно», — сказал менеджер продукта Audiogram Иван Дулов.

При синтезе речи можно не только выбрать эмоцию, но и настроить правила произношения слов, управлять скоростью и высотой тона голоса, а также добавлять паузы. Для этого достаточно разметить исходный текст для воспроизведения с помощью SSML-тегов. Также можно применить конкретный голос и эмоцию без разметки сразу ко всему тексту.

Платформа для распознавания и синтеза речи Audiogram может использоваться для создания уникального голоса своего бренда. Также сервис можно использовать в образовательных процессах — например, для подготовки аудиолекций, для озвучивания статей и для создания материалов для людей с ограниченными возможностями, в том числе слабовидящих.

Протестировать эмоциональный синтез речи можно на сайте MTS AI в разделе Audiogram. Функция доступна для текстов на русском языке.

Новости
Главное за последнее время
Смотреть все
События
Вебинар «Биометрические сервисы в реалиях 572-ФЗ»
События
Вебинар: как с помощью ИИ защитить бизнес и репутацию от дипфейков
События
Вебинар: разговор на языке данных
ВобъективеИИ
Предсказания Маска и конкуренция на ИИ-поле
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
ВобъективеИИ
«Кентавр» для имитации поведения человека и ИИ-вдохновение от Кандинского
ВобъективеИИ
Машина Хабермаса и дружба ИИ с аддитивными технологиями
Технологии
MTS AI открыл публичный доступ к демоверсии Kodify
Решения
MTS AI создала ИИ-помощника для банковских сотрудников
ВобъективеИИ
Надежность LLM и альтернатива лидарам
События
FINOPOLIS 2024. 16-18 октября Сочи
События
AI Journey 2024. Ноябрь Москва
Кейсы
MTS AI и «ВижнСервис» представили систему MAX
ВобъективеИИ
ИИ в науке и Кэмерон в Stability AI