03.09.2024

Нейросети MTS AI научились синтезировать эмоции

MTS AI внедрила в сервис Audiogram возможность выбора эмоций при синтезе речи. Нейросети могут воспроизвести пять ключевых эмоций, наиболее необходимых в колл-центрах: спокойствие, радость, злость, грусть и удивление.

Использование эмоций в синтезированной речи поможет сделать диалог с виртуальным ассистентом более естественным и логичным. Например, когда собеседник жалуется на качество услуг, голосовой бот может ответить с грустью и удивлением, а при информировании клиентов о победе в розыгрыше он может использовать радостные эмоции. Также технология синтеза эмоционального голоса будет востребована для создания виртуальных ассистентов и персонажей видеоигр.

Чтобы реализовать новую функцию, четыре диктора, голоса которых используются в Audiogram, дополнительно записали по два часа текста с разными эмоциями. На этих датасетах команда MTS AI дообучила нейросеть, на которой работает сервис Audiogram. В будущем компания сможет расширить количество доступных эмоций для различных бизнес-заказчиков.

«Эмоциональная синтезированная речь будет востребована в колл-центрах банков, ритейлеров, телеком-операторов и других крупных компаний, которые активно используют голосовых ботов для общения с потребителями. Мы видим на рынке значительный запрос на эмпатичную коммуникацию с клиентами — многие из них готовы общаться с чат-ботом, если его речь будет близка к человеческой не только по смыслу, но и интонационно», — сказал менеджер продукта Audiogram Иван Дулов.

При синтезе речи можно не только выбрать эмоцию, но и настроить правила произношения слов, управлять скоростью и высотой тона голоса, а также добавлять паузы. Для этого достаточно разметить исходный текст для воспроизведения с помощью SSML-тегов. Также можно применить конкретный голос и эмоцию без разметки сразу ко всему тексту.

Платформа для распознавания и синтеза речи Audiogram может использоваться для создания уникального голоса своего бренда. Также сервис можно использовать в образовательных процессах — например, для подготовки аудиолекций, для озвучивания статей и для создания материалов для людей с ограниченными возможностями, в том числе слабовидящих.

Протестировать эмоциональный синтез речи можно на сайте MTS AI в разделе Audiogram. Функция доступна для текстов на русском языке.