07.06.2023

Что такое Audiogram от MTS AI?

Audiogram — это платформа распознавания и синтеза речи на базе нейронных сетей и методов машинного обучения.

Функциональность Audiogram

Audiogram включает в себя модули ASR и TTS, а также вспомогательные сервисы.

Модуль ASR (Automatic Speech Recognition) отвечает за автоматическое распознавание речи.

Вы можете использовать потоковое преобразование речи в текст, которое позволяет транскрибировать аудиозапись в реальном времени. Также для клиентов доступно файловое преобразование речи – асинхронное транскрибирование речи в текст для больших объемов аудиофайлов или аудиоархива.

В Audiogram доступно два типа моделей:

доменная, которая позволяет эффективно распознать речь по определенной тематике: медицина, телеком и финансы;
мультиотраслевая модель с повышенным потреблением ресурсов, подходящая для применения в любой сфере без необходимости дообучения под конкретный домен.

Модуль TTS (Text-to-Speech) отвечает за преобразование текста в речь

Вы можете озвучивать текст одним четырех предустановленных синтезированных голосов: двух женских и двух мужских.
Автоматическая ML-разметка нужна для литературной озвучки книг и статей.
Платформа поддерживает язык разметки синтеза речи SSML, что позволяет добиваться более естественного звучания с помощью управления интонацией, скоростью, ударениями и другими параметрами.

В Audiogram встроены также вспомогательные сервисы:

сбор статистики по использованию платформы;
сервисы коннекторов для поддержания взаимодействия с внешними приложениями.

Что появится в ближайшее время?

Мы работаем над добавлением в систему голосовой биометрии – распознавания голоса спикера на фоне других голосов, определения принадлежности голоса.

Помимо синтеза и распознавания речи, платформа сможет автоматически определять тональность распознаваемой речи: нейтральную, позитивную и негативную.

Добавление эмоций синтеза, для реплик голоса можно будет указывать с какой именно эмоциональной окраской их произносить: радостной, грустной или нейтральной. Также мы добавим технологию копирования голосов, которая позволит создавать новые голоса на основе нескольких минут записи диктора.

Преимущества Audiogram

В варианте поставки с мультиотраслевой моделью Audiogram может распознавать речь по любым тематикам без дополнительного обучения. Если клиенту необходимо, чтобы платформа работала со специфическими терминами, например, названиями тарифов и услуг, узкоспециализированными понятиями, мы можем оперативно дообучить систему.

Audiogram позволяет распознавать и синтезировать тексты на русском языке. По желанию клиента, мы можем подключить распознавание на английском, немецком и испанском языках. Audiogram распознает речь, даже если спикер говорит тихо или находится в помещении, где есть посторонние звуки.

Внедрение Audiogram в системы заказчика

Гибкость — преимущество всех продуктов, которые создает MTS AI. Платформа синтеза и распознавания речи не исключение. Audiogram поддерживает взаимодействие с внешними приложениями при помощи gRPC API и протоколов UniMRCP и SIP для интеграции с телефонией, что обеспечивает легкую интеграцию в инфраструктуру заказчика.

С какими продуктами MTS AI можно интегрировать Audiogram?

Вы можете установить платформу синтеза и распознавания речи отдельно, а можете заказать комплексное решение, добавив функции AI-аналитики коммуникаций, NLP Platform для разработки ботов, сервиса облачного видеонаблюдения и аналитики TenVision

Наша команда поможет внедрить в ваше решение дектосифаер — сервис для замены нецензурных и оскорбительных выражений в чатах на более нейтральный эквивалент или (и) антимат — сервис, определяющий и маскирующий специальными символами обсценную лексику. Таким образом, вы сможете предоставлять своим клиентам очищенные от нецензурной лексики версии расшифровки аудио.
Интеграция Audiogram с AI-аналитикой коммуникаций позволит обрабатывать разговоры с клиентами по телефону и получать бизнес-инсайты. Audiogram переведет речь в текст, даст информацию о паузах, длительности и времени звонка. Далее эти данные загружаются в сервис AI-аналитики коммуникаций, который формирует статистику. AI-аналитика коммуникаций зафиксирует различные аспекты высказывания пользователя во фразах наподобие «тарифы у вас хорошие, а связь просто ужас». Вы узнаете, что именно не устраивает клиентов: стоимость, качество и так далее.
Интегрировав Audiogram в NLP Platform, вы сможете не только научить ботов разговаривать с клиентами и расшифровывать телефонные разговоры, но и проектировать сценарии коммуникации.
У клиентов MTS AI есть возможность дополнить сервис облачного видеонаблюдения и аналитики TenVision функциями Audiogram. Технология распознавания речи позволит расшифровывать то, что говорят люди, которые попадают в поле зрения камер наблюдения.

Как бизнес может использовать Audiogram?

В первую очередь функции Audiogram актуальны для контакт-центров. С их помощью можно будет распознавать диалоги с пользователями в режиме реального времени, а также обучить бота общаться с клиентами голосом. Также у вас появится технология для оперативного изменения умного голосового меню (IVR) без привлечения диктора.

Облачным провайдерам Audiogram поможет быстро интегрировать речевые технологии в их продукты, автоматизировать работу кол-центров, а также заметно упростить проведение маркетинговых исследований, наем персонала и сбор информации.

Если вы разрабатываете ботов, голосовых ассистентов и другие решения для бизнеса, Audiogram позволит вам озвучивать ответы ботов синтезированным голосом, близким к естественному. Таким образом, пользователю приятно и удобно общаться с вашим виртуальным помощником. Благодаря мультиотраслевой модели распознавания речи, бот или ассистент сможет понимать разговор на любую тему.

Издательствам и электронным библиотекам тоже необходим Audiogram. С его помощью можно быстро создавать аудиокниги, расшифровывать лекции и подкасты с писателями, и при этом экономить. Согласно данным по рынку, озвучивание книг синтезированным голосом дешевле в 100-300 раз услуг диктора*. Этот процесс занимает от 30 минут до нескольких часов, тогда как диктор будет озвучивать от нескольких дней до нескольких недель.

EdTech-компании тоже могут воспользоваться преимуществами искусственного интеллекта. Audiogram будет расшифровывать аудио- и видеолекции; генерировать субтитры к обучающим видео. Также вы сможете быстро озвучивать ролики и статьи для ваших курсов.

Для СМИ будет актуальна автоматическая генерация субтитров к видео; озвучивание статей и видеоматериалов, создание аудионавигации по сайту для людей с ослабленным зрением. Также, благодаря платформе синтеза и распознавания речи, сотрудниками не придется тратить время и силы на транскрибацию аудио- и видеоматериалов — интервью и конференций — с одним или несколькими участниками. Это за них сделает Audiogram.

Пользователи социальной сети или мессенджера оценят удобную функцию транскрибации голосовых сообщений, перевод текстовых сообщений в звуковые. Также аудитория будет с удовольствием пользоваться автоматической генерацией субтитров для видео. Функции распознавания и синтеза речи можно внедрить в программное обеспечение или видеоигры для конечных пользователей для того, чтобы создавать аудионавигацию для пользователей, генерировать субтитры к видео и озвучивать ботов и персонажей персонажей компьютерных игр.

Бизнес-эффекты от использования технологий распознавания и синтеза речи

Голосовой ИИ не просто так получил широкое распространение в России. Многие компании уже оценили бизнес-эффекты от внедрения технологий распознавания и синтеза речи, а именно:

увеличение скорости информирования клиентов на 100%;
экономия на услугах дикторов на 99%;
повышение точности распознавания запросов пользователей на 96%;
рост продаж на 16–25%.

Дополнительные преимущества:

уменьшение нагрузки на контакт-центры на 50%;
снижение затрат на оплату труда сотрудникам на 20%;
увеличение повторных обращений в компанию на 20%.

Модели поставки

Audiogram может поставляться в качестве программного обеспечения или как облачный сервис.

On-premise

Заказчик получает дистрибутив ПО и лицензию для установки на своих серверах.

Cloud

Audiogram будет развернут в облаке, клиент получит для доступ к API и ссылку на личный кабинет, и сразу же сможет приступить к работе.

Особенности работы с платформой

Для того, чтобы платформа могла распознавать диалоги и идентифицировать двух спикеров, нам нужна двухканальная запись, то есть когда каждый говорящий записан на отдельной дорожке. Функция распознавания голосов на одноканальной записи появится в 2024 году
Наша платформа поддерживает самые распространенные форматы аудио: WAV PCM 16bit, WAV MULAW, WAV ALAW, частота дискретизации любая в диапазоне 8000-96000 Hz;

Тарификация

Доступны 2 вида тарифов при использовании Audiogram: