Audiogram — это платформа распознавания и синтеза речи на базе нейронных сетей и методов машинного обучения.
Функциональность Audiogram
Audiogram включает в себя модули ASR и TTS, а также вспомогательные сервисы.
Модуль ASR (Automatic Speech Recognition) отвечает за автоматическое распознавание речи.
Вы можете использовать потоковое преобразование речи в текст, которое позволяет транскрибировать аудиозапись в реальном времени. Также для клиентов доступно файловое преобразование речи – асинхронное транскрибирование речи в текст для больших объемов аудиофайлов или аудиоархива.
В Audiogram доступно два типа моделей:
- доменная, которая позволяет эффективно распознать речь по определенной тематике: медицина, телеком и финансы;
- мультиотраслевая модель с повышенным потреблением ресурсов, подходящая для применения в любой сфере без необходимости дообучения под конкретный домен.
Модуль TTS (Text-to-Speech) отвечает за преобразование текста в речь
- Вы можете озвучивать текст одним четырех предустановленных синтезированных голосов: двух женских и двух мужских.
- Автоматическая ML-разметка нужна для литературной озвучки книг и статей.
- Платформа поддерживает язык разметки синтеза речи SSML, что позволяет добиваться более естественного звучания с помощью управления интонацией, скоростью, ударениями и другими параметрами.
В Audiogram встроены также вспомогательные сервисы:
- сбор статистики по использованию платформы;
- сервисы коннекторов для поддержания взаимодействия с внешними приложениями.
Что появится в ближайшее время?
Мы работаем над добавлением в систему голосовой биометрии – распознавания голоса спикера на фоне других голосов, определения принадлежности голоса.
Помимо синтеза и распознавания речи, платформа сможет автоматически определять тональность распознаваемой речи: нейтральную, позитивную и негативную.
Добавление эмоций синтеза, для реплик голоса можно будет указывать с какой именно эмоциональной окраской их произносить: радостной, грустной или нейтральной. Также мы добавим технологию копирования голосов, которая позволит создавать новые голоса на основе нескольких минут записи диктора.
Преимущества Audiogram
В варианте поставки с мультиотраслевой моделью Audiogram может распознавать речь по любым тематикам без дополнительного обучения. Если клиенту необходимо, чтобы платформа работала со специфическими терминами, например, названиями тарифов и услуг, узкоспециализированными понятиями, мы можем оперативно дообучить систему.
Audiogram позволяет распознавать и синтезировать тексты на русском языке. По желанию клиента, мы можем подключить распознавание на английском, немецком и испанском языках. Audiogram распознает речь, даже если спикер говорит тихо или находится в помещении, где есть посторонние звуки.
Внедрение Audiogram в системы заказчика
Гибкость — преимущество всех продуктов, которые создает MTS AI. Платформа синтеза и распознавания речи не исключение. Audiogram поддерживает взаимодействие с внешними приложениями при помощи gRPC API и протоколов UniMRCP и SIP для интеграции с телефонией, что обеспечивает легкую интеграцию в инфраструктуру заказчика.
С какими продуктами MTS AI можно интегрировать Audiogram?
Вы можете установить платформу синтеза и распознавания речи отдельно, а можете заказать комплексное решение, добавив функции AI-аналитики коммуникаций, NLP Platform для разработки ботов, сервиса облачного видеонаблюдения и аналитики TenVision
- Наша команда поможет внедрить в ваше решение дектосифаер — сервис для замены нецензурных и оскорбительных выражений в чатах на более нейтральный эквивалент или (и) антимат — сервис, определяющий и маскирующий специальными символами обсценную лексику. Таким образом, вы сможете предоставлять своим клиентам очищенные от нецензурной лексики версии расшифровки аудио.
- Интеграция Audiogram с AI-аналитикой коммуникаций позволит обрабатывать разговоры с клиентами по телефону и получать бизнес-инсайты. Audiogram переведет речь в текст, даст информацию о паузах, длительности и времени звонка. Далее эти данные загружаются в сервис AI-аналитики коммуникаций, который формирует статистику. AI-аналитика коммуникаций зафиксирует различные аспекты высказывания пользователя во фразах наподобие «тарифы у вас хорошие, а связь просто ужас». Вы узнаете, что именно не устраивает клиентов: стоимость, качество и так далее.
- Интегрировав Audiogram в NLP Platform, вы сможете не только научить ботов разговаривать с клиентами и расшифровывать телефонные разговоры, но и проектировать сценарии коммуникации.
- У клиентов MTS AI есть возможность дополнить сервис облачного видеонаблюдения и аналитики TenVision функциями Audiogram. Технология распознавания речи позволит расшифровывать то, что говорят люди, которые попадают в поле зрения камер наблюдения.
Как бизнес может использовать Audiogram?
В первую очередь функции Audiogram актуальны для контакт-центров. С их помощью можно будет распознавать диалоги с пользователями в режиме реального времени, а также обучить бота общаться с клиентами голосом. Также у вас появится технология для оперативного изменения умного голосового меню (IVR) без привлечения диктора.
Облачным провайдерам Audiogram поможет быстро интегрировать речевые технологии в их продукты, автоматизировать работу кол-центров, а также заметно упростить проведение маркетинговых исследований, наем персонала и сбор информации.
Если вы разрабатываете ботов, голосовых ассистентов и другие решения для бизнеса, Audiogram позволит вам озвучивать ответы ботов синтезированным голосом, близким к естественному. Таким образом, пользователю приятно и удобно общаться с вашим виртуальным помощником. Благодаря мультиотраслевой модели распознавания речи, бот или ассистент сможет понимать разговор на любую тему.
Издательствам и электронным библиотекам тоже необходим Audiogram. С его помощью можно быстро создавать аудиокниги, расшифровывать лекции и подкасты с писателями, и при этом экономить. Согласно данным по рынку, озвучивание книг синтезированным голосом дешевле в 100-300 раз услуг диктора*. Этот процесс занимает от 30 минут до нескольких часов, тогда как диктор будет озвучивать от нескольких дней до нескольких недель.
EdTech-компании тоже могут воспользоваться преимуществами искусственного интеллекта. Audiogram будет расшифровывать аудио- и видеолекции; генерировать субтитры к обучающим видео. Также вы сможете быстро озвучивать ролики и статьи для ваших курсов.
Для СМИ будет актуальна автоматическая генерация субтитров к видео; озвучивание статей и видеоматериалов, создание аудионавигации по сайту для людей с ослабленным зрением. Также, благодаря платформе синтеза и распознавания речи, сотрудниками не придется тратить время и силы на транскрибацию аудио- и видеоматериалов — интервью и конференций — с одним или несколькими участниками. Это за них сделает Audiogram.
Пользователи социальной сети или мессенджера оценят удобную функцию транскрибации голосовых сообщений, перевод текстовых сообщений в звуковые. Также аудитория будет с удовольствием пользоваться автоматической генерацией субтитров для видео. Функции распознавания и синтеза речи можно внедрить в программное обеспечение или видеоигры для конечных пользователей для того, чтобы создавать аудионавигацию для пользователей, генерировать субтитры к видео и озвучивать ботов и персонажей персонажей компьютерных игр.
Бизнес-эффекты от использования технологий распознавания и синтеза речи
Голосовой ИИ не просто так получил широкое распространение в России. Многие компании уже оценили бизнес-эффекты от внедрения технологий распознавания и синтеза речи, а именно:
- увеличение скорости информирования клиентов на 100%;
- экономия на услугах дикторов на 99%;
- повышение точности распознавания запросов пользователей на 96%;
- рост продаж на 16–25%.
Дополнительные преимущества:
- уменьшение нагрузки на контакт-центры на 50%;
- снижение затрат на оплату труда сотрудникам на 20%;
- увеличение повторных обращений в компанию на 20%.
Модели поставки
Audiogram может поставляться в качестве программного обеспечения или как облачный сервис.
On-premise
Заказчик получает дистрибутив ПО и лицензию для установки на своих серверах.
Cloud
Audiogram будет развернут в облаке, клиент получит для доступ к API и ссылку на личный кабинет, и сразу же сможет приступить к работе.
Особенности работы с платформой
- Для того, чтобы платформа могла распознавать диалоги и идентифицировать двух спикеров, нам нужна двухканальная запись, то есть когда каждый говорящий записан на отдельной дорожке. Функция распознавания голосов на одноканальной записи появится в 2024 году
- Наша платформа поддерживает самые распространенные форматы аудио: WAV PCM 16bit, WAV MULAW, WAV ALAW, частота дискретизации любая в диапазоне 8000-96000 Hz;
Тарификация
Доступны 2 вида тарифов при использовании Audiogram:
- pay as you go;
- пакетный.