Стриминговая платформа предложила MTS AI разработать современный подход для автоматического поиска контента, нарушающего правила сервиса. Решение должно находить на платформе максимальное количество эпизодов с запрещенным контентом – например, рекламу азартных игр или употребление алкоголя во время стрима.
Рассказываем, как мультимодальная языковая модель может снизить нагрузку на отдел модерации и сократить время на оценку видеоматериалов.
Как нейросети помогают стримингам
Онлайн-кинотеатры и другие стриминговые платформы активно используют нейросети и машинное обучение для повышения эффективности собственных сервисов. В частности, искусственный интеллект помогает анализировать вкусы зрителей – благодаря этому можно определить, какой фильм или сериал будет интересен публике, когда его лучше опубликовать и так далее.
Также искусственный интеллект может значительно упростить и автоматизировать работу отдела модерации, поскольку сейчас работникам стриминговых платформ приходится отсматривать видео. Современные LLM и привычные ML-модели могут автоматически анализировать материалы на наличие запрещенного контента и обращать внимание модератора на зафиксированные нарушения. Таким образом команда сервиса сможет отсматривать только потенциально противоправные фрагменты.
Задача модерации контента становится практически невыполнимой для платформ, на которых транслируются прямые эфиры, поскольку следить за ними в онлайн-режиме невозможно. Им приходится отсматривать записи трансляций, но даже в таком случае для контроля уже записанных стримов необходим огромный штат модераторов.
По аналогии с фильмами и сериалами, современные мультимодальные языковые модели способны находить опасный контент и в записях стримов. Теоретически они могут мониторить трансляции в прямом эфире, но для этого понадобились бы огромные расходы на инфраструктуру.
Подробности решения
Для проверки видеозаписи на наличие запрещенного контента система от MTS AI анализирует не каждый кадр в отдельности. Алгоритмы предварительно разбивают видеозапись на фрагменты, в которых изображение практически не меняется (можно сравнить с разбивкой на сцены в фильме), а затем усредняют кадры в каждом из них.
Для поиска запрещенных объектов в кадре специалисты MTS AI используют мультимодальную языковую модель, которая уже обучена для поиска предметов на изображении в кадре. Для этого достаточно через API загрузить изображение и “спросить” LLM, что она видит в кадре, и уточнить, есть ли в нем тот или иной запрещенный объект или признак.
Для системы заказчика MTS AI использует набор из множества запретных объектов, среди них — оружие, наркотические вещества, порнография, запрещенная символика, азартные игры и логотипы букмекерских контор. Система автоматически задает модели вопросы о наличии в кадре упомянутых объектов. Она дает заказчику бинарный ответ (да или нет).
Такие языковые модели, как Dino, предварительно обучены на различных дата-сетах, поэтому их можно использовать “из коробки” – они могут определить около 70% объектов в мире без дополнительного обучения. Однако точность распознавания может быть значительно ниже, например, при поиске локальных или узкоспециализированных предметов.
Поэтому на этапе проектирования системы специалисты MTS AI предварительно определяют слабые места языковой модели и далее создают комбинацию нейросетей, которые натренированы искать информацию, которая необходима клиенту.
Результат
Система аналитики видео от MTS AI предоставляет заказчику точность распознавания запрещенного контента свыше 90%. Это позволяет отсеять большую часть видео, на котором нет запрещенных объектов, и обратить внимание модераторов только на подозрительный контент. С помощью решения на базе мультимодальных моделей можно значительно повысить скорость модерации контента. При этом у заказчика сохраняется возможность неограниченного масштабирования системы – даже если поток видео значительно возрастет, для реагирования на подозрительные инциденты не нужно будет расширять штат.
При этом финальное решение о действиях с нарушителями остается за командой модерации. Они могут реагировать на уведомления от нейросети только с высоким уровнем “уверенности” в наличии запрещенного контента, или же автоматически банить всех возможных нарушителей, сообщив им о найденном подозрительном контенте.