MTS AI:

Организаторы

Партнёры

Подробнее

D >< Vision

Чувствуете, что крутые разработки в Computer Vision остаются в тени других популярных тем в ИИ? Что на многих конференциях CV-секции зачастую не соответствуют вашим интересам и возникающим на работе задачам? Мы — тоже.

Поэтому мы решили запустить серию митапов, цель которых — объединить и поддержать сообщество, глубоко увлечённое Computer Vision. Мы сознательно делаем фокус на CV, чтобы подчеркнуть его непреходящую важность и уникальные исследовательские задачи. И рассматриваем Computer Vision во всей его широте — и discriminative, и generative, и multimodal подходы.

Здесь вас ждут:
— Доклады о передовых и прикладных аспектах CV,
— Живое общение и обмен опытом.

Присоединяйтесь, если любите Computer Vision так же, как любим его мы!

Спикеры

Айбек Аланов

Заведующий Центром глубинного обучения и байесовских методов, НИУ ВШЭ
Руководитель команды Controllable Generative AI, FusionBrain Lab, AIRI

Как эффективно контролировать генерацию диффузионных моделей?Диффузионные модели являются одним из самых мощных инструментов генерации изображений, однако их точное управление остаётся вызовом. В докладе я рассмотрю ключевые подходы к повышению контролируемости, а также покажу результаты наших исследований, где мы улучшили текущий подход и проанализировали его эффективность в различных аспектах, включая вычислительные затраты и качество результатов.

Дмитрий Нехаев

Директор по исследованиям, VisionLabs

Проблема bias в компьютерном зрении: как бороться с предвзятостью алгоритмов?Модели компьютерного зрения, несмотря на высокую точность, часто страдают от заметной предвзятости (bias). В докладе я расскажу о природе такой необъективности и представлю результаты наших исследований по её устранению в алгоритмах распознавания.

Геворг Оганесян

Data Scientist, команда видеоаналитики, Wildberries & Russ

Видеосегментация процессов на складе.Расскажу, как модели видеоаналитики помогают отслеживать и анализировать процессы на складах. Поговорим о распознавании действий во времени (temporal action recognition) для автоматической проверки корректности выполнения операций. Разберу реальные кейсы применения и основные вызовы, возникающие при работе с видео.

Даниил Лукичев

Старший разработчик, служба компьютерного зрения, Яндекс

Мультимодальные агенты в Yandex VLMВ докладе я представлю пайплайн разработки мультимодального агента от команды YaVLM Яндекса, его учебный конвейер (претрейн → SFT → DPO) и режимы применения. Рассмотрим метрики и бенчмарки, их связь с реальными продуктовыми целями, а также существующие решения в областях Browser Agents, GUI multimodal и Computer Use. В завершение поделюсь ключевыми практическими уроками, повышающими качество, надежность и эффективность модели.