26.01.2023

О порядке в данных, законах физики и видении сквозь стены

В этом выпуске #ВобъективеИИ мы поговорим о том, как важно навести порядок в данных для успеха искусственного интеллекта, а также расскажем о первой в мире библиотеке CV-алгоритмов на основе законов физики, умной трости для слабовидящих и методологии трекинга сквозь стены с помощью WiFi. Еще вы узнаете о больших языковых моделях, способных по некоторым характеристикам побить GPT-3.

AI-focused digest – новости ИИ-сферы

Выпуск №10, 12-26 января 2023

ИИ не хватает порядка в данных

Недавно проведенное исследование NewVantage Partners показало, что из 116 мировых компаний уровня Fortune 1000 лишь 24% считают себя data-driven, то есть управляемыми данными. Еще меньше — 21% — могут утверждать, что у них есть что-то наподобие культуры данных. И только около четверти опрошенных компаний говорят, что делают достаточно для того, чтобы обеспечить ответственное и этичное обращение с информацией. Такие результаты нельзя назвать слишком радужными. Эксперты подтверждают, что нерешенность проблем, связанных с управлением данными, сильно тормозит развитие искусственного интеллекта. Основные узкие места — низкое качество данных, предвзятость и недостаточная безопасность, пишет Forbes, ссылаясь на Мону Чадха (Mona Chadha) из Amazon Web Services. Низкое качество данных может привести к неточным результатам и непоследовательному поведению ИИ-моделей, предвзятость — к дискриминации, а ИБ-уязвимости — сыграть на руку мошенникам. Из-за беспорядка в данных и отсутствия культуры обращения с ними бизнес может получить от ИИ лишь финансовые и репутационные потери. Так что, если есть желание поставить искусственный интеллект на службу бизнесу, компаниям придется пройти этот длинный и сложный путь к data-driven управлению. Подробнее о том, как с этим справляются мировые лидеры, читайте в этом исследовании.

UCLA выложил на GitHub первую в мире CV-библиотеку на основе законов физики

Ученые из Калифорнийского университета в Лос-Анджелесе представили первую в мире библиотеку Python с алгоритмами компьютерного зрения для имитации распространения света на основе физических законов. Она получила название PhyCV. В отличие от традиционных алгоритмов, которые представляют собой последовательность созданных вручную эмпирических правил, новый класс CV-алгоритмов использует законы природы в качестве стержня для вычислений. В настоящее время PhyCV включает алгоритмы для преобразования фазового растяжения (PST), адаптивного извлечения градиентного поля фазового растяжения (PAGE) и улучшения зрения с помощью виртуальной дифракции и когерентного обнаружения (VEViD). Доступны версии для CPU и GPU. Все выложено на GitHub.

Умная трость поможет слабовидящим лучше понимать окружающий мир

Инженеры из Колорадского университета в Боулдере разработали трость, которая благодаря встроенной видеокамере и машинному обучению поможет слабовидящим людям лучше понимать окружение и выполнять повседневные дела. Например, устройство может делать снимки улиц во время прогулки и с помощью компьютерного зрения определять, когда и какие действия человеку нужно предпринять, чтобы добраться до пункта назначения. Информация об этом передается голосом или через вибрационные сигналы. Благодаря этим же технологиям трость считывает и озвучивает состав продуктов в супермаркете или вибрирует при приближении к нужному товару, а еще подсказывает, какое место в кафе лучше занять. Эта разработка здорово облегчит жизнь людям, у которых есть проблемы со зрением, однако потребуется время, прежде чем она попадет в руки покупателей — инженерам нужно поработать над компактностью. Подробности о технологической составляющей и еще несколько сценариев применения умной трости есть на информационном портале Колорадского университета.

Не GPT-3 единой

Когда речь заходит про большие языковые модели (LLM), сегодня перво-наперво упоминается GPT-3. Однако богатство LLM этим не ограничивается. The Indian Express перечислила еще несколько больших языковых моделей, которые пусть и уступают детищу OpenAI по популярности в медиапространстве, но заслуживают внимания из-за весьма ценных характеристик. Например, языковая модель ERNIE Titan от китайского технологического гиганта Baidu натренирована при обучении отличать реально созданные людьми тексты от текстов, составленных ею самой. Это позволяет модели определять достоверность сгенерированного контента, что повышает его ценность в глазах потребителей. Или вот LLM от Яндекса — YaLM 100B — хоть и не такая мощная, как GPT-3 (100 млрд параметров против 175 млрд), зато доступна бесплатно как для исследований, так и для коммерческого использования. Модель выложена на GitHub по лицензии Apache 2.0. А еще есть Megatron-NLG от NVIDIA и Microsoft c 530 млрд параметров, а это в 3 раза больше, чем GPT-3. В списке также есть Gopher от DeepMind и BLOOM от BigScience. Подробнее о том, в чем их сила в сравнении с GPT-3, написано здесь.

WiFi поможет видеть сквозь стены

Ученые из Университета Карнеги-Меллона придумали еще один способ «видеть» движения человека сквозь стены — с помощью WiFi. Они разработали глубокую нейронную сеть, которая сопоставляет фазу и амплитуду WiFi-сигналов с UV-координатами частей тела и позволяет определять позу человека не хуже, чем при других подходах к решению этой задачи. В этой научной статье в деталях расписано, как работает технология. Там же говорится, что это открывает путь к более дешевым методам трекинга людей c сохранением неприкосновенности частной жизни. По поводу последнего, признаться, есть большие сомнения…