14.09.2023

Погоня за скоростью и вода для LLM

После небольшого перерыва дайджест #ВобъективеИИ возвращается к вам. В этом выпуске мы расскажем об очередном импруве CV-моделей от MIT для более быстрой семантической сегментации изображений с высоким разрешением и новой запатентованной технологии из США, ускоряющей сложные вычисления. А еще вы узнаете, как китайские ученые предлагают использовать LVLM для поиска аномалий в продуктах промышленного производства, что разработала Meta (признана в РФ экстремистской и запрещена) для проверки моделей компьютерного зрения на предвзятость и сколько воды «пьет» ChatGPT. Пристегнулись? Поехали!

AI-focused digest – новости ИИ-сферы

Выпуск №25, 17 августа — 14 сентября 2023

В MIT разработали более эффективную CV-модель для автономного транспорта

В MIT совместно с MIT-IBM Watson AI Lab разработали более эффективную модель компьютерного зрения, которая способна быстрее осуществлять семантическую сегментацию изображений в высоком разрешении на конечном устройстве (бортовом компьютере, например). Разработка особенно ценна для автономных транспортных средств, которым нужно быстро и точно распознавать окружающие объекты и оперативно принимать решения о дальнейшем движении. Дело в том, что изображения в высоком разрешении содержат миллионы пикселей. Широко применяемые сейчас модели — визуальные трансформеры — разбивают изображения на участки пикселей и преобразуют эти участки в токены. Далее требуется построение так называемой карты внимания. Чем больше пикселей — тем больше карта внимания, а значит на нее нужно больше вычислительной мощности и времени. В MIT придумали более простой механизм построения карты внимания, который и реализовали в новой серии моделей — EfficientViT. Если коротко, то ученые заменили сигмоидную (нелинейную) функцию активации в модуле внимания на ReLU (линейную). Так появилась возможность изменять порядок операций, чтобы сократить объем вычислений. Чтобы компенсировать потери в точности, ученые предусмотрели компоненты для извлечения локальной информации и модуль, позволяющий распознавать объекты разных масштабов. Это не привело к значительному росту вычислений. Тесты показали, что модель EfficientViT выполняет семантическую сегментацию в девять раз быстрее, чем популярные визуальные трансформеры, не уступая им в точности. Также подчеркивается дружественная к аппаратному обеспечению архитектура EfficientViT. Подробности — на сайте MIT News.

В США запатентована новая технология для сложных вычислений на высоких скоростях

Американская компания Gigantor Technologies Inc на прошлой неделе сообщила о получении патента на свою технологию Custom Mass Multiplication Circuits, многократно увеличивающую способности ИИ проводить сложные вычисления на высоких скоростях. О самой технологии мало что известно, разве только что она базируется на уникальной не-фон-неймановской модели. Разработчики утверждают, что их изобретение значительно превосходит по возможностям самые передовые GPU и TPU и ни много ни мало знаменует собой революционный шаг в области искусственного интеллекта. Понаблюдаем, к чему этот шаг нас приведет… Немного подробностей можно найти в пресс-релизе на BusinessWire.

Китайские исследователи применили технологию LVLM к задачам IAD

Ученые из КНР разработали уникальный метод для детекции аномалий в продуктах промышленного производства на основе мультимодальных языковых моделей типа LVLM — Large Vision-Language Models. Главное отличие нового подхода, который получил название AnomalyGPT, от других решений для задач класса IAD (Industrial Anomaly Detection) в том, что он не требует ручной установки пороговых значений для различения аномальных и нормальных образцов. В качестве обучающих данных были использованы изображения аномалий вместе с текстовым описанием отклонений. Также исследователи предусмотрели декодер изображений, а для более тонкой настройки инструмента – обучение с подсказками. AnomalyGPT может не только указать наличие и местоположение аномалии, но и предоставить информацию об изображении. А еще он поддерживает многоходовые диалоги. Точность AnomalyGPT в детекции аномалий проверена на нескольких дата-сетах, и во всех случаях новый метод превосходит ранее представленные. Подробнее — в этом препринте и на GitHub.

Meta* выпустила новый инструмент для проверки CV-моделей на предвзятость

Meta* открыла доступ к своему новому инструменту для проверки моделей компьютерного зрения на предвзятость. FACET (искаженный акроним от FAirness in Computer Vision EvaluaTion) позволяет исследователям и практикам в области ИИ оценить, насколько корректно, толерантно и непредвзято их CV-модели классифицируют людей с теми или иными физиологическими и демографическими характеристиками в зависимости от профессий или рода деятельности, например. В частности, с его помощью можно ответить на такие вопросы, как «Лучше ли модели классифицируют людей как скейтбордистов, если их гендерное представление имеет более стереотипные мужские атрибуты?» или «Усиливаются ли какие-либо предубеждения, когда у человека вьющиеся волосы?». Для создания FACET потребовалась ручная разметка более 30 тысяч картинок, изображающих более 50 тысяч людей. К слову, это далеко не первый инструмент для проверки ИИ-моделей на склонность к дискриминации от Meta*. Подробнее об успехах и провалах ИТ-гиганта на пути к справедливому ИИ рассказывает TechCrunch.

*Компания Meta признана экстремистской и запрещена в РФ.

Ученые посчитали, сколько воды «пьет» ChatGPT

И напоследок поговорим об экологии, а точнее — о важности повышения эффективности искусственного интеллекта как в плане обучения, так и в плане применения. На днях в The Associated Press вышла большая и подробная статья о том, сколько воды потребляет искусственный интеллект. Со ссылкой на пока еще неопубликованное исследование Калифорнийского университета, издание сообщает, что передовой бот ChatGPT от OpenAI «пьет» до полулитра воды каждый раз, когда ему дают серию из 5-50 вопросов или подсказок — в зависимости от погоды и расположения серверов. Вода нужна для отвода тепла из центров обработки данных и охлаждения электростанций, которые их питают. Компания Microsoft, предоставившая OpenAI свои вычислительные мощности, в отчете за 2022 год сообщила, что потребление ею воды по сравнению с 2021 годом увеличилось на 34% — до почти 1,7 млрд галлонов (это более 2500 олимпийских плавательных бассейнов). У Google рост составил 20%. Эксперты связывают это с деятельностью ИТ-гигантов в области ИИ. По данным компании West Des Moines Water Works, в июле 2022 года (за месяц до того, как OpenAI заявила, что завершила обучение GPT-4) Microsoft закачала около 11,5 млн галлонов воды в свой кластер центров обработки данных близ города Де-Мойн в Айове. Это место можно считать истинной родиной ChatGPT. Немало, да? Ученые надеются, что огласка столь масштабного потребления воды искусственным интеллектом активизирует деятельность ИИ-гигантов и научного сообщества по более рациональному использованию ресурсов. А вы, беседуя с ChatGPT, будете считать, сколько воды он потратил на ответ?