28.09.2023

Сжатие данных и эволюция ИИ-ботов

За эти две недели, что вы ждали новый выпуск #ВобъективеИИ, произошло много всего. DeepMind выяснила, насколько эффективны LLM в сжатии данных, Microsoft разработала MLLM для машинного чтения текстоемких изображений, а в MIT придумали, как облегчить персонализацию моделей для 3D-печати. Еще Google, OpenAI и Amazon рассказали об обновлениях своих ботов, Китай успел пошуметь о новой технологии для производства полупроводниковых чипов, а Россия – выяснить, как бизнес использует ИИ. Сейчас мы обо всем расскажем.

AI-focused digest – новости ИИ-сферы

Выпуск №26, 14-28 сентября 2023

Эксперты DeepMind выявили впечатляющие способности LLM в сжатии данных

В DeepMind предлагают внимательнее присмотреться к большим языковым моделям как к мощным компрессорам данных, пишет VentureBeat. Уже давно установлено, что прогнозные модели могут быть преобразованы в алгоритмы сжатия без потерь и наоборот, а так как LLM обладают впечатляющими возможностями прогнозирования, эта способность распространяется на них в еще большей степени. Исследователи DeepMind доказывают это с помощью серии экспериментов с моделью Chinchilla 70B. В общем-то неудивительно, что модель, преимущественно обученная на текстах, на ура справилась со сжатием текстовых данных — до 8,3% от исходного размера. А вот поистине впечатляет то, что по сжатию изображений и аудио она обогнала изначально заточенные на это PNG и FLAC. В частности, патчи ImageNet (база данных аннотированных изображений) Chinchilla 70B сжимает до 43,4%, тогда как показатель PNG — 58,5%, а образцы английской речи из датасета LibriSpeech — до 16,4%, у FLAC — 30,3%. Больше цифр и пояснений — в исследовательской статье.

Microsoft разработала MLLM для машинного чтения

Исследователи из Microsoft представили миру свою мультимодальную языковую модель (MLLM) для машинного чтения текстоемких изображений Kosmos-2.5. Предобученная на крупномасштабных текстоемких изображениях модель, как утверждают разработчики, успешно справляется с такими задачами, как генерация текстовых блоков через присвоение пространственных координат строкам на изображениях (распознавание документов) и генерация текста через image-to-markdown. Также отмечается, что Kosmos-2.5 может быть донастроена для решения любой другой задачи по распознаванию изображений с текстом. Подробнее — здесь.

В MIT придумали, как персонализировать модели для 3D-принтеров без вреда функциональности

Ученые из Массачусетского технологического института нашли способ, как наилучшим образом подружить эстетику с функциональностью при дизайне персонализированных продуктов для 3D-печати, сообщает MIT News. Дело в том, что современные технологии позволяют практически каждому придумать и напечатать какой угодно предмет, но часто из поля зрения выпадает его предназначение. Например, в погоне за красотой и оригинальностью можно так изменить основание вазы, что она будет постоянно падать. Предложенный MIT инструмент Style2Fab помогает подобных ошибок избежать. В его основе — алгоритмы генеративного искусственного интеллекта, которые позволяют автоматически выделять в 3D-моделях функциональные и эстетические части. За счет этого пользователи могут менять дизайн предмета по своему усмотрению, но так, чтобы свою функцию он по-прежнему выполнял. Самое сложное в этой работе — классификация сегментов предмета по их влиянию на функциональность. Как ученые эту задачу решали, расписано в препринте.

Google, OpenAI и Amazon объявили о существенной прокачке своих ИИ-помощников

Google, OpenAI и Amazon рассказали, какие новые возможности появятся или вот только появились у их детищ – Bard, ChatGPT и Alexa соответственно. Начнем с Google. Теперь Bard при установке соответствующих расширений может использовать информацию из других сервисов Google — Gmail, Docs, Drive, Google Maps, YouTube и прочих. Еще у пользователей появилась возможность продолжать с ботом разговоры, которые были начаты другими пользователями, – задать дополнительные вопросы, например (для этого нужно иметь ссылку на беседу в открытом доступе). Но самое ценное, наверное, то, что у Bard добавилась функция перепроверки ответов. Если утверждение бота поддается проверке, нужно просто кликнуть на кнопку Google it, чтобы получить информацию из Google Поиска и посмотреть, не противоречит ли утверждение найденным дополнительным источникам. OpenAI же сосредоточилась на голосовых и графических возможностях ChatGPT. Через пару недель пользователи Plus и Enterprise смогут общаться с ChatGPT голосом и показывать ему при этом картинки. Например, можно продемонстрировать боту фото с путешествия и голосом обсудить, что в ней примечательного, или же сфотографировать холодильник и запросить голосовую инструкцию для пошагового рецепта ужина из того, что есть. У Alexa же множетсво ожидаемых до конца года обновлений направлено на создание более доступной и безопасной домашней среды и упрощение творчества. Из самого интересного: можно будет управлять преднастроенными действиями с помощью взгляда (функция необходима для людей с ограничениями в речи и мобильности), получать перевод звонков с иностранного языка в реальном времени, а также лишь с помощью голоса и воображения создавать изображения с помощью генеративного ИИ на Fire TV. Больше можно узнать в соответствующих блогах по ссылкам в начале этой заметки.

Китай прорабатывает новую технологию для производства полупроводниковых чипов

В инфопространстве Поднебесной поднялась нешуточная волна обсуждений касательно новой технологии на основе ускорителей частиц в качестве источников фотонов для фотолитографии, применяемой при производстве полупроводниковых чипов. South China Morning Post со ссылкой на ученых с большим позитивом сообщает, что это прорыв, который позволит Китаю обойти санкции США и в скором времени стать лидером по производству полупроводниковых чипов. Также утверждается, что уже ведутся переговоры по строительству огромного ускорителя частиц, чтобы применить на практике передовую технологию. Однако этот позитив разделяют не все. В частности, весьма влиятельный в Китае научный блогер Ван Цзе (汪诘) утверждает, что эта технология, о которой заговорили еще в 2010, сейчас на стадии верификации, да и наладить производство литографических машин — затея весьма сложная и наукоемкая. По его оценке, на это потребуется в лучшем случае 13 лет усилий. Свое мнение он обосновывает в этой статье (на китайском).

65% организаций в РФ применяют ИИ в тестовом режиме

Институт статистических исследований и экономики знаний НИУ ВШЭ опубликовал результаты мониторинга распространения и развития ИИ в России. Обследование более 2,3 тысяч организаций в 36 субъектах РФ показало, что примерно 65% из них пока используют ИИ в тестовом режиме, проверяя, действительно ли эта технология несет существенную пользу для бизнеса. В большинстве случаев ИИ-приложения комбинируются с другими цифровыми решениями — различным промышленным ПО, коммуникационными сервисами для маркетинга и взаимодействия с клиентами и пр. Самыми востребованными среди российских компаний являются продукты на основе компьютерного зрения и синтеза речи.