25.01.2024

Спящие агенты и новые возможности GPT

В этом выпуске #ВобъективеИИ вы узнаете о том, смогли ли ученые победить «спящих агентов» внутри LLM, каким образом GPT могут влиять на человеческий мозг и какую еще методику придумали для самообучения больших моделей. А еще – чем оказался полезен опыт авиации для регулирования ИИ в здравоохранении и в каких отраслях внедрение компьютерного зрения более выгодно.

AI-focused digest – новости ИИ-сферы

Выпуск №34, 11-25 января 2024

«Спящие агенты» внутри LLM устояли против стандартных методов обезвреживания

Специалисты из Anthropic и еще нескольких исследовательских центров, проведя серию экспериментов с внедрением «спящих агентов» (вредоносных функций, которые можно заложить в модели ИИ и активировать специальной командой), пришли к неутешительному выводу — таких агентов может быть сложно обнаружить и еще сложнее обезвредить. По крайней мере стандартные методы для этого могут не сработать. Ученые сначала «вживили» в LLM вредную стратегию поведения — писать безопасный код, если текущим годом в промпте указан 2023 или ранее, и уязвимый — если 2024 и позже. Затем они попытались отучить модель делать это, применив различные методы: контролируемую тонкую настройку, обучение с подкреплением и состязательное обучение. В ряде случаев «спящий агент» проявил завидную устойчивость к действиям по обезвреживанию. Более того, ученые обнаружили, что модель может научиться эффективно маскировать такое вредоносное поведение и создавать иллюзию безопасности. Последствия этого могут быть невообразимо печальными, так что разработчикам придется озадачиться поиском новых подходов для защиты ИИ от злоумышленников. Ознакомиться с исследованием Anthropic можно по этой ссылке.

На мозг человека можно влиять с помощью GPT

Кажется, совершен еще один прорыв на стыке ИИ и нейробиологии. Междисциплинарная группа ученых показала, что с помощью генеративных трансформеров (GPT) можно не только создавать тексты на естественном языке, но и прогнозировать и даже контролировать реакции в частях человеческого мозга, отвечающих за речь. Результаты исследования были опубликованы в Nature Human Behaviour (доступ по подписке). Суть: ученые создали модель кодирования на основе GPT, которая успешно предсказывала ответы языковой сети мозга на те или иные предложения. А затем эта же модель не менее успешно смогла подобрать предложения для получения желаемой реакции — подавления или наоборот стимулирования мозговой активности. Вывод — с помощью нейросетей можно неинвазивно влиять на нейтронную активность в языковой сети человеческого мозга.

LLM смогут обучаться без человека

Исследователи из компании Meta (признана экстремистской и запрещена в РФ) и Нью-Йоркского университета разработали новую методику, позволяющую большим языковым моделям обучаться без человека. Дело в том, что сейчас LLM учатся на модели вознаграждений, построенной на базе ответов людей, а это имеет свои ограничения. В частности, люди не могут ответить на все возможные вопросы. Плюс сами эти модели вознаграждений как бы заморожены и не могут самосовершенствоваться во время обучения LLM. Идея ученых проста — научить большие языковые модели генерировать вознаграждения самим себе во время обучения и совершенствоваться в этом от поколения к поколению. Это своего рода обучение новых поколений LLM на базе предыдущих. Для реализации идеи в жизнь исследователи разработали новую итеративную методику обучения. Опробовав ее на Llama 2 70B, за три итерации они получили модель, которая превзошла Claude 2, Gemini Pro и GPT-4 0613. Больше о подходе и его тестировании читайте в статье.

MIT: компьютерное зрение станет более выгодным к 2030 году

Согласно исследователям MIT, пока в США из примерно 1000 задач, связанных с визуальной поддержкой, экономически эффективно с помощью технологий компьютерного зрения можно автоматизировать лишь 3%. Но эта цифра может вырасти до 40% к 2030 году, если стоимость сбора, хранения и обработки данных снизится, а их качество улучшится. Об этом пишет Bloomberg. Сейчас, как утверждает агентство со ссылкой на исследование, внедрение компьютерного зрения наиболее выгодно в таких сегментах, как розничная торговля, транспорт и складирование. К этому списку также присоединяется здравоохранение. Вот ссылка на 45-страничный документ MIT с пояснениями.

Опыт авиации оказался полезным для регулирования ИИ в здравоохранении

Международная группа ученых нашла вдохновение в авиации для разработки правил регулирования ИИ в здравоохранении. Свои мысли о том, как опыт авиаотрасли, прошедшей путь от крайне опасной до одной из самых безопасных, пригодится для снижения рисков применения искусственного интеллекта в сфере охраны здоровья, они изложили в научной статье Taking Off with AI: Lessons from Aviation for Healthcare. В частности, им удалось вывести три полезных урока, важных для улучшения медицинского ИИ. Заинтересовались? Тогда придется прочитать статью.