Спящие агенты и новые возможности GPT

fgfg Picture

В этом выпуске #ВобъективеИИ вы узнаете о том, смогли ли ученые победить «спящих агентов» внутри LLM, каким образом GPT могут влиять на человеческий мозг и какую еще методику придумали для самообучения больших моделей. А еще – чем оказался полезен опыт авиации для регулирования ИИ в здравоохранении и в каких отраслях внедрение компьютерного зрения более выгодно. 

AI-focused digest – новости ИИ-сферы

Выпуск №34, 11-25 января 2024

«Спящие агенты» внутри LLM устояли против стандартных методов обезвреживания

Специалисты из Anthropic и еще нескольких исследовательских центров, проведя серию экспериментов с внедрением «спящих агентов» (вредоносных функций, которые можно заложить в модели ИИ и активировать специальной командой), пришли к неутешительному выводу — таких агентов может быть сложно обнаружить и еще сложнее обезвредить. По крайней мере стандартные методы для этого могут не сработать. Ученые сначала «вживили» в LLM вредную стратегию поведения — писать безопасный код, если текущим годом в промпте указан 2023 или ранее, и уязвимый — если 2024 и позже. Затем они попытались отучить модель делать это, применив различные методы: контролируемую тонкую настройку, обучение с подкреплением и состязательное обучение. В ряде случаев «спящий агент» проявил завидную устойчивость к действиям по обезвреживанию. Более того, ученые обнаружили, что модель может научиться эффективно маскировать такое вредоносное поведение и создавать иллюзию безопасности. Последствия этого могут быть невообразимо печальными, так что разработчикам придется озадачиться поиском новых подходов для защиты ИИ от злоумышленников. Ознакомиться с исследованием Anthropic можно по этой ссылке

На мозг человека можно влиять с помощью GPT

Кажется, совершен еще один прорыв на стыке ИИ и нейробиологии. Междисциплинарная группа ученых показала, что с помощью генеративных трансформеров (GPT) можно не только создавать тексты на естественном языке, но и прогнозировать и даже контролировать реакции в частях человеческого мозга, отвечающих за речь. Результаты исследования были опубликованы в Nature Human Behaviour (доступ по подписке). Суть: ученые создали модель кодирования на основе GPT, которая успешно предсказывала ответы языковой сети мозга на те или иные предложения. А затем эта же модель не менее успешно смогла подобрать предложения для получения желаемой реакции — подавления или наоборот стимулирования мозговой активности. Вывод — с помощью нейросетей можно неинвазивно влиять на нейтронную активность в языковой сети человеческого мозга. 

LLM смогут обучаться без человека

Исследователи из компании Meta (признана экстремистской и запрещена в РФ) и Нью-Йоркского университета разработали новую методику, позволяющую большим языковым моделям обучаться без человека. Дело в том, что сейчас LLM учатся на модели вознаграждений, построенной на базе ответов людей, а это имеет свои ограничения. В частности, люди не могут ответить на все возможные вопросы. Плюс сами эти модели вознаграждений как бы заморожены и не могут самосовершенствоваться во время обучения LLM. Идея ученых проста — научить большие языковые модели генерировать вознаграждения самим себе во время обучения и совершенствоваться в этом от поколения к поколению. Это своего рода обучение новых поколений LLM на базе предыдущих. Для реализации идеи в жизнь исследователи разработали новую итеративную методику обучения. Опробовав ее на Llama 2 70B, за три итерации они получили модель, которая превзошла Claude 2, Gemini Pro и GPT-4 0613. Больше о подходе и его тестировании читайте в статье.

MIT: компьютерное зрение станет более выгодным к 2030 году

Согласно исследователям MIT, пока в США из примерно 1000 задач, связанных с визуальной поддержкой, экономически эффективно с помощью технологий компьютерного зрения можно автоматизировать лишь 3%. Но эта цифра может вырасти до 40% к 2030 году, если стоимость сбора, хранения и обработки данных снизится, а их качество улучшится. Об этом пишет Bloomberg. Сейчас, как утверждает агентство со ссылкой на исследование, внедрение компьютерного зрения наиболее выгодно в таких сегментах, как розничная торговля, транспорт и складирование. К этому списку также присоединяется здравоохранение. Вот ссылка на 45-страничный документ MIT с пояснениями. 

Опыт авиации оказался полезным для регулирования ИИ в здравоохранении

Международная группа ученых нашла вдохновение в авиации для разработки правил регулирования ИИ в здравоохранении. Свои мысли о том, как опыт авиаотрасли, прошедшей путь от крайне опасной до одной из самых безопасных, пригодится для снижения рисков применения искусственного интеллекта в сфере охраны здоровья, они изложили в научной статье Taking Off with AI: Lessons from Aviation for Healthcare. В частности, им удалось вывести три полезных урока, важных для улучшения медицинского ИИ. Заинтересовались? Тогда придется прочитать статью. 

Новости
Главное за последнее время
Смотреть все
События
Вебинар «Как бизнесу использовать LLM в 2025 году»
События
Вебинар «Биометрические сервисы в реалиях 572-ФЗ»
События
Вебинар: как с помощью ИИ защитить бизнес и репутацию от дипфейков
События
Вебинар: разговор на языке данных
ВобъективеИИ
Предсказания Маска и конкуренция на ИИ-поле
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
Технологии
MTS AI запускает открытую большую языковую модель
ВобъективеИИ
ИИ-интриги и промышленные коботы
ВобъективеИИ
Снижение цен на лидары и расцвет промышленной роботизации в Китае
ВобъективеИИ
«Кентавр» для имитации поведения человека и ИИ-вдохновение от Кандинского
ВобъективеИИ
Машина Хабермаса и дружба ИИ с аддитивными технологиями
Технологии
MTS AI открыл публичный доступ к демоверсии Kodify
Решения
MTS AI создала ИИ-помощника для банковских сотрудников
ВобъективеИИ
Надежность LLM и альтернатива лидарам
События
FINOPOLIS 2024. 16-18 октября Сочи