15.08.2025

«Клод» с 1 млн токенов контекста и новая ИИ-модель для роботов

В этом выпуске дайджеста #ВобъективеИИ: исследование рисков GPT-5, расширение контекстного окна Claude Sonnet 4, очередная тревога касательно сгенерированного контента в научных публикациях, новая концепция микророботов и рассуждающая экшн-модель от Института искусственного интеллекта Аллена.

AI-focused digest – новости ИИ-сферы

Выпуск № 71, 7–14 августа 2025

Исследование METR: GPT-5 не достиг по возможностям опасного уровня

Исследователи из METR опубликовали независимую оценку безопасности буквально на прошлой неделе вышедшей модели GPT-5 от OpenAI. Получив доступ к модели на условиях NDA за месяц до официального релиза, они проверили ее по трем ключевым рискам:

автоматизация ИИ-исследований (при ускорении R&D за счет ИИ-автоматизации более чем в 10 раз, могут возникнуть неконтролируемые риски в случае кражи или неосторожного использования технологии);
угрозы выхода модели из-под контроля;
стратегическое саботирование – введение в заблуждение разработчиков.

Пока, по заключению экспертов, GPT-5 далек от порогов, вызывающих серьезные опасения, и не обладает способностями, которые могут привести к возникновению катастрофических рисков. Однако в ходе исследования ученые пришли к заключению, что с текущими темпами развития технологии, к этим опасным порогам возможностей ИИ может приблизиться уже к 2027-2028 годам.

Claude Sonnet 4 теперь может обрабатывать контекст до 1 млн токенов

Claude Sonnet 4 от Anthropic теперь может обрабатывать до 1 миллиона токенов контекста за один запрос. Это пятикратное увеличение, которое позволит анализировать целые программные проекты или десятки исследовательских работ за раз. Например, можно загружать кодовые базы на 75 000 строк кода. Подробности – на сайте разработчика.

Почти четверть публикаций по компьютерным наукам подготовлены с помощью LLM

Еще раз про использование ИИ для подготовки научных публикаций. Ученые из Стэнфордского университета, проанализировав более миллиона препринтов на arXiv и bioRxiv, а также статей в журналах Nature за 2022-2024 годы, обнаружили признаки использования LLM примерно в 22,5% научных работ по компьютерным наукам. Рост сгенерированного ИИ контента в научных изданиях и репозиториях начался с выпуском ChatGPT в 2022 году и особенно заметен в областях, тесно связанных с развитием самой технологии. Отмечается, что обнаруживать сгенерированные тексты становится всё сложнее, и это вызывает обеспокоенность касательно надежности научного рецензирования. Почитать исследование можно тут.

Разработана модель микророботов, способных координировать свои действия с помощью звуковых волн

Международная группа ученых разработала модель микророботов, которые с помощью звуковых волн способны образовывать самоорганизующиеся рои и действовать согласованно, как это делают, например, летучие мыши или киты. Эти микророботы, оснащенные простыми электронными схемами с микрофонами и динамиками, могут адаптироваться к окружающей среде, менять форму и даже восстанавливаться после повреждений. Такая технология может найти применение во множестве задач – от очистки загрязненных территорий до медицинских процедур внутри организма. Взаимодействие через акустическую связь является значительным шагом вперед в создании автономных интеллектуальных роботизированных систем. Подробности можно почитать на страницах Physical Review X.

Институт искусственного интеллекта Аллена выпустил новую опенсорсную ИИ-модель для роботов

Ученые из Института искусственного интеллекта Аллена представили новую опенсорсную ИИ-модель – MolmoAct — которую идентифицировали как Action Reasoning Model (рассуждающая модель действия). Предназначение – робототехника. Модель кодирует наблюдения и инструкции в токены восприятия, строит промежуточные пространственные планы в виде редактируемых траекторий и предсказывает точные низкоуровневые действия, за счет чего и обеспечивается объяснимое и управляемое поведение. MolmoAct-7B-D показала выдающиеся результаты на симуляциях и в реальных условиях, бросая вызов моделям схожего функционала от Google Nvidia по точности выполнения задач. Больше деталей есть в этом препринте.