Математические достижения ИИ и сохранение сов

fgfg Picture

В этом выпуске #ВобъективеИИ расскажем о золотых ИИ-медалистах по математике, паре новых исследований по рассуждающим моделям и большом научном обзоре сложностей и перспектив в автоматизации разработки ПО. А еще вас ждет добрая новость о том, как в Англии применяют ИИ для сохранения популяции сов.

AI-focused digest – новости ИИ-сферы

Выпуск № 69, 10-25 июля 2025

Исследование: длительные рассуждения могут снижать точность LLM

Новое исследование под руководством специалистов из Anthropic обнаружило еще одну проблему LLM, над которой придется поработать: увеличение длительности рассуждений моделей может негативно повлиять на их точность в решении задач. Это явление получило название «обратное масштабирование». Ученые протестировали модели на устойчивость к отвлекающим факторам, ложные корреляции, следование ограничениям и безопасность. Выяснилось, что при расширенных рассуждениях LLM могут отвлекаться на нерелевантную информацию в промптах, терять логику во время сложных дедуктивных задач, выдавать правдоподобные, но ошибочные заключения на основе случайных совпадений и более явно проявлять «инстинкт самосохранения». Препринт лежит здесь.

Ученые придумали, как улучшить точность LLM в задачах, требующих символьных вычислений

В MIT придумали, как помочь LLM эффективнее и точнее решать сложные задачи, предполагающие символьные вычисления, типа умножения чисел, планирования цепочек поставок или игры в судоку. Их идея в том, чтобы использовать небольшую нейросеть как своего рода «тренера» для большой языковой модели. Этот тренер, которого назвали CodeSteer, подсказывает LLM, когда нужно прибегать к текстовым рассуждениям, а когда переходить в режим работы с кодом, анализирует результаты и опять выдает рекомендации по улучшениям, пока не сочтет ответ корректным. Эксперименты показали, что метод может повысить точность ответов LLM в комплексных задачах, требующих символьных вычислений, более чем на 30%. Ознакомиться с подходом детально можно тут

Эксперты определили основные сложности на пути к автономной разработке ПО

Ученые из ряда университетов США опубликовали статью Challenges and Paths Towards AI for Software Engineering с обзором текущих достижений и основных сложностей на пути к автоматизации разработки ПО с помощью ИИ. В ней они аргументированно показывают, что современные ИИ-инструменты, хоть и значительно продвинулись в генерации кода, пока не способны превзойти человека в разработке. Среди основных трудностей — слабая работа с большими кодовыми базами, ограниченные возможности в рефакторинге, ошибки в генерации, недостаточное понимание контекста и требований пользователей, низкая эффективность в поиске багов в сложных системах и пр. В работе представлен таксономический подход к классификации задач, выделены ключевые технические ограничения современных моделей и предложены перспективные направления исследований, которые помогут приблизиться к высокоуровневой автоматизации. Обязательно к прочтению для всех, кто создает ИИ для программистов (всего то 76 страниц). 

В Великобритании разрабатывают ИИ-систему для сохранения популяции сов

Вряд ли в этом дайджесте были новости милее. В Университете Борнмута (Великобритания) разрабатывают ИИ-модель для поддержки орнитологических исследований, в частности для сохранения популяции сов-сипух. Пока разработка находится на ранней стадии, но уже позволяет определять количество сов, различая их индивидуальные крики. Решение избавляет от необходимости использовать видеокамеры для подсчета птиц, что здорово снижает стрессовое воздействие на них, и дает возможность вести учет пернатых в труднодоступных местах гнездования. Еще одна функция этой ИИ-системы – изучение смысла издаваемых совятами звуков. Предполагается, что характерное шипение у них служит способом договориться о том, кто будет накормлен родителями в следующий раз. Подробности есть на сайте университета. 

ИИ взял золотую медаль на Международной математической олимпиаде

Ну и в заключение – новые достижения ИИ. На днях компания Google объявила, что ее  продвинутая модель Gemini Deep Think успешно решила пять из шести задачи и набрала необходимое число баллов для золотой медали на Международной математической олимпиаде. Это одно из самых престижных соревнований для молодых математиков. Ранее ни одна модель не могла таким успехом похвастаться (в прошлом году ИИ мог претендовать только на серебро). OpenAI, к слову, тоже заявила об аналогичном достижении своей модели в математике, и даже раньше Google, однако ход решений ИИ пока не опубликовала. А с ходом решений Gemini уже можно ознакомиться – вот ссылка

Новости
Главное за последнее время
Смотреть все
ВобъективеИИ
Влияние опечаток на LLM и исследование генома
Технологии
MWS AI выпускает открытого ИИ-ассистента для программистов
ВобъективеИИ
Математические достижения ИИ и сохранение сов
ВобъективеИИ
Квантовые достижения, экологичный цемент и влияние ИИ на климат
ВобъективеИИ
Новая action-модель и отслеживание мыслей LLM
Решения
MTS AI выпустила корпоративных ИИ-помощников для поиска по документам и аналитики
Исследования
Более 60% россиян уже не могут отличить дипфейк от фотографии
ВобъективеИИ
Bring Your Own AI и новый метод обучения LLM от Alibaba
ВобъективеИИ
Язык дельфинов и самодетоксикация LLM
ВобъективеИИ
ИИ-хакеры и новые конкуренты DeepSeek