26.11.2025

Фейковые цитирования и влияние синтаксиса на ответы ИИ

Встречайте ноябрьский выпуск #ВобъективеИИ! Поговорим о том, почему важно проверять источники цитат при подготовке научных публикаций с помощью ИИ, влиянии выученных синтаксических шаблонов на ответы генеративных моделей и новом бенчмарке для оценки знаний LLM по физике. Ну и напоследок расскажем про решение «проблемы памяти» от Google и исследовании Anthropic по эффективности команды «ИИ+человек» в различных профессиях.

AI-focused digest – новости ИИ-сферы

Выпуск № 73, ноябрь 2025

Citation Check выявил фейковые цитирования в научных работах на ICLR

Команда GPTZero проверила с помощью инструмента Citation Check 300 статей, поданных на престижную научную конференцию ICLR. В 50 публикациях (а это ⅙ выборки) были обнаружены выдуманные цитирования, упущенные рецензентами. Зачастую они представляли собой смесь названий, авторов и метаданных из разных реальных источников – типичные галлюцинации LLM. Авторы полагают, что масштаб проблемы намного больше. Пока проверена лишь малая доля из более 20 тыс. научных заявок – ожидается, что в итоге будут выявлены сотни статей с ложными цитатами. Узнать больше.

LLM могут выдавать ошибочные ответы, руководствуясь синтаксисом

Учёные из MIT выявили серьёзный недостаток больших языковых моделей: они иногда отвечают не на основе понимания предметной области, а опираясь на знакомые синтаксические шаблоны. Например, если модель выучила структуру вопроса «Where is Paris located?», то на бессмысленный по содержанию, но аналогичный по структуре запрос «Quickly sit Paris clouded?» она может всё равно ответить «Франция». Такое поведение снижает надёжность моделей и создаёт угрозы безопасности — злоумышленники могут использовать эти шаблоны, чтобы обходить защиты; в ответ авторы предлагают фреймворк для обнаружения подобных зависимостей в обученных моделях ещё до их внедрения. Подробнее.

Ученые выпустили новых бенчмарк для оценки LLM на новых научных задачах

Исследователи из ведущих мировых научных центров разработали новый бенчмарк для оценки способностей LLM решать реальные задачи в физике. Название бенча – CritPt, он содержит более 70 комплексных исследовательских задач и 190 более простых подзадач, разработанных учеными на основе собственных же научных работ и ранее нигде не публиковавшихся. Результаты показали, что современные модели, включая GPT-5, пока не могут надежно решать такого рода научные проблемы — точность не превышает 10% даже при использовании инструментов программирования. Узнать больше можно из этой статьи.

Google представила новую парадигму ML, решающую проблему «памяти» ИИ

Исследователи Google разработали новый подход к машинному обучению – Nested Learning (вложенное обучение), позволяющий моделям постоянно приобретать новые знания, не забывая старые. Если коротко, в новой ML-парадигме обучение рассматривается не как один процесс, а как совокупность взаимосвязанных задач оптимизации на нескольких уровнях. А еще архитектура модели и алгоритм ее обучения тоже не разграничиваются. Исходя из этого, ученые предложили новую архитектуру – Hope. Это самомодифицирующаяся рекуррентная система с неограниченными уровнями контекстного обучения. Ее отличие – в использовании множества систем памяти, обновляющихся с разной частотой. Тут все объяснено по-научному.

Anthropic оценила влияние Claude на продуктивность в различных профессиях

В тяжелой науке ИИ работает неэффективно без человека, а в бизнесе – человек проигрывает в эффективности без ИИ. Исследование Anthropic на базе 100 000 реальных диалогов с Claude показало, что искусственный интеллект уже ускоряет выполнение задач специалистов примерно на 80%, экономя десятки и сотни человеко-часов, особенно в таких сферах, как управление, юриспруденция и ИТ. Если в течение 10 лет внедрить существующие LLM во все профессии,, получается +1,8 п.п. к ежегодному росту производительности труда в США. Все выводы и расчеты приведены здесь.