Фейковые цитирования и влияние синтаксиса на ответы ИИ

fgfg Picture

Встречайте ноябрьский выпуск #ВобъективеИИ! Поговорим о том, почему важно проверять источники цитат при подготовке научных публикаций с помощью ИИ, влиянии выученных синтаксических шаблонов на ответы генеративных моделей и новом бенчмарке для оценки знаний LLM по физике. Ну и напоследок расскажем про решение «проблемы памяти» от Google и исследовании Anthropic по эффективности команды «ИИ+человек» в различных профессиях. 

AI-focused digest – новости ИИ-сферы

Выпуск № 73, ноябрь 2025

Citation Check выявил фейковые цитирования в научных работах на ICLR

Команда GPTZero проверила с помощью инструмента Citation Check 300 статей, поданных на престижную научную конференцию ICLR. В 50 публикациях (а это ⅙ выборки) были обнаружены выдуманные цитирования, упущенные рецензентами. Зачастую они представляли собой смесь названий, авторов и метаданных из разных реальных источников – типичные галлюцинации LLM. Авторы полагают, что масштаб проблемы намного больше. Пока проверена лишь малая доля из более 20 тыс. научных заявок – ожидается, что в итоге будут выявлены сотни статей с ложными цитатами. Узнать больше

LLM могут выдавать ошибочные ответы, руководствуясь синтаксисом 

Учёные из MIT выявили серьёзный недостаток больших языковых моделей: они иногда отвечают не на основе понимания предметной области, а опираясь на знакомые синтаксические шаблоны. Например, если модель выучила структуру вопроса «Where is Paris located?», то на бессмысленный по содержанию, но аналогичный по структуре запрос «Quickly sit Paris clouded?» она может всё равно ответить «Франция». Такое поведение снижает надёжность моделей и создаёт угрозы безопасности — злоумышленники могут использовать эти шаблоны, чтобы обходить защиты; в ответ авторы предлагают фреймворк для обнаружения подобных зависимостей в обученных моделях ещё до их внедрения. Подробнее

Ученые выпустили новых бенчмарк для оценки LLM на новых научных задачах 

Исследователи из ведущих мировых научных центров разработали новый бенчмарк для оценки способностей LLM решать реальные задачи в физике. Название бенча – CritPt, он содержит более 70 комплексных исследовательских задач и 190 более простых подзадач, разработанных учеными на основе собственных же научных работ и ранее нигде не публиковавшихся. Результаты показали, что современные модели, включая GPT-5, пока не могут надежно решать такого рода научные проблемы — точность не превышает 10% даже при использовании инструментов программирования. Узнать больше можно из этой статьи.

Google представила новую парадигму ML, решающую проблему «памяти» ИИ

Исследователи Google разработали новый подход к машинному обучению – Nested Learning (вложенное обучение), позволяющий моделям постоянно приобретать новые знания, не забывая старые. Если коротко, в новой ML-парадигме обучение рассматривается не как один процесс, а как совокупность взаимосвязанных задач оптимизации на нескольких уровнях. А еще архитектура модели и алгоритм ее обучения тоже не разграничиваются. Исходя из этого, ученые предложили новую архитектуру – Hope. Это самомодифицирующаяся рекуррентная система с неограниченными уровнями контекстного обучения. Ее отличие – в использовании множества систем памяти, обновляющихся с разной частотой. Тут все объяснено по-научному. 

Anthropic оценила влияние Claude на продуктивность в различных профессиях 

В тяжелой науке ИИ работает неэффективно без человека, а в бизнесе – человек проигрывает в эффективности без ИИ. Исследование Anthropic на базе 100 000 реальных диалогов с Claude показало, что искусственный интеллект уже ускоряет выполнение задач специалистов примерно на 80%, экономя десятки и сотни человеко-часов, особенно в таких сферах, как управление, юриспруденция и ИТ. Если в течение 10 лет внедрить существующие LLM во все профессии,, получается +1,8 п.п. к ежегодному росту производительности труда в США. Все выводы и расчеты приведены здесь

Новости
Главное за последнее время
Смотреть все
Решения
MWS AI представила платформу для создания корпоративных ИИ-агентов в едином интерфейсе
Технологии
MWS AI разработала новую LLM с продвинутыми агентными навыками
Технологии
MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом
Технологии
MWS AI выпускает открытого ИИ-ассистента для программистов
ВобъективеИИ
Научные исследования MWS AI 2025 года, которые стоит изучить
ВобъективеИИ
Фейковые цитирования и влияние синтаксиса на ответы ИИ
Исследования
MWS AI выпустила первый бенчмарк для оценки качества VLM, работающих на русском языке
Партнерства
MWS AI и DIS Group заключили технологическое партнерство
ВобъективеИИ
ИИ-мусор на работе и новый метод прунинга
Исследования
Опрос MWS AI и X5: каждый десятый житель Татарстана использует генеративный ИИ ежедневно
Исследования
Опрос MWS AI: 25% студентов признались, что пользовались нейросетями на экзаменах