10.04.2025

ИИ-хакеры и новые конкуренты DeepSeek

В этом выпуске #ВобъективеИИ разберем свежий AI Index Report, обсудим линейку гибридных LLM от нового стартапа из США и очередную разработку MIT для поиска новых лекарств. А еще поговорим о фреймворке для оценки RAG и угрозах кибербеза от ИИ-агентов.

AI-focused digest – новости ИИ-сферы

Выпуск № 63, 27 марта – 10 апреля 2025

Стартап из Сан-Франциско выпустил линейку конкурентов DeepSeek

На поле LLM появился новый игрок, имя которого стоит запомнить. Стартап из Сан-Франциско Deep Cogito, основанный выходцем из Google, на этой неделе выпустил свою первую линейку языковых моделей с открытым исходным кодом — Cogito v1 — способных составить конкуренцию LLaMA* и DeepSeek. Все модели — гибридные (сочетают стандартные элементы с рассуждением), то есть могут отвечать немедленно или брать паузу на «самоанализ», как серия «o» OpenAI и DeepSeek R1. «Модельный ряд» состоит из пяти базовых размеров: 3, 8, 14, 32 и 70 млрд параметров. Все обучались методом IDA (iterated distillation and amplification — итеративная дистилляция и усиление). По замерам, Cogito 70B (Standard) превосходит LLaMA 3.3 70B на MMLU на 6,4 балла (91,7% против 85,3%) и LLaMA 4 Scout 109B — по совокупным результатам тестов (54,5% против 53,3%). По сравнению с DeepSeek R1 Distill 70B, Cogito 70B (Reasoning) показывает более высокие результаты в общих и многоязычных тестах, с заметными 91,0% на MMLU и 92,7% на MGSM. Подробности есть на VentureBeat.

*LLaMA – открытая языковая модель, выпущенная компанией Meta Platforms, признанной экстремистской и запрещенной в РФ.

Вышел очередной AI Index Report от Стэнфордского университета

Пересказывать весь отчет на 400 с лишним страниц мы не будем. Вот лишь пять ценных инсайтов:

Весь 2024 год модели росли в производительности. В сложных бенчмарках MMMU, GPQA и SWE-bench оценки современных ИИ-систем выросли на 18,8, 48,9 и 67,3 процентных пункта соответственно.
Весь бизнес крутится вокруг ИИ. Особенно в США, где частные инвестиции в развитие технологии перевалили за 100 млрд долларов — это почти в 12 раз больше, чем в Китае.
Скоро уже не останется компаний, не применяющих ИИ. В 2024 году 78% организаций использовали технологии искусственного интеллекта. Интеллектуальные решения, что подтверждено исследованиями, повышают производительность и помогают сократить разрыв в навыках среди рабочей силы.
Глобальную ИИ-гонку возглавляют США и Китай. За прошлый год в штатах было создано 40 примечательных ИИ-моделей, в Поднебесной — 15.
Общее настроение касательно ИИ разнится в зависимости от стран. В Китае, Индонезии и Тайланде, например, видят от развития нейросетей больше пользы, чем вреда. А в Канаде, США, Нидерландах, Германии, Франции и Великобритании оптимизма значительно меньше.

Полный отчет тут.

В MIT придумали, как улучшить поиск новых лекарств с помощью ИИ

Исследователи из MIT и MIT-IBM Watson AI Lab в партнерстве с коллегами из Университета Нотр-Дама (США) разработали многообещающий инструмент на основе LLM, упрощающий процесс поиска новых лекарств. Он позволяет запрашивать на естественном языке молекулярные структуры с определенными свойствами и получать их подробное описание, а также пошаговый план для синтеза. В отличие других подходов к решению этой задачи с помощью языковых моделей, в новой разработке LLM работает в паре с мощными графовыми моделями искусственного интеллекта, специально созданными для прогнозирования молекулярных структур. Утверждается, что за счет этого решение генерирует молекулы, лучше соответствующие спецификации и имеющие более валидный план для синтеза. Подробности в этой статье.

Выпущен фреймворк с открытым кодом для оценки RAG

Компания Vectara совместно с учеными из Университета Ватерлоо выпустила фреймворк Open RAG Eval с открытым исходным кодом для оценки систем RAG (retrieval-augmented generation — генерация, дополненная поиском). С его помощью можно проанализировать работу RAG по четырем направлениям:

Обнаружение галлюцинаций — измеряет степень, в которой сгенерированный контент содержит сфабрикованную информацию, не подтвержденную исходными документами.
Цитирование — количественно определяет, насколько хорошо цитаты в ответе подтверждаются исходными документами.
Auto nugget — оценивает наличие существенных фрагментов информации из исходных документов в сгенерированных ответах.
UMBRELA — показывает общую производительность извлекателя.

Больше можно почитать на VentureBeat.

ИИ-агенты могут лишить работы хакеров

Эксперты по кибербезу предупреждают, что ИИ-агентов уже скоро можно будет вносить в топ угроз для информационной безопасности. Это лишь вопрос времени, когда злоумышленники перестанут нанимать хакеров-людей и перепоручат «темные» дела искусственному интеллекту с высоким уровнем автономности, пишет MIT Technology Review. ИИ-агенты, способные планировать, рассуждать и выполнять сложные задачи, могут использоваться для выявления уязвимых целей, захвата систем и кражи конфиденциальных данных в больших масштабах, при этом стоить дешевле услуг профессиональных взломщиков. Исследователи уже продемонстрировали их потенциал для воспроизведения сложных атак, так что самое время подумать над эффективными стратегиями обнаружения и реагирования на новой угрозы.