16.11.2023

Успехи ИИ в тесте Тьюринга и прогнозе погоды

В этом выпуске #ВобъективеИИ мы расскажем, почему ученые не спешат заявлять, что GPT-4 успешно прошел тест Тьюринга, имеет ли ИИ представление об эмоциональном интеллекте и какие модели держат первенство в решении задач компьютерного зрения. А еще вы узнаете об LLM из Китая, способной обобщать длинные тексты, и о прорывной разработке Google DeepMind для прогноза погоды.

AI-focused digest – новости ИИ-сферы

Выпуск №29, 26 октября — 16 ноября 2023

GPT-4 прошел тест Тьюринга с результатом 41%, но ученые не спешат надевать ему корону

Ученые из Калифорнийского университета в Сан-Диего подвергли GPT-4 тесту Тьюринга и выяснили, что самая продвинутая ИИ-модель в мире способна успешно притвориться человеком в 41% случаев. Это впечатляющий результат, учитывая, что лучший показатель предыдущей версии — GPT-3.5 — 14%, а «проходным баллом» для теста считается 30%. Однако исследователи не уверены, что 30% — это подходящий критерий для оценки успеха. Более приемлемым видится 50% — тогда можно будет сказать, что в среднем следователь не в состоянии отличить ИИ от человека. Но даже достижение отметки в 50% может быть интерпретировано как случайность. Основываясь на результатах своих экспериментов и вышеприведенных оговорках, а также некоторых ограничениях исследования, ученые осторожно заявляют, что не нашли свидетельств того, что GPT-4 проходит тест Тьюринга. Он не преодолел ни уровень случайности, ни показатель людей — 63%, но в целом это кажется достижимым. Еще один важный вывод этого эксперимента — только лишь интеллекта недостаточно для прохождения теста Тьюринга, нужен еще и эмоциональный интеллект. Это следует из того, что суждения участников при определении, человек с ними взаимодействует или машина, базировались в основном на языковом стиле и социально-эмоциональных характеристиках ответов испытуемых. За подробностями — в статью. По этой теме, кстати, есть еще одно интересное исследование, которое утверждает, что LLM типа GPT-4 имеют представление об эмоциональном интеллекте, а эмоциональные стимулы в подсказках могут положительно повлиять на их работу.

Ученые из США проверили способности различных типов предобученных моделей в решении CV-задач

Теперь разработчикам будет проще выбирать из плеяды доступных типов предварительно обученных моделей для различных задач компьютерного зрения. Ученые из ряда университетов США и ИИ-лаборатории Meta (Meta признана экстремистской организацией и запрещена в РФ) провели масштабное исследование, в рамках которого сравнили целый комплекс предварительно обученных моделей для построения CV-решений. Все они были проверены на способности справляться с такими задачами компьютерного зрения, как классификация, обнаружение объектов и сегментация, Out-of-Distribution классификация и обнаружение объектов, поиск изображений в больших базах данных. Ключевые заключения исследователей с оценкой изученных моделей изложены в статье Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, а необработанные данные и код, с помощью которого разработчики могут проверить собственные модели, — на GitHub. Главная находка этой масштабной научной работы: вопреки стремительно растущей популярности визуальных трансформеров и обучения с самоконтролем, лучшие результаты по большинству задач компьютерного зрения все еще демонстрируют сверточные нейронные сети, предварительно обученные контролируемым образом на больших наборах данных.

Китайская LLM превзошла модель от Anthropic в обобщении длинных текстов

Китайский ИИ-стартап Baichuan рассказал о новой версии своей языковой модели, способной обрабатывать документы и целые романы размером в 350 тысяч китайских иероглифов. У нее большее контекстное окно, и по качеству ответов, а также пониманию и обобщению длинных текстов она превосходит, в частности, модель Claude 2 от Anthropic. Об этом пишет The South China Morning Post со ссылкой на компанию-разработчика. Кажется, что китайский ИИ практически наступает на пятки американскому.

ИИ от Google DeepMind бьет рекорды по скорости и точности предсказания погоды

Команда Google DeepMind на днях рассказала о своей ИИ-модели для предсказания погоды, работающей с беспрецедентной точностью и скоростью. Модель называется GraphCast. По качеству среднесрочных прогнозов она обгоняет так называемый «золотой стандарт» — систему HRES Европейского центра среднесрочных прогнозов погоды (ECMWF). По эффективности и скорости GraphCast тоже нет равных: для составления прогноза на 10 дней ей нужно менее минуты и достаточно одного Google TPU v4. Для сравнения: HRES на это требуется несколько часов вычислений на суперкомпьютере. GraphCast также умеет предсказывать экстремальные погодные условия, которые могут представлять опасность для человека. О прочих характеристиках и умениях новой модели от Google DeepMind детально рассказано в статье в Science и блоге компании.

CB Insights опубликовала «Библию по GenAI»

Если вы еще не слишком устали от лонгридов, то вот вам еще один. Аналитики из CB Insights подготовили 120-страничный документ под заголовком «Библия по GenAI». В нем коротко описан текущий ландшафт отрасли генеративного ИИ, дана оценка деятельности ведущих технологических компаний в этой области, рассказано о возможностях применения генеративной технологии в медицине, финансовом секторе и ритейле. А еще там вы найдете перечень из 50 GenAI-стартапов, за которыми нужно приглядывать, и список трендов, которые стоит держать в поле зрения. Скачать документ можно, заполнив форму по этой ссылке.