Разбираемся со смещениями в датасетах вместе с MTS AI

fgfg Picture

NLP-разработчик MTS AI Игорь Буянов подробно рассказывает, что такое смещение в датасетах, почему оно возникают, как влияет на работу модели и какие существуют подходы для борьбы с ним.

Смещение в датасетах: определение, причины, способы борьбы

Под смещением в датасетах понимается возникновение взаимосвязей между входными и выходными данными, которые абсолютно не желательны и которые появляются в самый неожиданный момент. Такие смещения «путают» модель, из-за чего она дает ложно положительные срабатывания. Кажется, что модель работает хорошо, но,когда начинаешь использовать ее в реальности, результат сложно назвать удовлетворительным.

Игорь Буянов, NLP-разработчик MTS AI, подробно изучил этот вопрос и в своей статье для Habr и поделился результатами своих исследований.

Хотя не существует строгой классификации факторов возникновения смещений, Игорь сформулировал несколько возможных причин: предвзятость разметчиков, отсутствие баланса, нерепрезентативность и неправильный режим обучения. Как же бороться со смещением?

Игорь отметил несколько способов. Это:

  • удаление части примеров, отражающих смещение;
  • ручная/автоматическая идентификация смещения и построение модели с его учетом;
  • датасеты с механизмами подавления смещений;
  • исправление датасетов через добавление примеров, тем самым уменьшая влияние смещения.

Игорь детально рассматривает первый и второй способы борьбы со смещением. Ответы на вопросы, как работают данные способы, какие алгоритмы используются и как они влияют на результативность работы модели, вы найдете в оригинальной статье на Habr.

Новости
Главное за последнее время
Смотреть все
Технологии
MTS AI выводит на рынок нового ИИ-ассистента для разработчиков
События
Вебинар «Как бизнесу использовать LLM в 2025 году»
События
Вебинар: как с помощью ИИ защитить бизнес и репутацию от дипфейков
События
Вебинар: разговор на языке данных
ВобъективеИИ
Предсказания Маска и конкуренция на ИИ-поле
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
ВобъективеИИ
Язык дельфинов и самодетоксикация LLM
ВобъективеИИ
ИИ-хакеры и новые конкуренты DeepSeek
Новости команды
Исследование MTS AI: У 70% программистов есть претензии к ИИ-ассистентам для написания кода, но большинство признает их пользу
MTS AI в медиа
Агенты выстраиваются в линейку
Технологии
MTS AI выпустила Cotype Pro 2 — второе поколение LLM для бизнеса
MTS AI в медиа
Эксперт рассказал, когда ИИ сможет обрабатывать все медицинские снимки
ВобъективеИИ
Мем-творчество ИИ и риски AGI
Кейсы
Сервис МТС Live подключил нейросеть от MTS AI к генерации описаний для билетной витрины
Решения
Детектор мошенничества в текстовых и голосовых сообщениях