Обзор методов чистки данных от MTS AI

fgfg Picture

Зачем чистить данные, какие методы чистки существуют и какие алгоритмы чистки используются подробно рассказывает NLP-разработчик MTS AI Игорь Буянов.

Что? Зачем? Как? Чистим данные и тестируем алгоритмы в MTS AI

В работе над проектами группы обработки естественного языка Игорь Буянов, NLP-разработчик MTS AI, занимается подготовкой и обработкой датасетов. Ввиду случайных и неслучайных ошибок возникают различные источники шума, которые препятствуют получению желаемого результата.

Picture

В статье для Habr Игорь разобрал значение и применение чистки данных, а также подробно рассмотрел варианты алгоритмов, применяемых для очистки этих шумов, и результаты их тестирования.

В подборку вошли шесть алгоритмов:

  • averaged representation 1: основывается на гипотезе, что шумные и редкие примеры лежат далеко от усредненного по каждой метке отдельно центра в пространстве признаков;
  • hybrid 2: модель может предсказывать истинный класс примера за счет генерализации;
  • plainILI или Iterative Label Improvement 3 с гипотезой о модели предсказать истинный класс примера за счет генерализации;
  • NBSVM 4 с более сложной иерархической структурой и использующий SVM для нахождения наиболее значимых примеров для классификации;
  • Leitner system 5 с имитацией естественных процессов;
  • TraceIn 6, главной задачей которого является определить влияние тренировочных примеров на предсказание примера тестовой выборки.

Какие концепции используют алгоритмы, из каких шагов состоят, при каких условиях проводилось их тестирование и какой из алгоритмов стал лидером по результатам тестирования, читайте в оригинальной статье на Habr.

Новости
Главное за последнее время
Смотреть все
Технологии
MTS AI выводит на рынок нового ИИ-ассистента для разработчиков
События
Вебинар «Как бизнесу использовать LLM в 2025 году»
События
Вебинар: как с помощью ИИ защитить бизнес и репутацию от дипфейков
События
Вебинар: разговор на языке данных
ВобъективеИИ
Предсказания Маска и конкуренция на ИИ-поле
Новости команды
MTS AI подписала декларацию об ответственной разработке генеративного ИИ
ВобъективеИИ
Язык дельфинов и самодетоксикация LLM
ВобъективеИИ
ИИ-хакеры и новые конкуренты DeepSeek
Новости команды
Исследование MTS AI: У 70% программистов есть претензии к ИИ-ассистентам для написания кода, но большинство признает их пользу
MTS AI в медиа
Агенты выстраиваются в линейку
Технологии
MTS AI выпустила Cotype Pro 2 — второе поколение LLM для бизнеса
MTS AI в медиа
Эксперт рассказал, когда ИИ сможет обрабатывать все медицинские снимки
ВобъективеИИ
Мем-творчество ИИ и риски AGI
Кейсы
Сервис МТС Live подключил нейросеть от MTS AI к генерации описаний для билетной витрины
Решения
Детектор мошенничества в текстовых и голосовых сообщениях