NLP-разработчик MTS AI Игорь Буянов подробно рассказывает, что такое смещение в датасетах, почему оно возникают, как влияет на работу модели и какие существуют подходы для борьбы с ним.
Смещение в датасетах: определение, причины, способы борьбы
Под смещением в датасетах понимается возникновение взаимосвязей между входными и выходными данными, которые абсолютно не желательны и которые появляются в самый неожиданный момент. Такие смещения «путают» модель, из-за чего она дает ложно положительные срабатывания. Кажется, что модель работает хорошо, но,когда начинаешь использовать ее в реальности, результат сложно назвать удовлетворительным.
Игорь Буянов, NLP-разработчик MTS AI, подробно изучил этот вопрос и в своей статье для Habr и поделился результатами своих исследований.
Хотя не существует строгой классификации факторов возникновения смещений, Игорь сформулировал несколько возможных причин: предвзятость разметчиков, отсутствие баланса, нерепрезентативность и неправильный режим обучения. Как же бороться со смещением?
Игорь отметил несколько способов. Это:
- удаление части примеров, отражающих смещение;
- ручная/автоматическая идентификация смещения и построение модели с его учетом;
- датасеты с механизмами подавления смещений;
- исправление датасетов через добавление примеров, тем самым уменьшая влияние смещения.
Игорь детально рассматривает первый и второй способы борьбы со смещением. Ответы на вопросы, как работают данные способы, какие алгоритмы используются и как они влияют на результативность работы модели, вы найдете в оригинальной статье на