MTS AI присоединилась к одной из крупнейших конференций по разговорному ИИ в России. Компания стала партнером Conversations и хедлайнером технологического трека.
На конференции выступили руководитель группы поиска MTS AI Никита Крайко и руководитель группы Kodify Валентин Малых. Никита Крайко в своем докладе рассказал о подходах и инструментах для улучшения качества генеративных ответов языковых моделей (LLM) с использованием методов автоматической валидации и оценки, таких как RuRAGE (Robust Universal RAG Evaluator).
Валентин Малых присоединился к панельной дискуссии «Генеративный AI в разработке: yay or nay?», где вместе с другими экспертами обсудил помогают ли LLM сделать процесс создания программного обеспечения более эффективным: автоматизировать рутину и предсказывать потенциальные проблемы.
На выставке в рамках Conversations MTS AI представила стенд, на котором можно было узнать о продуктах и решениях компании, в том числе языковых моделях семейства Cotype, сделать пиксельное фото в фотобудке, поиграть в дартс и поучаствовать в викторине.
Основная суть доклада презентации заключается в обсуждении подходов и инструментов для улучшения качества генеративных ответов языковых моделей (LLM) с использованием методов автоматической валидации и оценки, таких как RuRAGE (Robust Universal RAG Evaluator). Также представлено применение моделей RAG (Retrieval-Augmented Generation) в задачах NLP и анализируются типы ошибок, метрики и методики их устранения.
Главные мысли доклада:
- Применение RAG:
- RAG позволяет обогащать диалоги информацией из внешних баз знаний, что улучшает релевантность и точность ответов.
- Основные задачи включают генерацию контекстуально обоснованных ответов и минимизацию ошибок.
- Типы ошибок LLM:
- Лингвистические ошибки (грамматика, лексика).
- Этические ошибки (некорректные или предвзятые высказывания).
- Фактологические ошибки (неверная или устаревшая информация).
- Методы устранения включают улучшение данных обучения, применение фильтров и механизмов проверки фактов.
- Метрики оценки:
- Relevance (релевантность ответа вопросу).
- Faithfulness (соответствие ответа контексту).
- Usefulness (соответствие эталонному ответу).
- Используются как детерминированные метрики, так и человеческая оценка.
- RuRAGE:
- Инструмент для валидации RAG-систем, объединяющий слабые метрики в ансамбль.
- Подготовка Golden-set эталонных ответов повышает точность оценки.
- Улучшает корреляцию результатов с человеческой оценкой.
- Feature Selection:
- Отбор признаков для оптимизации оценки, использование Uncertainty метрик.
- Лучшие результаты показывают метрики, связанные с точностью и последовательностью генерации.
- Результаты:
- RuRAGE и GPT-4o как инструменты оценки демонстрируют высокую корреляцию с человеческими оценками.
- Инструмент поддерживает работу с бинарной и мультиклассовой разметкой.
- Презентация модели Cotype Nano:
- Легковесная LLM с 1,5 млрд параметров, оптимизированная для минимального потребления ресурсов.
Если требуется более детальная информация по определённым разделам, уточните, пожалуйста!