29.11.2021

Разбираемся в машинном обучении вместе с MTS AI

Что такое машинное обучение, как оно связано с искусственным интеллектом, что для него требуется и в чем заключается процесс — рассказываем простым языком в этой статье.

О машинном обучении: просто и по делу

Язык современного общества с каждым днем пополняется новыми терминами, значение которых не всегда очевидно. Казалось бы, понять, что такое искусственный интеллект, компьютерное зрение или машинное обучение относительно легко, но начинаешь разбираться и…. В этой статье мы постараемся на легких примерах и простыми словами объяснить, что такое машинное обучение, как оно работает и какое отношение имеет к искусственному интеллекту.

AI, ML – кто есть кто?

Для начала разберемся, как взаимосвязаны искусственный интеллект (AI) и машинное обучение (ML).

Искусственный интеллект – это термин, которым называют всю область изучения и применения инновационных технологий; направление, которое последнее время развивается в геометрической прогрессии. Машинное обучение является разделом этой области, ее инструментом.

Машинное обучение – это конкретное применение искусственного интеллекта; процесс, в рамках которого алгоритмы анализируют огромный объем предоставленных данных, находят в нем закономерности, запоминают их и предсказывают результат. Чем разнообразнее данные, тем быстрее и точнее результат. На сегодняшний день машины научились не только предсказывать, но запоминать, воспроизводить и выбирать лучшее.

Как проходит обучение?

Чтобы машина поняла, что от нее хотят, потребуются три составляющие: данные, признаки и алгоритмы.

Данные

Выбор данных зависит от желаемого результата. Например, для составления прогноза курса акций требуется история роста или падения цен. Если требуется отфильтровать спам-письма, машине нужны примеры такой нежелательной почты. Чтобы понять, каковы предпочтения пользователя, собираются данные о его лайках или постах. Объем такой информации важен для точности результата: чем больше, тем лучше. Где собрать столько вводных? Кто-то собирает вручную, кто-то автоматически. Первый способ позволяет избежать ошибок в данных, но занимает много времени. Автоматический способ подбирает все, что мало-мальски подходит: объем набирается быстро, но качество может быть ниже ожиданий.

Признаки

Чтобы машина не потерялась во всей той информации, что ей была предоставлена для анализа, в игру вступают признаки (features). Это то, что характеризует предмет, то, на что машина ориентируется. Таким признаком (часто его называют фичей) может быть цена акции, пол пользователя или пробег автомобиля. Отбор правильных характеристик может занять даже больше времени, чем само обучение. Важно не переборщить с количеством этих фич, иначе машина будет работать медленно и абсолютно не эффективно.

Алгоритм

Алгоритм – это то, как машина решает поставленную задачу. Точность и скорость выполнения, а также размер готовой модели будут зависеть от выбранного метода решения. На данном этапе становится понятно, достаточно ли данных и каково их качество. Даже самый лучший алгоритм не даст хороший результат при работе с данными низкого качества.

Виды машинного обучения

Сегодня выделяют четыре основных направления в машинном обучении: классическое обучение, обучение с подкреплением, ансамбли, нейросети и глубокое обучение (DL).

Классическое обучение

Такой вид обучения может проходить как с помощником (Supervised), так и без него (Unsupervised). В первом случае машине показывают, где правильный ответ, а где нет: например, где картинка с кошкой, а где с собакой. То есть данные заранее разделены, а обучение проходит на конкретных примерах. Во втором случае машина сама разбирается во всей полученной информации и ищет любые закономерности.

К Supervised обучению относятся классификация (машина предсказывает категорию) и регрессия (машина предсказывает значение). Примером классификации могут быть спам-фильтры или определение языка. Регрессия используется для прогноза стоимости ценных бумаг или при постановке медицинских диагнозов.

К Unsupervised обучению относятся кластеризация — машина разделяет данные по схожести, ассоциации — машина выявляет последовательности и уменьшение размерности — машина обобщает данные. Примером кластеризации может быть сегментация рынка, например, выявление типов покупателей или сжатие изображений. Ассоциации полезны при расстановке товаров на полках или анализе паттернов поведения на веб-сайтах. Обобщение может быть использовано в риск-менеджменте или для анализа фейковых изображений.

Обучение с подкреплением

Такой вид обучения напоминает компьютерную игру. Робот попадает в определенную среду и изучает ее, собирая данные. Главная задача робота – минимизировать ошибки и выжить. Если действие правильное, робот получает награду, если неправильное – получает «по шапке». Примером такого обучения служит беспилотный автомобиль, который учится ездить без приключений, или робот-пылесос.

Ансамбли

Создание ансамблей как вида обучения весьма эффективно. Заключается этот подход в простой идее: несколько эффективных алгоритмов обучаются исправлять ошибки друг друга. В итоге, результат получается качественнее того, что выдают каждый из методов по отдельности.

Существуют три способа создавать ансамбли: стекинг, беггинг и бустинг.

Стекинг – берутся несколько разных алгоритмов, обучаются, а полученные результаты передают на вход последнему, который принимает окончательное решение.

Беггинг: один алгоритм обучается на случайных выборках из данных, а ответы в самом конце усредняются. По такому же принципу работает камера в телефонах, очерчивая лица людей в аккуратный желтый квадрат.

Бустинг – несколько алгоритмов обучаются постепенно, при этом каждый последующий при обучении уделяет особое внимание моментам, где ошибся предыдущий алгоритм. Самый простой пример бустинга – это результаты поиска в соответствии с запросом, который был введен в поисковую строку.

Нейросети и глубокое обучение

Сегодня нейросети и глубокое обучение широко используются для определения объектов на фото и видео, машинного перевода, распознавания и синтеза речи, обработки изображений и других задач.

Нейросети напоминают работу мозга и состоят из нейронов и связей. Связями называют каналы, по которым нейроны обмениваются цифрами. Каждая связь обладает определенным весом, по которому нейрон ориентируется, как ему на эту связь реагировать. Нейроны связаны друг с другом слоями, которые позволяют поддерживать порядок внутри сети. При этом, внутри самого слоя связей у нейронов нет, — только с нейронами следующего или предыдущего уровня. Получая на входе данные, активируются соответствующие нейроны и слой за слоем «передают» информацию до выхода, где и достигается результат.

Нейросети универсальны в своем применении и за счет этого качества стали невероятно популярными. Однако для обучения сети с большим количеством слоев раньше требовались значительные мощности. Ситуация сдвинулась с места благодаря глубокому обучению: разработчики и ML-инженеры начали применять новые методы, которые теперь могут справиться с сетями больших размеров.

Что в итоге?

Уже сейчас мы видим результаты взаимодействия машины и человека. Прокачивая искусственный интеллект, человек сам развивается и раскрывает возможности своего мозга.

Предотвратить болезнь, составить прогноз развития промышленности и других областей, а также помочь в освоении космических пространств — машинное обучение облегчает нашу жизнь практически в каждой сфере деятельности, позволяя создавать и открывать новое.