karpov.courses

Выделяют два типа классического machine learning: «с учителем» и «без учителя».

● Обучение «с учителем» — supervised learning — подразумевает, что программист выступает в роли педагога и не бросает систему один на один с задачей, а предлагает ей специальную обучающую выборку: набор вопросов и правильных ответов.

В нашем примере с изображениями это будет множество пар «фотография — пол человека». «Просмотрев» достаточное количество образцов, программа выведет закономерности — а потом сможет сама определять пол по фото. Это называется классификация.

● Обучение «без учителя» — unsupervised learning — применяется в задачах, где не может быть ни обучающей выборки, ни даже вариантов ответа — только данные.

Скажем, у нас есть огромный массив изображений людей, и мы хотим получить о них как можно больше информации. Программа не знает, к какой расе или полу принадлежит человек на фото. Однако, принимая на вход признаки изображения (кстати, feature selection — это отдельная тема для разговора), алгоритм вычленяет наиболее значимые из них и на их основании выделяет кластеры объектов. В результате мы можем получить группировку по самым разным визуальным характеристикам, то есть кластеризацию.

P.S. Помимо классификации (это пёс или кот?) и кластеризации (давайте поделим всех на группы!) к ключевым задачам ML относится регрессия. Это ещё один вариант обучения «с учителем»: предсказание числовых значений на основе известных данных (вчера 1, сегодня 2 — сколько завтра?)

Для решения каждой задачи машинного обучения придуман не один алгоритм. Линейная и логистическая регрессия, деревья решений, байесовский классификатор и метод kNN… Всё это — только самая верхушка supervised learning.

Мы хотим сделать серию постов с разбором базовых алгоритмов ML, что называется, на пальцах: чтобы у вас была возможность чуть ближе прикоснуться к изнанке data science.

Есть идеи, с чего начать?