Python Machine Learning (2015)

Автор: Себастьян Рашка



#python #data_analysis #book



Сейчас данные льются на нас сплошным потоком. По одной из последних оценок ежедневно генерируется 2,5 квинтиллиона (10^18) байт данных. Объемы неимоверные: более 90% информации, которую мы сейчас храним, было сгенерировано в течение прошлого десятилетия. К сожалению, большая часть этой информации такова, что человек не может ею воспользоваться. Либо эти данные не поддаются стандартной аналитической обработке, либо данные слишком обширны, чтобы мы могли их хотя бы осмыслить.

Благодаря машинному обучению, компьютеры могут обрабатывать такие данные, учиться на них и извлекать опорную информацию (actionable data) из-за практически непроницаемых стен «больших данных». В основе работы разнообразных устройств от суперкомпьютеров, обеспечивающих поиск в Google, до смартфонов, помещающихся в кармане, лежат принципы машинного обучения, при помощи которого мы познаем большую часть окружающего мира, зачастую даже не подозревая об этом.

Что же такое «машинное обучение», как оно работает? Как машинное обучение поможет мне заглянуть в неведомое, прокачать мой бизнес или просто узнать, что Интернет-сообщество думает о моем любимом фильме? Все это вы узнаете из книги, вышедшей из-под пера моего хорошего друга и коллеги Себастьяна Рашки.



Эта книга не о “data science”. В ней ничего не говорится о формулировании гипотез, сборе данных и извлечении выводов по результатам анализа нетипичных или экзотических множеств данных; акцент сделан именно на машинном обучении. В книге рассмотрены такие темы, как работа с недостающими значениями, преобразование категорийных переменных в форматы, применимые при машинном обучении, выбор информативных свойств, сжатие данных с переносом в подпространства с меньшим количеством измерений. В книге есть целая глава об интерпретации моделей, где обсуждается перекрестная валидация с расщеплением выборки, k-блочная перекрестная валидация, вложенная перекрестная валидация, настройка гиперпараметров и другие показатели производительности. Для небольшого закрепления материала я добавил главу о встраивании моделей машинного обучения в веб-приложение, которым можно поделиться со всем миром.



Ссылка на пост с книгой

http://vk.com/wall-54530371_67655