Продолжим!



Как выглядит работа датасотониста?

- Выбрать проблему достойную решения.

- Достать или собрать данные для обучения.

- Feature engineering

- Построить модель

- Запустить в продакшен, убедиться что есть польза

На каждом шаге можно вернуться к одному из предыдущих, что постоянно и случается.



Что же делают на каггле? Самую кроху фичаинжениринга и само моделирование. Это меньшая из всех проблем вообще.



Что ещё очень важно понимать, так это то что точность модели не транслируется в деньги напрямую.



Но зато весь дроч на каггле именно на accuracy, precision и recall. Полностью игнорируя потраченное время, вычислительную сложность полученной модели. А реальность такова, что логистическая регрессия по соотношению качества и тех 5 минут что вы на неё потратили выебет вообще всё и заработает за год всего на пару копеек меньше, чем более сложная модель.



Ну ладно, какая-то польза от каггла есть. Это поможет автоматизировать этот почти не требующий мозгов кусочек работы датасотониста. Посмотрите хоть вон на https://www.h2o.ai/driverless-ai/



Уверен что эта работа точно будет скоро полностью автоматизирована, вспомните гугловые нейронки, которые дизайнят нейронки.



Скоро напишу про распределённое обучение и бигдату. Подписывайтесь http://twitter.com/SiliconBangalor/ лайкайте, шарьте.