Продолжим!
Как выглядит работа датасотониста?
- Выбрать проблему достойную решения.
- Достать или собрать данные для обучения.
- Feature engineering
- Построить модель
- Запустить в продакшен, убедиться что есть польза
На каждом шаге можно вернуться к одному из предыдущих, что постоянно и случается.
Что же делают на каггле? Самую кроху фичаинжениринга и само моделирование. Это меньшая из всех проблем вообще.
Что ещё очень важно понимать, так это то что точность модели не транслируется в деньги напрямую.
Но зато весь дроч на каггле именно на accuracy, precision и recall. Полностью игнорируя потраченное время, вычислительную сложность полученной модели. А реальность такова, что логистическая регрессия по соотношению качества и тех 5 минут что вы на неё потратили выебет вообще всё и заработает за год всего на пару копеек меньше, чем более сложная модель.
Ну ладно, какая-то польза от каггла есть. Это поможет автоматизировать этот почти не требующий мозгов кусочек работы датасотониста. Посмотрите хоть вон на https://www.h2o.ai/driverless-ai/
Уверен что эта работа точно будет скоро полностью автоматизирована, вспомните гугловые нейронки, которые дизайнят нейронки.
Скоро напишу про распределённое обучение и бигдату. Подписывайтесь http://twitter.com/SiliconBangalor/ лайкайте, шарьте.
Как выглядит работа датасотониста?
- Выбрать проблему достойную решения.
- Достать или собрать данные для обучения.
- Feature engineering
- Построить модель
- Запустить в продакшен, убедиться что есть польза
На каждом шаге можно вернуться к одному из предыдущих, что постоянно и случается.
Что же делают на каггле? Самую кроху фичаинжениринга и само моделирование. Это меньшая из всех проблем вообще.
Что ещё очень важно понимать, так это то что точность модели не транслируется в деньги напрямую.
Но зато весь дроч на каггле именно на accuracy, precision и recall. Полностью игнорируя потраченное время, вычислительную сложность полученной модели. А реальность такова, что логистическая регрессия по соотношению качества и тех 5 минут что вы на неё потратили выебет вообще всё и заработает за год всего на пару копеек меньше, чем более сложная модель.
Ну ладно, какая-то польза от каггла есть. Это поможет автоматизировать этот почти не требующий мозгов кусочек работы датасотониста. Посмотрите хоть вон на https://www.h2o.ai/driverless-ai/
Уверен что эта работа точно будет скоро полностью автоматизирована, вспомните гугловые нейронки, которые дизайнят нейронки.
Скоро напишу про распределённое обучение и бигдату. Подписывайтесь http://twitter.com/SiliconBangalor/ лайкайте, шарьте.