Есть ли рисерч в Лаборатории машинного обучения?
🧪 Лаборатория по определению ассоциируется с исследованиями, но в нашей команде нет рисерча в классическом представление - мы не пишем статьи в цитируемые журналы и не выступаем на научных конференциях. Более того, 95% наших моделей идут в продашкн.
❓ Какими же исследованиям мы занимаемся и когда переключимся на общепринятые?
💭 Лаборатория образовалась вместе с централизацией функции анализа данных в банке полтора года назад, когда data science был в зачаточной стадии в компании. На тот момент существовало большое количество процессов принятий решений непокрытых моделями машинного обучение. В виду этого обстоятельства, мы в первую очередь сфокусировались на внедрении в ключевые процессы банка нейронные сетей и полностью отказались от привычного рисерча. Более того, Лаборатория является абсолютным лидером в банке по количеству внедренных в продашн моделей. В результате, у бизнеса сформировалось доверие к сеткам, что поможет в будущем их развитию.
👉 Исследования своевременны тогда, когда вы уже выжали максимум для бизнеса за счет общедоступных инструментов и для совершения следующего шага вам требуются делать прорыв в области. В противном случае, исследования не принесут пользы бизнесу, ибо не ясно какой именно процесс нуждается в улучшении.
👉 В практически-ориентированном анализе данных исследования отличаются от тех, что вы можете прочитать на arxiv.
💭 Постановка задач в новом бизнес-процессе в терминах комплекса моделей машинного обучения считается исследованием. Переход с простой аналитики принятии решений на модельный тоже можно отнести к этой области. Добавление новых данных для усиления действующих моделей также считается исследованием, но уже направленное на анализ самого источника.
💭 Процесс внедрения нейронных сетей для различных бизнес-задач становится уже такой же рутиной, как и подбор гипер-параметров для градиентного бустинга. Модели с ноги заходят в 80% core-задач банка и выжимают максимум из данных (как минимум в соревнованиях никто больше не выжал). Не смотря на этот практически полезный факт, ключевые идеи не являются новаторскими и очевидны всем, кто раньше занимался NLP.
❓Как отказаться от рутины и перейти к исследованиям?
👉 Сервисы по автоматическому обучению и внедрению моделей в продакшн позволяют избавить дата сайентистов от рутинных задач и перейти, наконец, к исследованиям в классическом понимании. В результате, вы ускоряете TTM и находите время на развитие мозгов сервиса - исследования.
💭 Мы уже оптимизировали задачу семантического анализа произвольной коллекции текстовых документов. В следующем году оптимизируем и построение нейронных сетей для core-бизнес задач.
🙅♂️ В итоге, сейчас в Лаборатории практически нет классического рисерча, но он обязательно появится после перевода рутины в сервисы.
👋 P.S. пишите в ЛС если вы сейчас тоже в отпуске в Бангкоке.
#research
🧪 Лаборатория по определению ассоциируется с исследованиями, но в нашей команде нет рисерча в классическом представление - мы не пишем статьи в цитируемые журналы и не выступаем на научных конференциях. Более того, 95% наших моделей идут в продашкн.
❓ Какими же исследованиям мы занимаемся и когда переключимся на общепринятые?
💭 Лаборатория образовалась вместе с централизацией функции анализа данных в банке полтора года назад, когда data science был в зачаточной стадии в компании. На тот момент существовало большое количество процессов принятий решений непокрытых моделями машинного обучение. В виду этого обстоятельства, мы в первую очередь сфокусировались на внедрении в ключевые процессы банка нейронные сетей и полностью отказались от привычного рисерча. Более того, Лаборатория является абсолютным лидером в банке по количеству внедренных в продашн моделей. В результате, у бизнеса сформировалось доверие к сеткам, что поможет в будущем их развитию.
👉 Исследования своевременны тогда, когда вы уже выжали максимум для бизнеса за счет общедоступных инструментов и для совершения следующего шага вам требуются делать прорыв в области. В противном случае, исследования не принесут пользы бизнесу, ибо не ясно какой именно процесс нуждается в улучшении.
👉 В практически-ориентированном анализе данных исследования отличаются от тех, что вы можете прочитать на arxiv.
💭 Постановка задач в новом бизнес-процессе в терминах комплекса моделей машинного обучения считается исследованием. Переход с простой аналитики принятии решений на модельный тоже можно отнести к этой области. Добавление новых данных для усиления действующих моделей также считается исследованием, но уже направленное на анализ самого источника.
💭 Процесс внедрения нейронных сетей для различных бизнес-задач становится уже такой же рутиной, как и подбор гипер-параметров для градиентного бустинга. Модели с ноги заходят в 80% core-задач банка и выжимают максимум из данных (как минимум в соревнованиях никто больше не выжал). Не смотря на этот практически полезный факт, ключевые идеи не являются новаторскими и очевидны всем, кто раньше занимался NLP.
❓Как отказаться от рутины и перейти к исследованиям?
👉 Сервисы по автоматическому обучению и внедрению моделей в продакшн позволяют избавить дата сайентистов от рутинных задач и перейти, наконец, к исследованиям в классическом понимании. В результате, вы ускоряете TTM и находите время на развитие мозгов сервиса - исследования.
💭 Мы уже оптимизировали задачу семантического анализа произвольной коллекции текстовых документов. В следующем году оптимизируем и построение нейронных сетей для core-бизнес задач.
🙅♂️ В итоге, сейчас в Лаборатории практически нет классического рисерча, но он обязательно появится после перевода рутины в сервисы.
👋 P.S. пишите в ЛС если вы сейчас тоже в отпуске в Бангкоке.
#research