Вернёмся ка к спарку, gpu, параллельному обучению и всему вот этому.



Давайте представим что мы работаем не в самой маленькой компании, ну скажем в delivery hero и для простоты сейчас 2016 год. В этом году delivery hero выручит на всех рынках вместе 300млн или условно миллион в день. Для того чтоб получить верхнюю границу предположим что средний заказ всего 10 евро, итого 100к заказов в сутки. И мы, скажем, строим элементарную систему рекомендаций — что бы ещё положить в корзину. И делаем мы это используя данные за последние 3 месяца. Наш training set — 10млн заказов.



Это количество не то что в ноутбук, оно в телефон помещается. На кой хрен, спрашивается, вам может понадобится что то кроме питона или какого-нибудь там R или на крайний случай vowpal wabbit?



Дети, не ебите мозг. Самое главное в этой работе — как быстро вы можете делать очередную итерацию вашей модели и оценивать полученные результаты. И быстрее чем сделать это на ноутбуке не выйдет.



Речь конечно, в основном, про транзакционные данные, но это то, где зарыто ОЧЕНЬ много денег.



Представим что наш хреновый рекоммендер увеличил средний заказ на 0.1%. Очень посредственный результат, но в деньгах это уже 300к в год. Поздравляю, свою зарплату за этот год вы отбили, а работы было ну на неделю-две.