Обрабатываем терабайты данных в кредитном скоринге



🥱 Все знают, что в кредитном скоринге мы используем нейросетевые модели, которые трансформируют терабайты сырых данных в оценку благонадежности наших клиентов.



В предыдущих выступлениях делал акцент только на модели, на Saint HighLoad дал больше акцента на инфраструктуру. Основные тезисы выступления:



1️⃣ Построить инфраструктуру для обучения таких моделей довольно просто - достаточно купить отдельный мощный сервер.



2️⃣ Убедить бизнес инвестировать в железо чуть сложнее - необходимо научиться считать экономический эффект.



3️⃣ Внедрить решение на коленке и приносить пользу компании уже сейчас, пока не готовы все интеграции еще сложнее - необходимо взять на себе ответственность и передавать на протяжении полутора лет результаты через почту. Не просто передавать, а делать это вовремя, таким образом чтобы промышленный процесс ни разу не лег.



4️⃣ Построить целевую инфраструктуру, так чтобы бизнес получал эффекты, а дата сайентисты спали спокойно - тоже нелегкая задача. @andriazol прошел этот путь со своей командой MLOPs и подробно рассказал, как устроена наша инфраструктура для обучения и инференса моделей. Рекомендую прочитать, если вы все еще запускаете прод на коленке.



P.S. на этот раз в отзывах на доклад не было комментариев про интимные поцелуи DSов)