Open source data tools



Как кто-то из вас знает, я уже несколько лет пушу свои команды в МТС делать вклад в open source инструменты для ML и работы с данными в целом. Пробираться в большой корпорации через согласование выкатки в открытый доступ кода — это одна часть этого удовольствия, другая часть — убедить людей, что либы делать нужно. Вы бы знали, сколько я выслушал отговорок от коллег и сотрудников, что, например, RecTools (нашу библиотеку для рекомендательных систем) делать не надо, и ей не будут пользоваться. Как бы не так, пользуются и благодарят команду.



Ещё у нас внутри команды возникла своя ETL-библиотека OnETL. Она даёт разработчику интерфейсы, более удобные, чем то, что есть из коробки в Spark, и её мы тоже недавно заопенсорсили. Казалось бы, простая и безобидная вещь, а многие сотрудники, даже уже переходящие в другую компанию из Big Data МТС, отмечают удобство работы у нас благодаря OnETL. Конкуренты, берите на вооружение. Нам не жалко :)



И всё же, возвращаясь к мотиву из предыдущего поста и теме нетривиальных библиотек, теперь на этот счёт нам тоже есть что сказать.



Подробнее расскажу в следующем посте.