Пост двойной если что, см предыстрорию в пред сообщении



Что с этим делать?



Я бы сам попробовал это сделать, но менеджмент в ClickHouse мне не понравился, и я решил пока не присоединяться (но это самый лёгкий способ контрибьютить в базы данных сейчас). Поэтому я сдал это в студента. Здесь поиграть и с алгоритмами, и с кодом, и с железом, отличная задачка для стажёра.



В Google я бы тоже хотел это продать, и, наверное, постараюсь, но кажется будут следующие проблемы, которые я учусь решать при росте моей должности:



1. Надо либо найти кастомеров, которым это нужно и важно

2. Лоббировать, что это то, что надо пользователям, и они просто про это не знают



Оба решения могут как работать, так и не работать одновременно. Здесь надо уметь вырасти и убеждать людей, что это очень недооцененная тема. Моя интуиция говорит, что строки занимают где-то 60-80% всех данных вообще. Фильтрация точно найдёт своих клиентов.



Один из фидбеков, который я получил в ревью это бесстрашие приходить с идеями. И поверьте, даже такой бюрократичный Google голоден на безумные идеи. Надо просто пройти через больше людей, но всё это делается.



Куда это расширять?



Самые частые фильтрации хоть и происходят по подстрокам, хочется много строк или регулярные выражения. Я думаю, что эта модель сжатия в FSST идеально ложится в регулярные выражения — нужно у конечного автомата создать промежуточные состояния. Скорее всего сработает со всеми, кроме какого-нибудь backtracking'а. Надо думать и пробовать, я почти уверен, что работает.



Итог



У меня появился совершенно лучший ментор на свете, это ex. Principal Engineer в Amazon, а теперь и в Google Andy Caldwell, создатель и бывший лидер Amazon AQUA. Я кайфую от каждого 1:1 с ним. Обсуждали это и всем понравилось.



Я в последние месяцы стал больше думать глобально про идеи и даже бизнес. Получается! Приглашают на встречи и дают больше ответственности. Не знаю, нравится ли такое развитие. Код прекращать писать тоже не собираюсь.



В общем, that wakes me up at night.



Ссылки



[1] Статья про FSST

[2] Репозиторий с имплементацией

[3] Презентация FSST

[4] Неудавшаяся попытка поиска по LZ4 сжатым данным от меня в ClickHouse