QA-сессия с Мартином Клеппманном и Крисом Риккомини



Вместо выпуска новостей, который обязательно состоится, но позже, делюсь содержанием и ссылкой на 30-минутную Q&A-сессию с Мартином Клеппманом и Крисом Риккомини. Это они сейчас пишут “второго кабанчика”.



- Мартин Клеппман - автор Designing Data-Intensive Applications. Исследователь в области распределённых систем и безопасности в Кембриджском университете. Ранее работал инженером-программистом и предпринимателем в интернет-компаниях, включая LinkedIn и Rapportive, где занимался разработкой инфраструктуры для обработки данных в больших масштабах.

- Крис Риккомини - соавтор The Missing README. Инженер-программист, инвестор в стартапы и консультант с более чем десятилетним опытом работы в крупных технологических компаниях, таких как PayPal, LinkedIn и WePay. На протяжении всей своей карьеры он активно участвовал в развитии open-source проектов, является автором Apache Samza, сейчас работает над SlateDB

- Беседу модерирует Цах Ливятан, VP of Product в ScyllaDB

Темы: 2-е издание «кабанчика» Designing Data-Intensive Applications, эволюция систем управления данными, влияние облачных технологий и будущие тренды.



Саммари составил ChatGPTDeepSeek провалил тест, “абсолютно, совершенно, херня полная” IYKWIM).

https://www.youtube.com/watch?v=T-d1wR7adB8



Сотрудничество Мартина и Криса

• Мартин и Крис познакомились в LinkedIn в 2013 году, работая над Kafka и Samza.

• Мартин начал писать Designing Data-Intensive Applications во время работы в LinkedIn, а затем покинул компанию, чтобы сосредоточиться на книге.

• Крис работает над вторым изданием, привнося свежий взгляд на современную инфраструктуру данных.



Почему сейчас выходит второе издание?

• Основные концепции баз данных развиваются медленно, но облачные технологии серьёзно изменили архитектуру данных.

• Главное изменение — рост популярности объектных хранилищ (например, S3) в качестве основного способа хранения данных.

• Разделение управления, данных и вычислений стало доминирующей архитектурной моделью.



Эволюция облачных технологий и баз данных

• Облачные технологии привели к модели SaaS-баз данных, которая даёт большую гибкость в развертывании и управлении.

• Набирают популярность edge computing и встроенные базы данных (DuckDB, расширения PostgreSQL).

• Дискуссии о компромиссах между облачными и самостоятельными (on-premise) моделями продолжаются.

• Экосистема расширений PostgreSQL (PG Vector, PG DuckDB) позволяет универсальным базам данных поддерживать специализированные нагрузки.

• Компании могут начинать с расширений, но со временем переходить на узкоспециализированные решения.

• Рынок одновременно консолидируется вокруг универсальных баз и поддерживает рост нишевых высокопроизводительных решений.



Вызовы при написании второго издания

• Основная структура книги осталась прежней, но текст серьёзно обновлён и переработан.

• Важно было найти баланс между необходимыми изменениями и избежанием избыточных добавлений.

• ИИ использовался для исследований, но не для написания текста.



В конце обсуждения участники рассказали о своих текущих проектах:

• Мартин исследует локально-ориентированное ПО, где основное хранилище — устройство пользователя, а облако — резервный вариант.

• SlateDB, open-source проект Криса, движок, разработанный для использования облачного объектного хранилища, обеспечивая масштабируемое и надёжное управление данными. Построенный на основе структуры LSM-дерева (log-structured merge-tree), он отличается от традиционных движков хранения тем, что записывает все данные непосредственно в объектные хранилища, такие как Amazon S3, Google Cloud Storage, Azure Blob Storage, MinIO и Tigris.