Тут была конференция SOSP . Запомнились некоторые интересные статьи
Silent Data Corruption in Alibaba Cloud. По сравнению со статьями от Google и Meta, Alibaba раскрыла больше данных о том насколько часто находятся битые процессоры и данные в проде. Из интересного, они увидели, что если процессор сильнее нагревается, то вероятность битой инструкции экспоненциально увеличивается. Из ещё забавного -- битфлипы очень часто происходят на тех же позициях в регистре при попытках воспроизвести. Из странного, большинство багов не находят в preprod. Из не понравившегося -- много странных графиков, экстраполяция по 27 битым процессорам и тд.
Project Silica: Towards Sustainable Cloud Archival Storage in Glass. Это, наверное, самая интересная статья, которую я прочитал. Суть в том, что хранение очень холодных данных на магнитных технологиях вроде HDD и тд дорогое, надо обновлять, так как диски вылетают и не остаются на десятки лет. Авторы рассказывают о 12-летнем опыте, как можно хранить данные в стекле, которое не ржавеет и не гниет, у которого срок службы >1k лет. Да, в стекле прям вырезают биты и в итоге данные хранятся дольше.
QuePaxa: Escaping the Tyranny of Timeouts in Consensus. В консенсусных алгоритмах вроде Raft и Paxos часто таймауты вызывают переизбрание лидера. При всяких DoS аттаках система встаёт и не очень продвигается. В итоге поставишь большой таймаут -- долго будет переизбрание, маленький -- слишком много. В QuePaxa предлагают делать хеджирование запросов, чтобы проверять liveness, модификацию Paxos, чтобы несколько proposers предлагали себя с весами в зависимости от быстроты ответов. Интересная и технически непростая статья.
A Cloud-Scale Characterization of Remote Procedure Calls. Статья от Google про 700 миллиардов RPC внутри нас, что мы выучили и куда стремимся с точки зрения оверхеда и Software. Смотрим на библиотеки, scheduling, cross DC traffic. Показываем,что в DC мы всё ещё millisecond-scale и до micro-second нам ещё далеко. Много времени в статье уделяется tail latency -- сколько занимает оверхед RPC framework на 99%. Один из авторов Soheil -- невероятно приятный человек, с кем работать одно удовольствие. Статья читается просто и даёт много инсайтов, что происходит внутри с сетью с точки зрения пользователя.
Silent Data Corruption in Alibaba Cloud. По сравнению со статьями от Google и Meta, Alibaba раскрыла больше данных о том насколько часто находятся битые процессоры и данные в проде. Из интересного, они увидели, что если процессор сильнее нагревается, то вероятность битой инструкции экспоненциально увеличивается. Из ещё забавного -- битфлипы очень часто происходят на тех же позициях в регистре при попытках воспроизвести. Из странного, большинство багов не находят в preprod. Из не понравившегося -- много странных графиков, экстраполяция по 27 битым процессорам и тд.
Project Silica: Towards Sustainable Cloud Archival Storage in Glass. Это, наверное, самая интересная статья, которую я прочитал. Суть в том, что хранение очень холодных данных на магнитных технологиях вроде HDD и тд дорогое, надо обновлять, так как диски вылетают и не остаются на десятки лет. Авторы рассказывают о 12-летнем опыте, как можно хранить данные в стекле, которое не ржавеет и не гниет, у которого срок службы >1k лет. Да, в стекле прям вырезают биты и в итоге данные хранятся дольше.
QuePaxa: Escaping the Tyranny of Timeouts in Consensus. В консенсусных алгоритмах вроде Raft и Paxos часто таймауты вызывают переизбрание лидера. При всяких DoS аттаках система встаёт и не очень продвигается. В итоге поставишь большой таймаут -- долго будет переизбрание, маленький -- слишком много. В QuePaxa предлагают делать хеджирование запросов, чтобы проверять liveness, модификацию Paxos, чтобы несколько proposers предлагали себя с весами в зависимости от быстроты ответов. Интересная и технически непростая статья.
A Cloud-Scale Characterization of Remote Procedure Calls. Статья от Google про 700 миллиардов RPC внутри нас, что мы выучили и куда стремимся с точки зрения оверхеда и Software. Смотрим на библиотеки, scheduling, cross DC traffic. Показываем,что в DC мы всё ещё millisecond-scale и до micro-second нам ещё далеко. Много времени в статье уделяется tail latency -- сколько занимает оверхед RPC framework на 99%. Один из авторов Soheil -- невероятно приятный человек, с кем работать одно удовольствие. Статья читается просто и даёт много инсайтов, что происходит внутри с сетью с точки зрения пользователя.