Как оценить вероятность событий, которые никогда не происходили?



Вчера Caltrain (электричка для бомжей жителей кремниевой долины) насмерть сбил двух человек в двух независимых инцидентах. За полгода от рук поездов погибло уже 4 человека. В это же время в кремниевой долине – дивный новый мир с самоуправляемыми повозками набирает обороты 🦆. За январь и февраль этого года полностью автономные машины Cruise и Waymo никого не сбили насмерть (из тех, о ком нам рассказали🪖). Можем ли мы как-то сравнить вероятность гибели от электричек и автономных автомобилей?



Можем! Для этого нам понадобится аддитивное сглаживание, которое по-выпендрёжному называется сгаживанием Лапласа. В далёком 1814 Лаплас вывел эту чудную формулу для того, чтобы оценить, взойдёт ли завтра солнце (спойлер для тру-байесовцев – взойдёт). У аддитивного сглаживания есть несколько вариантов, но я сегодня расскажу про самый простой, но такой же эффективный.😛



Обозначим количество наблюдений как n и произошедших событий как nₛ. Наша оценка пропорции с аддитивным сглаживанием будет равна (nₛ+1)/(n+1). Просто добавь адын. 🥛



Для нашей задачки про смерть я нашёл такие данные:

1. Caltrain возит ~60000 пассажиров в день, средняя поездка – 40км. Получаем 60000*40=2.4 миллиона пассажиро-километра в день.

2. Cruise с Waymo в конце февраля накатали 11 миллионов километров. Предположим, что в среднем в машине было 1.5 человека и получим 1.5*11/55=0.3 миллиона пассажиро-километра в день.



Подставляем цифры в формулу и получаем (4+1)/2.4 = 2.08 ожидаемых смерти на миллион пассажиро-километров для поездов и (0+1)/0.3 = 3.33 ожидаемых смерти на миллион пассажиро-километров для робо-машин. Так что с общественного транспорта пока слезать стимула нет. 🎒