Библиотека собеса по Data Science | вопросы с собеседований

Что такое сглаживание Лапласа и зачем его используют в наивном байесовском классификаторе?

В наивном байесовском классификаторе условная вероятность события при заданной метке класса определяется как P(событие|класс). При использовании этого метода (скажем, при классификации текстов) может возникнуть ситуация, когда какое-то слово не встречалось в определённом классе. В таких случаях вероятность признака при заданной метке класса будет равна нулю. Это проблема.

Чтобы её решить, используется сглаживание Лапласа. Оно устраняет проблему нулевой вероятности, добавляя небольшую постоянную к количеству каждого признака в каждом классе и к общему количеству признаков в каждом классе.

#машинное_обучение