🎲 Расскажите что такое индуктивная вероятность? Дайте определение минимальной длине описания / сообщения



Индуктивная вероятность пытается дать вероятность будущих событий на основе прошлых событий. Это основа для индуктивного мышления и математическая основа для обучения и восприятия закономерностей. Это источник знаний о мире.



Есть три источника знаний: вывод , общение и дедукция. Коммуникация передает информацию, полученную другими методами. Выведение устанавливает новые факты на основе существующих фактов. Вывод устанавливает новые факты из данных. Его основой является теорема Байеса .



Информация, описывающая мир, записывается на языке. Например, может быть выбран простой математический язык предложений. На этом языке предложения могут быть записаны в виде строк символов. Но в компьютере эти предложения можно закодировать в виде цепочек битов (единиц и нулей). Затем язык может быть закодирован так, чтобы наиболее часто используемые предложения были самыми короткими. Этот внутренний язык неявно представляет вероятности утверждений.



Бритва Оккама говорит, что «простейшая теория, согласующаяся с данными, скорее всего, верна». «Простейшая теория» интерпретируется как представление теории, написанной на этом внутреннем языке. Теория с кратчайшей кодировкой на этом внутреннем языке, скорее всего, верна.



Минимальная длина описания / сообщения

Программа с наименьшей длиной, соответствующей данным, с наибольшей вероятностью предсказывает будущие данные. Это тезис, лежащий в основе методов минимальной длины сообщения и минимальной длины описания .



На первый взгляд теорема Байеса кажется отличной от принципа минимальной длины сообщения / описания. При ближайшем рассмотрении оказывается то же самое. Теорема Байеса касается условных вероятностей и утверждает вероятность того, что событие B произойдет, если сначала произойдет событие A:



P (A ∧ 😎 = P (B) ⋅ P (A | 😎 = P (A) ⋅ P (B | A) {\ displaystyle P (A \ land 😎 = P (B) \ cdot P (A | 😎 = P (A) \ cdot P (B | A)}

становится с точки зрения сообщения длина L,



L (A ∧ 😎 = L (B) + L (A | 😎 = L (A) + L (B | A). {\ displaystyle L (A \ land 😎 = L (B) + L (A | 😎 = L (A) + L (B | A).}

Это означает, что если вся информация дается с описанием event, то длина информации может быть использована для определения исходной вероятности события. Таким образом, если дана информация, описывающая возникновение A, вместе с информацией, описывающей B для данного A, то была предоставлена ​​вся информация, описывающая A и B.



@machinelearning_interview