Продолжаем разбирать статью Evaluating predictive count data distributions in retail sales forecasting из этого поста
Итак, мы пришли к выводу что хотим оценивать распределение, ведь зачастую это гораздо полезнее
Для оценки непрерывных распределений можно использовать подход предложенный Розенблатом через probability integral transform (PIT)
К сожалению PIT напрямую не подходит для дискретных распределений (будет пиковать вместо выдачи равномерного распределения). Но как часто бывает в математике - не беда! Путем доработки напильником - подойдет и он - randomized PIT, где вместо интегрирования идет семплирование ( при желании можно провести связь с MCMC) и получившиеся распределение сэмплов оценивается на предмет наличия i.i.d. на U[0, 1]
Предлагают оценивать через use of a data driven smooth test to assess whether pt ∼ U [0, 1]. Specifically, we propose to apply the data driven version of Neyman’s (1937) smooth test of goodness-of-fit, as introduced by Inglot and Ledwina (2006) and Ledwina (1994). This test, when applied to one time series’ vector of pt s, yields a test statistic WT, for which we can in turn calculate a P value numerically
Затем чуваки в принципе начинают показывать что они академики, а не практики и обсуждают как оценить качество при наличии сотен, тысяч и миллионов моделей (произведение количества SKU на количество локаций) - что конечно никогда не делают, строят одну или несколько общих моделей. Предложения как это сделать, не то чтобы поразили - оценить распределение статистик всех этих моделей, даже графически или просто вывести какую то статистику статистик
Дальше обсуждают что неплохо чтобы модель была по настоящему вероятностной, то есть была откалибрована
На что я посоветую прочитать прекрасный пост Александра Дьяконова - Проблема калибровки уверенности
В целом статья в той части где идет обзор метрик - очень познавательная, в той части где предлагается решение - вызывает вопросы
#ArticleReview
Итак, мы пришли к выводу что хотим оценивать распределение, ведь зачастую это гораздо полезнее
Для оценки непрерывных распределений можно использовать подход предложенный Розенблатом через probability integral transform (PIT)
К сожалению PIT напрямую не подходит для дискретных распределений (будет пиковать вместо выдачи равномерного распределения). Но как часто бывает в математике - не беда! Путем доработки напильником - подойдет и он - randomized PIT, где вместо интегрирования идет семплирование ( при желании можно провести связь с MCMC) и получившиеся распределение сэмплов оценивается на предмет наличия i.i.d. на U[0, 1]
Предлагают оценивать через use of a data driven smooth test to assess whether pt ∼ U [0, 1]. Specifically, we propose to apply the data driven version of Neyman’s (1937) smooth test of goodness-of-fit, as introduced by Inglot and Ledwina (2006) and Ledwina (1994). This test, when applied to one time series’ vector of pt s, yields a test statistic WT, for which we can in turn calculate a P value numerically
Затем чуваки в принципе начинают показывать что они академики, а не практики и обсуждают как оценить качество при наличии сотен, тысяч и миллионов моделей (произведение количества SKU на количество локаций) - что конечно никогда не делают, строят одну или несколько общих моделей. Предложения как это сделать, не то чтобы поразили - оценить распределение статистик всех этих моделей, даже графически или просто вывести какую то статистику статистик
Дальше обсуждают что неплохо чтобы модель была по настоящему вероятностной, то есть была откалибрована
На что я посоветую прочитать прекрасный пост Александра Дьяконова - Проблема калибровки уверенности
В целом статья в той части где идет обзор метрик - очень познавательная, в той части где предлагается решение - вызывает вопросы
#ArticleReview