💪 Функция "крутости" для хештегов



Чтобы выбрать хештег, нужно придумать, как оценивать его влияние на пост. Это нетривиально, но вот моя идея:



Введем для каждого поста с # число:

likes_boost = число лайков на посте / среднее число лайков у тебя на других фотках



Чтобы убрать влияние других факторов успеха, возьмем другие посты других юзеров с этим хештегом. Для них посчитаем аналогично likes_boost, а потом усредним их (лучше медианой). В итоге для каждого хештега получим число: "на сколько круче обычно выстреливают посты с этим хештегом".



Если выборка большая (1М+ постов, 50к+ хештегов), то кажется, что должен работать закон больших чисел. Так и получилось (см скрин): распределение likes_boost напоминает нормальное, медианное значение =1 (то есть шанс 50%, что эффект от # будет положительный), а средний эффект > 1, так как некоторые посты вирусятся и получают значительно большие охваты.



Другой вопрос, почему хештеги могут резать охваты. Проблема в данных / подходе или мы открыли новй закон природы? #️⃣