
💪 Функция "крутости" для хештегов
Чтобы выбрать хештег, нужно придумать, как оценивать его влияние на пост. Это нетривиально, но вот моя идея:
Введем для каждого поста с # число:
likes_boost = число лайков на посте / среднее число лайков у тебя на других фотках
Чтобы убрать влияние других факторов успеха, возьмем другие посты других юзеров с этим хештегом. Для них посчитаем аналогично likes_boost, а потом усредним их (лучше медианой). В итоге для каждого хештега получим число: "на сколько круче обычно выстреливают посты с этим хештегом".
Если выборка большая (1М+ постов, 50к+ хештегов), то кажется, что должен работать закон больших чисел. Так и получилось (см скрин): распределение likes_boost напоминает нормальное, медианное значение =1 (то есть шанс 50%, что эффект от # будет положительный), а средний эффект > 1, так как некоторые посты вирусятся и получают значительно большие охваты.
Другой вопрос, почему хештеги могут резать охваты. Проблема в данных / подходе или мы открыли новй закон природы? #️⃣
Чтобы выбрать хештег, нужно придумать, как оценивать его влияние на пост. Это нетривиально, но вот моя идея:
Введем для каждого поста с # число:
likes_boost = число лайков на посте / среднее число лайков у тебя на других фотках
Чтобы убрать влияние других факторов успеха, возьмем другие посты других юзеров с этим хештегом. Для них посчитаем аналогично likes_boost, а потом усредним их (лучше медианой). В итоге для каждого хештега получим число: "на сколько круче обычно выстреливают посты с этим хештегом".
Если выборка большая (1М+ постов, 50к+ хештегов), то кажется, что должен работать закон больших чисел. Так и получилось (см скрин): распределение likes_boost напоминает нормальное, медианное значение =1 (то есть шанс 50%, что эффект от # будет положительный), а средний эффект > 1, так как некоторые посты вирусятся и получают значительно большие охваты.
Другой вопрос, почему хештеги могут резать охваты. Проблема в данных / подходе или мы открыли новй закон природы? #️⃣