Проверка гипотез с помощью статистических критериев ничего не сообщает о величине различия. В ходе теста устанавливается p-value, что говорит о уровне статистической значимости. А для того чтобы выяснить величину какого-то явления или уровень различия между величинами используют методы оценки величины эффекта (effect size). Величина эффекта может считаться по-разному в зависимости от типа гипотезы, которую мы проверяем. Мер для оценки величины эффекта очень много, чтобы в этом убедиться можно посмотреть статью на википедии. Например, для проверки гипотезы равенства двух средних можно использовать метрику d-Коэна. В статье представлен доступный разбор того что же такое effect size и несколько примеров его расчета с кодом.
https://machinelearningmastery.com/effect-size-measures-in-python/
https://machinelearningmastery.com/effect-size-measures-in-python/