Удобочитаемость



Термин обозначающий, сложность прочтения какого-либо текста.



В годах 50-х профессора и учёные задумались: можно ли по тексту узнать примерный уровень знаний, необходимый для прочтения?



Как оказалось - да, вылилось это в раздел, просвещенный индексам удобочитаемости.



Это какие-то статистики по тексту, иногда с учётом частоты слов, а иногда с учётом слогов, нграм.



Зачастую индексы писались для конкретной возрастной группы, скажем не выше студентов, ну и конечно же для английского языка (для русского есть только интерпретации).



Это все помогало анализировать аудиторию, что было важно для условных печатных издательств.



Что лично меня удивило, так это наличие таких индексов в Ворде.



Подойдут как косвенные признаки для анализа документов + дополнительные фичи при обучении моделей.



Readability

Реализации индексов [github]

Flesch–Kincaid readability