
С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах
Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.
#NLP #ML
Data Secrets