
Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams