Часто бывает так, что данные для анализа не хранятся в виде удобного csv-файлика или в базе данных, а представляют собой какую-нибудь мало-структурированную кашу, например, логи сервера или длинный эвент лог в формате txt с произвольной структурой. Тогда приходится прежде всего решать задачу извлечения данных в таком виде, чтобы их затем можно было загнать в датафрейм. В блоге DataQuest есть интересный туториал с примером извлечения данных с помощью регулярных выражений https://www.dataquest.io/blog/regular-expressions-data-scientists