Преобразовываем любой офисный документ в текст



💿💿💿



Если вы хотите извлечь текст из какого-то офисного документа, например из PDF или WORD файла, то вам пригодится модуль



https://textract.readthedocs.io/en/stable/



(Обязательно почитайте документацию по ссылке выше - там сказано как правильно настроить для русского языка)



Чтобы получить текст из документа нужно сделать следующее:



import textract

text = textract.process("path/to/file.extension")



Пример с PDF:



import textract

text = textract.process('1.pdf', method='pdfminer')



Указание кодировки:



import textract

text = textract.process('path/to/file.extension', encoding='ascii')



#code