Python для новичков

Преобразовываем любой офисный документ в текст

💿💿💿

Если вы хотите извлечь текст из какого-то офисного документа, например из PDF или WORD файла, то вам пригодится модуль

https://textract.readthedocs.io/en/stable/

(Обязательно почитайте документацию по ссылке выше - там сказано как правильно настроить для русского языка)

Чтобы получить текст из документа нужно сделать следующее:

import textract

text = textract.process("path/to/file.extension")

Пример с PDF:

import textract

text = textract.process('1.pdf', method='pdfminer')

Указание кодировки:

import textract

text = textract.process('path/to/file.extension', encoding='ascii')

#code