Преобразовываем любой офисный документ в текст
💿💿💿
Если вы хотите извлечь текст из какого-то офисного документа, например из PDF или WORD файла, то вам пригодится модуль
https://textract.readthedocs.io/en/stable/
(Обязательно почитайте документацию по ссылке выше - там сказано как правильно настроить для русского языка)
Чтобы получить текст из документа нужно сделать следующее:
💿💿💿
Если вы хотите извлечь текст из какого-то офисного документа, например из PDF или WORD файла, то вам пригодится модуль
https://textract.readthedocs.io/en/stable/
(Обязательно почитайте документацию по ссылке выше - там сказано как правильно настроить для русского языка)
Чтобы получить текст из документа нужно сделать следующее:
import textract
text = textract.process("path/to/file.extension")
Пример с PDF:import textractУказание кодировки:
text = textract.process('1.pdf', method='pdfminer')
import textract#code
text = textract.process('path/to/file.extension', encoding='ascii')