MinerU
Это универсальный, открытый инструмент для извлечения данных из PDF-документов, веб-страниц и электронных книг.
Основные функции MinerU включают удаление ненужных элементов, таких как заголовки и колонтитулы, сохранение структуры оригинального документа и преобразование уравнений в формат LaTeX.
Инструмент поддерживает как CPU, так и GPU, что делает его универсальным для различных операционных систем, таких как Windows, Linux и macOS.
MinerU обеспечивает высококачественное извлечение контента, сохраняя изображения, таблицы и другие важные элементы форматирования в выходных данных
📁 Language: #Python
⭐️ Stars: 10.9k
➡️ Cсылка на GitHub
📱 @git_developer
Это универсальный, открытый инструмент для извлечения данных из PDF-документов, веб-страниц и электронных книг.
Основные функции MinerU включают удаление ненужных элементов, таких как заголовки и колонтитулы, сохранение структуры оригинального документа и преобразование уравнений в формат LaTeX.
Инструмент поддерживает как CPU, так и GPU, что делает его универсальным для различных операционных систем, таких как Windows, Linux и macOS.
MinerU обеспечивает высококачественное извлечение контента, сохраняя изображения, таблицы и другие важные элементы форматирования в выходных данных