MinerU



Это универсальный, открытый инструмент для извлечения данных из PDF-документов, веб-страниц и электронных книг.



Основные функции MinerU включают удаление ненужных элементов, таких как заголовки и колонтитулы, сохранение структуры оригинального документа и преобразование уравнений в формат LaTeX.



Инструмент поддерживает как CPU, так и GPU, что делает его универсальным для различных операционных систем, таких как Windows, Linux и macOS.



MinerU обеспечивает высококачественное извлечение контента, сохраняя изображения, таблицы и другие важные элементы форматирования в выходных данных



📁 Language: #Python



⭐️ Stars: 10.9k



➡️ Cсылка на GitHub



📱 @git_developer