Последнее обновление: 15 января 2025 года

Извлечение текста из PDF-файла с помощью Python
В этой статье мы расскажем как извлечь текст из PDF-файла с помощью Python.
PDF (Portable Document Format) — это популярный формат цифровых документов. Этот формат разработан для того, чтобы документы можно было легко и надежно просматривать или обмениваться, независимо от программного обеспечения, оборудования или операционной системы. PDF-файлы имеют расширение .pdf.
Для извлечения текста из PDF-файла на Python обычно используются следующие библиотеки. Мы покажем вам, как извлечь текст из PDF, используя обе из них.
Как извлечь текст из PDF-файла с помощью pypdf на Python
Вот шаги.
- Установите pypdf
- Запустите код, приведенный в этой статье
- Посмотрите вывод
Установка pypdf
Вы можете установить pypdf с помощью следующей команды
pip install pypdf
Пример кода для извлечения текста из PDF с использованием pypdf
sample.pdf - Ссылка для скачивания (Этот пример PDF будет использоваться в коде, но вы можете использовать свой собственный PDF-файл.)
скриншот sample.pdf
Код
Вот полный пример кода для извлечения текста из PDF с использованием pypdf.
Вывод
Вот вывод примерного кода, предоставленного выше.
Как извлечь текст из PDF-файла с помощью PyMuPDF на Python
Вот шаги.
- Установите PyMuPDF
- Запустите код, приведенный в этой статье
- Посмотрите вывод
Установка PyMuPDF
Установите PyMuPDF, также известный как fitz, с помощью следующей команды.
pip install pymupdf
Пример кода для извлечения текста из PDF с использованием PyMuPDF
Мы использовали тот же PDF, как и раньше
sample.pdf - Ссылка для скачивания (Этот пример PDF будет использован в коде, но вы можете использовать свой собственный PDF-файл.)
Код
Вот полный пример кода для извлечения текста из PDF с использованием PyMuPDF.
Вывод
Вот вывод примерного кода, представленного выше.
Заключение
В этой статье мы предоставили пример кода на Python, образец файла и его вывод для демонстрации того, как извлекать текст из PDF, используя две библиотеки: PyPDF и PyMuPDF.
Если у вас есть вопросы или вы столкнулись с какими-либо проблемами при запуске кода, не стесняйтесь оставлять комментарии на нашем форуме!