Последнее обновление: 15 января 2025 года

Заголовок - Извлечение текста из PDF-файла с помощью Python

Извлечение текста из PDF-файла с помощью Python

В этой статье мы расскажем как извлечь текст из PDF-файла с помощью Python.

PDF (Portable Document Format) — это популярный формат цифровых документов. Этот формат разработан для того, чтобы документы можно было легко и надежно просматривать или обмениваться, независимо от программного обеспечения, оборудования или операционной системы. PDF-файлы имеют расширение .pdf.

Для извлечения текста из PDF-файла на Python обычно используются следующие библиотеки. Мы покажем вам, как извлечь текст из PDF, используя обе из них.

  1. pypdf
  2. PyMuPDF

Как извлечь текст из PDF-файла с помощью pypdf на Python

Вот шаги.

  1. Установите pypdf
  2. Запустите код, приведенный в этой статье
  3. Посмотрите вывод

Установка pypdf

Вы можете установить pypdf с помощью следующей команды

pip install pypdf

Пример кода для извлечения текста из PDF с использованием pypdf

sample.pdf - Ссылка для скачивания (Этот пример PDF будет использоваться в коде, но вы можете использовать свой собственный PDF-файл.)

скриншот sample.pdf

Скриншот входного PDF файла

Код

Вот полный пример кода для извлечения текста из PDF с использованием pypdf.

Вывод

Вот вывод примерного кода, предоставленного выше.

Как извлечь текст из PDF-файла с помощью PyMuPDF на Python

Вот шаги.

  1. Установите PyMuPDF
  2. Запустите код, приведенный в этой статье
  3. Посмотрите вывод

Установка PyMuPDF

Установите PyMuPDF, также известный как fitz, с помощью следующей команды.

pip install pymupdf

Пример кода для извлечения текста из PDF с использованием PyMuPDF

Мы использовали тот же PDF, как и раньше

sample.pdf - Ссылка для скачивания (Этот пример PDF будет использован в коде, но вы можете использовать свой собственный PDF-файл.)

Код

Вот полный пример кода для извлечения текста из PDF с использованием PyMuPDF.

Вывод

Вот вывод примерного кода, представленного выше.

Заключение

В этой статье мы предоставили пример кода на Python, образец файла и его вывод для демонстрации того, как извлекать текст из PDF, используя две библиотеки: PyPDF и PyMuPDF.

Если у вас есть вопросы или вы столкнулись с какими-либо проблемами при запуске кода, не стесняйтесь оставлять комментарии на нашем форуме!

Смотрите также