Last Updated: 15 Jan, 2025

Заголовок - Витяг тексту з PDF-файлу за допомогою Python

Витяг тексту з PDF-файлу за допомогою Python

У цій статті ми розповімо вам як витягнути текст з PDF-файлу за допомогою Python.

PDF означає Portable Document Format — популярний цифровий формат документів. Цей формат розроблений для того, щоб документи можна було легко та надійно переглядати або ділитися ними, незалежно від програмного забезпечення, апаратного забезпечення чи операційної системи. Файли PDF мають розширення .pdf.

Для витягнення тексту з PDF-файлу за допомогою Python зазвичай використовуються наступні бібліотеки. Ми покажемо, як витягнути текст з PDF за допомогою обох.

  1. pypdf
  2. PyMuPDF

Як витягнути текст з PDF-файлу за допомогою pypdf у Python

Ось кроки.

  1. Встановіть pypdf
  2. Запустіть код, наведений у цій статті
  3. Перегляньте результат

Встановлення pypdf

Ви можете встановити pypdf за допомогою наступної команди

pip install pypdf

Приклад коду для витягнення тексту з PDF за допомогою pypdf

sample.pdf - Посилання для завантаження (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)

знімок екрана sample.pdf

Знімок екрана вхідного PDF

Код

Ось повний приклад коду для витягнення тексту з PDF за допомогою pypdf.

Вихід

Ось результат виконання наведеного вище прикладу коду.

Як витягнути текст з PDF-файлу за допомогою PyMuPDF у Python

Ось кроки.

  1. Встановіть PyMuPDF
  2. Запустіть код, наведений у цій статті
  3. Перегляньте результат

Встановлення PyMuPDF

Встановіть PyMuPDF, також відомий як fitz, за допомогою наступної команди.

pip install pymupdf

Приклад коду для витягнення тексту з PDF за допомогою PyMuPDF

Ми використали той самий PDF, що й раніше

sample.pdf - Посилання для завантаження (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)

Код

Ось повний приклад коду для витягнення тексту з PDF за допомогою PyMuPDF.

Вихід

Ось результат виконання наведеного вище прикладу коду.

Висновок

У цій статті ми надали приклад коду Python, зразковий файл та їх результати, щоб продемонструвати, як витягнути текст з PDF за допомогою двох бібліотек: PyPDF та PyMuPDF.

Якщо у вас є питання або ви зіткнулися з проблемами під час виконання коду, залишайте коментар у наших форумах!

Дивіться також