Last Updated: 15 Jan, 2025

Витяг тексту з PDF-файлу за допомогою Python
У цій статті ми розповімо вам як витягнути текст з PDF-файлу за допомогою Python.
PDF означає Portable Document Format — популярний цифровий формат документів. Цей формат розроблений для того, щоб документи можна було легко та надійно переглядати або ділитися ними, незалежно від програмного забезпечення, апаратного забезпечення чи операційної системи. Файли PDF мають розширення .pdf.
Для витягнення тексту з PDF-файлу за допомогою Python зазвичай використовуються наступні бібліотеки. Ми покажемо, як витягнути текст з PDF за допомогою обох.
Як витягнути текст з PDF-файлу за допомогою pypdf у Python
Ось кроки.
- Встановіть pypdf
- Запустіть код, наведений у цій статті
- Перегляньте результат
Встановлення pypdf
Ви можете встановити pypdf за допомогою наступної команди
pip install pypdf
Приклад коду для витягнення тексту з PDF за допомогою pypdf
sample.pdf - Посилання для завантаження (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)
знімок екрана sample.pdf

Код
Ось повний приклад коду для витягнення тексту з PDF за допомогою pypdf.
Вихід
Ось результат виконання наведеного вище прикладу коду.
Як витягнути текст з PDF-файлу за допомогою PyMuPDF у Python
Ось кроки.
- Встановіть PyMuPDF
- Запустіть код, наведений у цій статті
- Перегляньте результат
Встановлення PyMuPDF
Встановіть PyMuPDF, також відомий як fitz, за допомогою наступної команди.
pip install pymupdf
Приклад коду для витягнення тексту з PDF за допомогою PyMuPDF
Ми використали той самий PDF, що й раніше
sample.pdf - Посилання для завантаження (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)
Код
Ось повний приклад коду для витягнення тексту з PDF за допомогою PyMuPDF.
Вихід
Ось результат виконання наведеного вище прикладу коду.
Висновок
У цій статті ми надали приклад коду Python, зразковий файл та їх результати, щоб продемонструвати, як витягнути текст з PDF за допомогою двох бібліотек: PyPDF та PyMuPDF.
Якщо у вас є питання або ви зіткнулися з проблемами під час виконання коду, залишайте коментар у наших форумах!