Extrahování textu z PDF souboru pomocí Pythonu

Wed, 15 Jan 2025 00:00:00 +0000

Poslední aktualizace: 15 Jan, 2025

Extrahování textu z PDF souboru pomocí Pythonu

V tomto článku vám ukážeme jak extrahovat text z PDF souboru pomocí Pythonu.

PDF (Portable Document Format) je populární digitální formát dokumentů. Tento formát je navržen tak, aby dokumenty mohly být snadno a spolehlivě zobrazovány nebo sdíleny, bez ohledu na software, hardware či operační systém. Soubory PDF mají příponu .pdf.

Pro extrahování textu z PDF souboru v Pythonu se běžně používají následující knihovny. Ukážeme vám, jak extrahovat text z PDF pomocí obou.

Jak extrahovat text z PDF souboru pomocí pypdf v Pythonu

Zde jsou kroky.

Nainstalujte pypdf
Spusťte kód uvedený v tomto článku
Zobrazte výstup

Instalace pypdf

pypdf můžete nainstalovat pomocí následujícího příkazu

pip install pypdf

Ukázkový kód pro extrahování textu z PDF pomocí pypdf

sample.pdf – Stáhnout soubor (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)

snímek obrazovky sample.pdf

Kód

Zde je kompletní příklad kódu pro extrahování textu z PDF pomocí pypdf.

Výstup

Zde je výstup ukázkového kódu uvedeného výše.

Jak extrahovat text z PDF souboru pomocí PyMuPDF v Pythonu

Zde jsou kroky.

Nainstalujte PyMuPDF
Spusťte kód uvedený v tomto článku
Zobrazte výstup

Instalace PyMuPDF

Nainstalujte PyMuPDF, také známý jako fitz, pomocí následujícího příkazu.

pip install pymupdf

Ukázkový kód pro extrahování textu z PDF pomocí PyMuPDF

Použili jsme stejný PDF soubor jako dříve.

sample.pdf – Stáhnout soubor (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)

Kód

Zde je kompletní příklad kódu pro extrahování textu z PDF pomocí PyMuPDF.

Výstup

Zde je výstup ukázkového kódu uvedeného výše.

Závěr

V tomto článku poskytujeme ukázkový Python kód, ukázkový soubor a jejich výstup, abychom demonstrovali, jak extrahovat text z PDF pomocí dvou knihoven: PyPDF a PyMuPDF.

Máte-li jakékoli otázky nebo narazíte na problémy při spouštění kódu, neváhejte zanechat komentář v našem fóru!

Python on File Format Blog

Extrahování textu z PDF souboru pomocí Pythonu