Poslední aktualizace: 15 Jan, 2025

Název - Extrahování textu z PDF souboru pomocí Pythonu

Extrahování textu z PDF souboru pomocí Pythonu

V tomto článku vám ukážeme jak extrahovat text z PDF souboru pomocí Pythonu.

PDF (Portable Document Format) je populární digitální formát dokumentů. Tento formát je navržen tak, aby dokumenty mohly být snadno a spolehlivě zobrazovány nebo sdíleny, bez ohledu na software, hardware či operační systém. Soubory PDF mají příponu .pdf.

Pro extrahování textu z PDF souboru v Pythonu se běžně používají následující knihovny. Ukážeme vám, jak extrahovat text z PDF pomocí obou.

  1. pypdf
  2. PyMuPDF

Jak extrahovat text z PDF souboru pomocí pypdf v Pythonu

Zde jsou kroky.

  1. Nainstalujte pypdf
  2. Spusťte kód uvedený v tomto článku
  3. Zobrazte výstup

Instalace pypdf

pypdf můžete nainstalovat pomocí následujícího příkazu

pip install pypdf

Ukázkový kód pro extrahování textu z PDF pomocí pypdf

sample.pdfStáhnout soubor (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)

snímek obrazovky sample.pdf

Ukázkový vstupní PDF snímek obrazovky

Kód

Zde je kompletní příklad kódu pro extrahování textu z PDF pomocí pypdf.

Výstup

Zde je výstup ukázkového kódu uvedeného výše.

Jak extrahovat text z PDF souboru pomocí PyMuPDF v Pythonu

Zde jsou kroky.

  1. Nainstalujte PyMuPDF
  2. Spusťte kód uvedený v tomto článku
  3. Zobrazte výstup

Instalace PyMuPDF

Nainstalujte PyMuPDF, také známý jako fitz, pomocí následujícího příkazu.

pip install pymupdf

Ukázkový kód pro extrahování textu z PDF pomocí PyMuPDF

Použili jsme stejný PDF soubor jako dříve.

sample.pdfStáhnout soubor (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)

Kód

Zde je kompletní příklad kódu pro extrahování textu z PDF pomocí PyMuPDF.

Výstup

Zde je výstup ukázkového kódu uvedeného výše.

Závěr

V tomto článku poskytujeme ukázkový Python kód, ukázkový soubor a jejich výstup, abychom demonstrovali, jak extrahovat text z PDF pomocí dvou knihoven: PyPDF a PyMuPDF.

Máte-li jakékoli otázky nebo narazíte na problémy při spouštění kódu, neváhejte zanechat komentář v našem fóru!

Viz také