Ostatnia aktualizacja: 15 stycznia, 2025

Tytuł - Wyodrębnij tekst z pliku PDF za pomocą Python

Wyodrębnij tekst z pliku PDF za pomocą Python

W tym artykule poinformujemy Cię, jak wyodrębnić tekst z pliku PDF przy użyciu Python.

PDF oznacza Portable Document Format, czyli popularny format dokumentu cyfrowego. Ten format jest zaprojektowany tak, aby dokumenty można było łatwo i niezawodnie oglądać lub udostępniać, niezależnie od oprogramowania, sprzętu czy systemu operacyjnego. Pliki PDF mają rozszerzenie .pdf.

Aby wyodrębnić tekst z pliku PDF przy użyciu Python, powszechnie używane są te biblioteki. Pokażemy, jak wyodrębnić tekst z PDF przy użyciu obu z nich.

  1. pypdf
  2. PyMuPDF

Jak wyodrębnić tekst z pliku PDF przy użyciu pypdf w Python

Oto kroki.

  1. Zainstaluj pypdf
  2. Uruchom kod podany w tym artykule
  3. Zobacz wynik

Instalacja pypdf

Możesz zainstalować pypdf za pomocą następującej komendy

pip install pypdf

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą pypdf

sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)

zrzut ekranu sample.pdf

Zrzut ekranu wejściowego PDF

Kod

Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą pypdf.

Wynik

Oto wynik przykładowego kodu podanego powyżej.

Jak wyodrębnić tekst z pliku PDF przy użyciu PyMuPDF w Python

Oto kroki.

  1. Zainstaluj PyMuPDF
  2. Uruchom kod podany w tym artykule
  3. Zobacz wynik

Instalacja PyMuPDF

Zainstaluj PyMuPDF, znany także jako fitz, za pomocą następującej komendy.

pip install pymupdf

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą PyMuPDF

Użyliśmy tego samego pliku PDF, co wcześniej

sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)

Kod

Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą PyMuPDF.

Wynik

Oto wynik przykładowego kodu podanego powyżej.

Wnioski

W tym artykule przedstawiamy przykładowy kod w Python, przykładowy plik oraz ich wynik, aby zademonstrować jak wyodrębnić tekst z PDF przy użyciu dwóch bibliotek: PyPDF i PyMuPDF.

Jeśli masz jakieś pytania lub napotkasz problemy podczas uruchamiania kodu, nie wahaj się zostawić komentarza na naszym forum!

Zobacz także