Wyodrębnij tekst z pliku PDF za pomocą Python

Ostatnia aktualizacja: 15 stycznia, 2025

Wyodrębnij tekst z pliku PDF za pomocą Python

W tym artykule poinformujemy Cię, jak wyodrębnić tekst z pliku PDF przy użyciu Python.

PDF oznacza Portable Document Format, czyli popularny format dokumentu cyfrowego. Ten format jest zaprojektowany tak, aby dokumenty można było łatwo i niezawodnie oglądać lub udostępniać, niezależnie od oprogramowania, sprzętu czy systemu operacyjnego. Pliki PDF mają rozszerzenie .pdf.

Aby wyodrębnić tekst z pliku PDF przy użyciu Python, powszechnie używane są te biblioteki. Pokażemy, jak wyodrębnić tekst z PDF przy użyciu obu z nich.

Jak wyodrębnić tekst z pliku PDF przy użyciu pypdf w Python

Oto kroki.

Zainstaluj pypdf
Uruchom kod podany w tym artykule
Zobacz wynik

Instalacja pypdf

Możesz zainstalować pypdf za pomocą następującej komendy

pip install pypdf

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą pypdf

sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)

zrzut ekranu sample.pdf

Zrzut ekranu wejściowego PDF

Kod

Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą pypdf.

Wynik

Oto wynik przykładowego kodu podanego powyżej.

Jak wyodrębnić tekst z pliku PDF przy użyciu PyMuPDF w Python

Oto kroki.

Zainstaluj PyMuPDF
Uruchom kod podany w tym artykule
Zobacz wynik

Instalacja PyMuPDF

Zainstaluj PyMuPDF, znany także jako fitz, za pomocą następującej komendy.

pip install pymupdf

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą PyMuPDF

Użyliśmy tego samego pliku PDF, co wcześniej

sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)

Kod

Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą PyMuPDF.

Wynik

Oto wynik przykładowego kodu podanego powyżej.

Wnioski

W tym artykule przedstawiamy przykładowy kod w Python, przykładowy plik oraz ich wynik, aby zademonstrować jak wyodrębnić tekst z PDF przy użyciu dwóch bibliotek: PyPDF i PyMuPDF.

Jeśli masz jakieś pytania lub napotkasz problemy podczas uruchamiania kodu, nie wahaj się zostawić komentarza na naszym forum!

Wyodrębnij tekst z pliku PDF za pomocą Python#

Jak wyodrębnić tekst z pliku PDF przy użyciu pypdf w Python#

Instalacja pypdf#

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą pypdf#

Kod#

Wynik#

Jak wyodrębnić tekst z pliku PDF przy użyciu PyMuPDF w Python#

Instalacja PyMuPDF#

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą PyMuPDF#

Kod#

Wynik#

Wnioski#

Zobacz także#

Wyodrębnij tekst z pliku PDF za pomocą Python

Jak wyodrębnić tekst z pliku PDF przy użyciu pypdf w Python

Instalacja pypdf

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą pypdf

Kod

Wynik

Jak wyodrębnić tekst z pliku PDF przy użyciu PyMuPDF w Python

Instalacja PyMuPDF

Przykładowy kod do wyodrębniania tekstu z PDF za pomocą PyMuPDF

Kod

Wynik

Wnioski

Zobacz także