Ostatnia aktualizacja: 15 stycznia, 2025

Wyodrębnij tekst z pliku PDF za pomocą Python
W tym artykule poinformujemy Cię, jak wyodrębnić tekst z pliku PDF przy użyciu Python.
PDF oznacza Portable Document Format, czyli popularny format dokumentu cyfrowego. Ten format jest zaprojektowany tak, aby dokumenty można było łatwo i niezawodnie oglądać lub udostępniać, niezależnie od oprogramowania, sprzętu czy systemu operacyjnego. Pliki PDF mają rozszerzenie .pdf.
Aby wyodrębnić tekst z pliku PDF przy użyciu Python, powszechnie używane są te biblioteki. Pokażemy, jak wyodrębnić tekst z PDF przy użyciu obu z nich.
Jak wyodrębnić tekst z pliku PDF przy użyciu pypdf w Python
Oto kroki.
- Zainstaluj pypdf
- Uruchom kod podany w tym artykule
- Zobacz wynik
Instalacja pypdf
Możesz zainstalować pypdf za pomocą następującej komendy
pip install pypdf
Przykładowy kod do wyodrębniania tekstu z PDF za pomocą pypdf
sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)
zrzut ekranu sample.pdf
Kod
Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą pypdf.
Wynik
Oto wynik przykładowego kodu podanego powyżej.
Jak wyodrębnić tekst z pliku PDF przy użyciu PyMuPDF w Python
Oto kroki.
- Zainstaluj PyMuPDF
- Uruchom kod podany w tym artykule
- Zobacz wynik
Instalacja PyMuPDF
Zainstaluj PyMuPDF, znany także jako fitz, za pomocą następującej komendy.
pip install pymupdf
Przykładowy kod do wyodrębniania tekstu z PDF za pomocą PyMuPDF
Użyliśmy tego samego pliku PDF, co wcześniej
sample.pdf - Link do pobrania (Ten przykładowy PDF zostanie użyty w kodzie, ale możesz oczywiście użyć swojego własnego PDF-a.)
Kod
Oto kompletny przykład kodu dla wyodrębniania tekstu z PDF za pomocą PyMuPDF.
Wynik
Oto wynik przykładowego kodu podanego powyżej.
Wnioski
W tym artykule przedstawiamy przykładowy kod w Python, przykładowy plik oraz ich wynik, aby zademonstrować jak wyodrębnić tekst z PDF przy użyciu dwóch bibliotek: PyPDF i PyMuPDF.
Jeśli masz jakieś pytania lub napotkasz problemy podczas uruchamiania kodu, nie wahaj się zostawić komentarza na naszym forum!