Legutóbb frissítve: 15 Jan, 2025

Szöveg kinyerése PDF-fájlból Python segítségével
Ebben a cikkben megmutatjuk, hogyan lehet szöveget kinyerni egy PDF-fájlból Python segítségével.
PDF a Portable Document Format rövidítése, egy népszerű digitális dokumentumformátum. Ez a formátum úgy lett tervezve, hogy a dokumentumok könnyen és megbízhatóan megtekinthetők vagy megoszthatók legyenek, függetlenül a szoftvertől, hardvertől vagy operációs rendszertől. A PDF-fájlok kiterjesztése .pdf.
PDF-fájlból szöveg kinyeréséhez Pythonban ezeket a könyvtárakat használják gyakran. Megmutatjuk, hogyan lehet szöveget kinyerni egy PDF-ből mindkettő segítségével.
Szöveg kinyerése PDF-fájlból pypdf használatával Pythonban
Itt vannak a lépések.
- Telepítsd a pypdf-t
- Futtasd a cikkben megadott kódot
- Nézd meg a kimenetet
pypdf telepítése
A pypdf telepíthető a következő parancs használatával
pip install pypdf
Minta kód a szöveg kinyeréséhez PDF-ből pypdf használatával
sample.pdf - Letöltési hivatkozás (Ez a minta PDF a kódban lesz használva, de természetesen saját PDF-et is használhatsz.)
a sample.pdf képernyőképe

Kód
Itt egy teljes kódrészlet a PDF-ből szöveg kinyeréséhez pypdf használatával.
Kimenet
Itt látható a fenti minta kód kimenete.
Szöveg kinyerése PDF-fájlból PyMuPDF használatával Pythonban
Itt vannak a lépések.
- Telepítsd a PyMuPDF-t
- Futtasd a cikkben megadott kódot
- Nézd meg a kimenetet
PyMuPDF telepítése
A PyMuPDF (más néven fitz) telepíthető a következő parancs használatával.
pip install pymupdf
Minta kód a szöveg kinyeréséhez PDF-ből PyMuPDF használatával
Ugyanazt a PDF-et használtuk, mint korábban
sample.pdf - Letöltési hivatkozás (Ez a minta PDF a kódban lesz használva, de természetesen saját PDF-et is használhatsz.)
Kód
Itt egy teljes kódrészlet a PDF-ből szöveg kinyeréséhez PyMuPDF használatával.
Kimenet
Itt látható a fenti minta kód kimenete.
Következtetés
Ebben a cikkben egy minta Python kódot, egy mintafájlt és azok kimenetét mutatjuk be, hogy bemutassuk, hogyan lehet szöveget kinyerni egy PDF-ből két könyvtár, a PyPDF és a PyMuPDF segítségével.
Ha kérdésed van, vagy problémába ütközöl a kód futtatása közben, nyugodtan hagyj egy megjegyzést a a fórumunkban!