Legutóbb frissítve: 15 Jan, 2025

Cím - Szöveg kinyerése PDF-fájlból Python segítségével

Szöveg kinyerése PDF-fájlból Python segítségével

Ebben a cikkben megmutatjuk, hogyan lehet szöveget kinyerni egy PDF-fájlból Python segítségével.

PDF a Portable Document Format rövidítése, egy népszerű digitális dokumentumformátum. Ez a formátum úgy lett tervezve, hogy a dokumentumok könnyen és megbízhatóan megtekinthetők vagy megoszthatók legyenek, függetlenül a szoftvertől, hardvertől vagy operációs rendszertől. A PDF-fájlok kiterjesztése .pdf.

PDF-fájlból szöveg kinyeréséhez Pythonban ezeket a könyvtárakat használják gyakran. Megmutatjuk, hogyan lehet szöveget kinyerni egy PDF-ből mindkettő segítségével.

  1. pypdf
  2. PyMuPDF

Szöveg kinyerése PDF-fájlból pypdf használatával Pythonban

Itt vannak a lépések.

  1. Telepítsd a pypdf-t
  2. Futtasd a cikkben megadott kódot
  3. Nézd meg a kimenetet

pypdf telepítése

A pypdf telepíthető a következő parancs használatával

pip install pypdf

Minta kód a szöveg kinyeréséhez PDF-ből pypdf használatával

sample.pdf - Letöltési hivatkozás (Ez a minta PDF a kódban lesz használva, de természetesen saját PDF-et is használhatsz.)

a sample.pdf képernyőképe

Minta PDF bemeneti képernyőkép

Kód

Itt egy teljes kódrészlet a PDF-ből szöveg kinyeréséhez pypdf használatával.

Kimenet

Itt látható a fenti minta kód kimenete.

Szöveg kinyerése PDF-fájlból PyMuPDF használatával Pythonban

Itt vannak a lépések.

  1. Telepítsd a PyMuPDF-t
  2. Futtasd a cikkben megadott kódot
  3. Nézd meg a kimenetet

PyMuPDF telepítése

A PyMuPDF (más néven fitz) telepíthető a következő parancs használatával.

pip install pymupdf

Minta kód a szöveg kinyeréséhez PDF-ből PyMuPDF használatával

Ugyanazt a PDF-et használtuk, mint korábban

sample.pdf - Letöltési hivatkozás (Ez a minta PDF a kódban lesz használva, de természetesen saját PDF-et is használhatsz.)

Kód

Itt egy teljes kódrészlet a PDF-ből szöveg kinyeréséhez PyMuPDF használatával.

Kimenet

Itt látható a fenti minta kód kimenete.

Következtetés

Ebben a cikkben egy minta Python kódot, egy mintafájlt és azok kimenetét mutatjuk be, hogy bemutassuk, hogyan lehet szöveget kinyerni egy PDF-ből két könyvtár, a PyPDF és a PyMuPDF segítségével.

Ha kérdésed van, vagy problémába ütközöl a kód futtatása közben, nyugodtan hagyj egy megjegyzést a a fórumunkban!

Lásd még