Poimi teksti PDF-tiedostosta Pythonilla

Wed, 15 Jan 2025 00:00:00 +0000

Viimeksi päivitetty: 15 Jan, 2025

Poimi teksti PDF-tiedostosta Pythonilla

Tässä artikkelissa kerromme kuinka poimia teksti PDF-tiedostosta Pythonilla.

PDF tarkoittaa Portable Document Format -formaattia, joka on suosittu digitaalinen asiakirjamuoto. Tämä formaatti on suunniteltu mahdollistamaan asiakirjojen helppo ja luotettava katselu tai jakaminen riippumatta ohjelmistosta, laitteistosta tai käyttöjärjestelmästä. PDF-tiedostoilla on pääte .pdf.

PDF-tiedoston tekstin poimimiseen Pythonilla käytetään yleisesti näitä kirjastoja. Näytämme, miten teksti voidaan poimia PDF:stä molempien avulla.

Kuinka poimia teksti PDF-tiedostosta pypdf:llä Pythonissa

Tässä ovat vaiheet.

Asenna pypdf
Suorita tässä artikkelissa annettu koodi
Katso tulos

Asenna pypdf

Voit asentaa pypdf seuraavalla komennolla

pip install pypdf

Esimerkkikoodi PDF-tekstin poimimiseen pypdf:llä

sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)

Näyttökuva sample.pdf:stä

Koodi

Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi pypdf:llä.

Tuloste

Tässä on yllä annetun esimerkkikoodin tuloste.

Kuinka poimia teksti PDF-tiedostosta PyMuPDF:llä Pythonissa

Tässä ovat vaiheet.

Asenna PyMuPDF
Suorita tässä artikkelissa annettu koodi
Katso tulos

Asenna PyMuPDF

Asenna PyMuPDF, joka tunnetaan myös nimellä fitz, seuraavalla komennolla.

pip install pymupdf

Esimerkkikoodi PDF-tekstin poimimiseen PyMuPDF:llä

Käytimme samaa pdf-tiedostoa kuin aiemmin

sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)

Koodi

Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi PyMuPDF:llä.

Tuloste

Tässä on yllä annetun esimerkkikoodin tuloste.

Yhteenveto

Tässä artikkelissa tarjoamme esimerkkikoodin Pythonilla, esimerkkitiedoston ja niiden tulosteen osoittaaksemme, miten teksti voidaan poimia PDF:stä kahden kirjaston avulla: PyPDF ja PyMuPDF.

Jos sinulla on kysymyksiä tai kohtaat ongelmia koodia suorittaessa, jätä kommentti foorumeissamme!

Python on File Format Blog

Poimi teksti PDF-tiedostosta Pythonilla