Viimeksi päivitetty: 15 Jan, 2025

Otsikko - Poimi teksti PDF-tiedostosta Pythonilla

Poimi teksti PDF-tiedostosta Pythonilla

Tässä artikkelissa kerromme kuinka poimia teksti PDF-tiedostosta Pythonilla.

PDF tarkoittaa Portable Document Format -formaattia, joka on suosittu digitaalinen asiakirjamuoto. Tämä formaatti on suunniteltu mahdollistamaan asiakirjojen helppo ja luotettava katselu tai jakaminen riippumatta ohjelmistosta, laitteistosta tai käyttöjärjestelmästä. PDF-tiedostoilla on pääte .pdf.

PDF-tiedoston tekstin poimimiseen Pythonilla käytetään yleisesti näitä kirjastoja. Näytämme, miten teksti voidaan poimia PDF:stä molempien avulla.

  1. pypdf
  2. PyMuPDF

Kuinka poimia teksti PDF-tiedostosta pypdf:llä Pythonissa

Tässä ovat vaiheet.

  1. Asenna pypdf
  2. Suorita tässä artikkelissa annettu koodi
  3. Katso tulos

Asenna pypdf

Voit asentaa pypdf seuraavalla komennolla

pip install pypdf

Esimerkkikoodi PDF-tekstin poimimiseen pypdf:llä

sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)

Näyttökuva sample.pdf:stä

Näytteen PDF-syötteen näyttökuva

Koodi

Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi pypdf:llä.

Tuloste

Tässä on yllä annetun esimerkkikoodin tuloste.

Kuinka poimia teksti PDF-tiedostosta PyMuPDF:llä Pythonissa

Tässä ovat vaiheet.

  1. Asenna PyMuPDF
  2. Suorita tässä artikkelissa annettu koodi
  3. Katso tulos

Asenna PyMuPDF

Asenna PyMuPDF, joka tunnetaan myös nimellä fitz, seuraavalla komennolla.

pip install pymupdf

Esimerkkikoodi PDF-tekstin poimimiseen PyMuPDF:llä

Käytimme samaa pdf-tiedostoa kuin aiemmin

sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)

Koodi

Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi PyMuPDF:llä.

Tuloste

Tässä on yllä annetun esimerkkikoodin tuloste.

Yhteenveto

Tässä artikkelissa tarjoamme esimerkkikoodin Pythonilla, esimerkkitiedoston ja niiden tulosteen osoittaaksemme, miten teksti voidaan poimia PDF:stä kahden kirjaston avulla: PyPDF ja PyMuPDF.

Jos sinulla on kysymyksiä tai kohtaat ongelmia koodia suorittaessa, jätä kommentti foorumeissamme!

Katso myös