Viimeksi päivitetty: 15 Jan, 2025

Poimi teksti PDF-tiedostosta Pythonilla
Tässä artikkelissa kerromme kuinka poimia teksti PDF-tiedostosta Pythonilla.
PDF tarkoittaa Portable Document Format -formaattia, joka on suosittu digitaalinen asiakirjamuoto. Tämä formaatti on suunniteltu mahdollistamaan asiakirjojen helppo ja luotettava katselu tai jakaminen riippumatta ohjelmistosta, laitteistosta tai käyttöjärjestelmästä. PDF-tiedostoilla on pääte .pdf.
PDF-tiedoston tekstin poimimiseen Pythonilla käytetään yleisesti näitä kirjastoja. Näytämme, miten teksti voidaan poimia PDF:stä molempien avulla.
Kuinka poimia teksti PDF-tiedostosta pypdf:llä Pythonissa
Tässä ovat vaiheet.
- Asenna pypdf
- Suorita tässä artikkelissa annettu koodi
- Katso tulos
Asenna pypdf
Voit asentaa pypdf seuraavalla komennolla
pip install pypdf
Esimerkkikoodi PDF-tekstin poimimiseen pypdf:llä
sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)
Näyttökuva sample.pdf:stä

Koodi
Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi pypdf:llä.
Tuloste
Tässä on yllä annetun esimerkkikoodin tuloste.
Kuinka poimia teksti PDF-tiedostosta PyMuPDF:llä Pythonissa
Tässä ovat vaiheet.
- Asenna PyMuPDF
- Suorita tässä artikkelissa annettu koodi
- Katso tulos
Asenna PyMuPDF
Asenna PyMuPDF, joka tunnetaan myös nimellä fitz, seuraavalla komennolla.
pip install pymupdf
Esimerkkikoodi PDF-tekstin poimimiseen PyMuPDF:llä
Käytimme samaa pdf-tiedostoa kuin aiemmin
sample.pdf - Lataa (Tätä esimerkkipdf:tä käytetään koodissa, mutta voit toki käyttää omaa PDF-tiedostoasi.)
Koodi
Tässä on täydellinen koodiesimerkki PDF-tekstin poimimiseksi PyMuPDF:llä.
Tuloste
Tässä on yllä annetun esimerkkikoodin tuloste.
Yhteenveto
Tässä artikkelissa tarjoamme esimerkkikoodin Pythonilla, esimerkkitiedoston ja niiden tulosteen osoittaaksemme, miten teksti voidaan poimia PDF:stä kahden kirjaston avulla: PyPDF ja PyMuPDF.
Jos sinulla on kysymyksiä tai kohtaat ongelmia koodia suorittaessa, jätä kommentti foorumeissamme!