Terakhir Diperbarui: 15 Jan, 2025

Judul - Mengekstrak Teks dari File PDF Menggunakan Python

Mengekstrak Teks dari File PDF Menggunakan Python

Dalam artikel ini, kami akan memberi tahu Anda cara mengekstrak teks dari file PDF menggunakan Python.

PDF, yang berarti Portable Document Format, adalah format dokumen digital yang populer. Format ini dirancang agar dokumen dapat dilihat atau dibagikan dengan mudah dan andal, terlepas dari perangkat lunak, perangkat keras, atau sistem operasi. File PDF memiliki ekstensi .pdf.

Untuk mengekstrak teks dari file PDF menggunakan Python, pustaka-pustaka ini umumnya digunakan. Kami akan menunjukkan kepada Anda cara mengekstrak teks dari PDF menggunakan keduanya.

  1. pypdf
  2. PyMuPDF

Cara Mengekstrak Teks dari File PDF Menggunakan pypdf di Python

Berikut langkah-langkahnya.

  1. Instal pypdf
  2. Jalankan kode yang terdapat dalam artikel ini
  3. Lihat hasilnya

Instal pypdf

Anda dapat menginstal pypdf menggunakan perintah berikut

pip install pypdf

Kode Contoh untuk Mengekstrak Teks dari PDF menggunakan pypdf

sample.pdf - Tautan Unduhan (PDF contoh ini akan digunakan dalam kode, tetapi Anda tentu dapat menggunakan PDF Anda sendiri.)

cuplikan layar dari sample.pdf

Cuplikan Layar PDF Masukan Contoh

Kode

Berikut contoh kode lengkap untuk mengekstrak teks dari PDF menggunakan pypdf.

Hasil

Berikut hasil dari kode contoh yang disediakan di atas.

Cara Mengekstrak Teks dari File PDF Menggunakan PyMuPDF di Python

Berikut langkah-langkahnya.

  1. Instal PyMuPDF
  2. Jalankan kode yang terdapat dalam artikel ini
  3. Lihat hasilnya

Instal PyMuPDF

Instal PyMuPDF, juga dikenal sebagai fitz, menggunakan perintah berikut.

pip install pymupdf

Kode Contoh untuk Mengekstrak Teks dari PDF menggunakan PyMuPDF

Kami menggunakan PDF yang sama seperti sebelumnya

sample.pdf - Tautan Unduhan (PDF contoh ini akan digunakan dalam kode, tetapi Anda tentu dapat menggunakan PDF Anda sendiri.)

Kode

Berikut contoh kode lengkap untuk mengekstrak teks dari PDF menggunakan PyMuPDF.

Hasil

Berikut hasil dari kode contoh yang disediakan di atas.

Kesimpulan

Dalam artikel ini, kami menyediakan kode contoh Python, file contoh, dan hasilnya untuk mendemonstrasikan cara mengekstrak teks dari PDF menggunakan dua pustaka: PyPDF dan PyMuPDF.

Jika Anda memiliki pertanyaan atau menghadapi masalah saat menjalankan kode, jangan ragu untuk meninggalkan komentar di forum kami!

Lihat Juga