Terakhir Diperbarui: 15 Jan, 2025

Mengekstrak Teks dari File PDF Menggunakan Python
Dalam artikel ini, kami akan memberi tahu Anda cara mengekstrak teks dari file PDF menggunakan Python.
PDF, yang berarti Portable Document Format, adalah format dokumen digital yang populer. Format ini dirancang agar dokumen dapat dilihat atau dibagikan dengan mudah dan andal, terlepas dari perangkat lunak, perangkat keras, atau sistem operasi. File PDF memiliki ekstensi .pdf.
Untuk mengekstrak teks dari file PDF menggunakan Python, pustaka-pustaka ini umumnya digunakan. Kami akan menunjukkan kepada Anda cara mengekstrak teks dari PDF menggunakan keduanya.
Cara Mengekstrak Teks dari File PDF Menggunakan pypdf di Python
Berikut langkah-langkahnya.
- Instal pypdf
- Jalankan kode yang terdapat dalam artikel ini
- Lihat hasilnya
Instal pypdf
Anda dapat menginstal pypdf menggunakan perintah berikut
pip install pypdf
Kode Contoh untuk Mengekstrak Teks dari PDF menggunakan pypdf
sample.pdf - Tautan Unduhan (PDF contoh ini akan digunakan dalam kode, tetapi Anda tentu dapat menggunakan PDF Anda sendiri.)
cuplikan layar dari sample.pdf
Kode
Berikut contoh kode lengkap untuk mengekstrak teks dari PDF menggunakan pypdf.
Hasil
Berikut hasil dari kode contoh yang disediakan di atas.
Cara Mengekstrak Teks dari File PDF Menggunakan PyMuPDF di Python
Berikut langkah-langkahnya.
- Instal PyMuPDF
- Jalankan kode yang terdapat dalam artikel ini
- Lihat hasilnya
Instal PyMuPDF
Instal PyMuPDF, juga dikenal sebagai fitz, menggunakan perintah berikut.
pip install pymupdf
Kode Contoh untuk Mengekstrak Teks dari PDF menggunakan PyMuPDF
Kami menggunakan PDF yang sama seperti sebelumnya
sample.pdf - Tautan Unduhan (PDF contoh ini akan digunakan dalam kode, tetapi Anda tentu dapat menggunakan PDF Anda sendiri.)
Kode
Berikut contoh kode lengkap untuk mengekstrak teks dari PDF menggunakan PyMuPDF.
Hasil
Berikut hasil dari kode contoh yang disediakan di atas.
Kesimpulan
Dalam artikel ini, kami menyediakan kode contoh Python, file contoh, dan hasilnya untuk mendemonstrasikan cara mengekstrak teks dari PDF menggunakan dua pustaka: PyPDF dan PyMuPDF.
Jika Anda memiliki pertanyaan atau menghadapi masalah saat menjalankan kode, jangan ragu untuk meninggalkan komentar di forum kami!