Cập nhật lần cuối: 15 Tháng 1, 2025

Trích Xuất Văn Bản từ Tệp PDF Sử Dụng Python
Trong bài viết này, chúng tôi sẽ cho bạn biết cách trích xuất văn bản từ tệp PDF bằng Python.
PDF, viết tắt của Portable Document Format, là một định dạng tài liệu kỹ thuật số phổ biến. Định dạng này được thiết kế để cho phép tài liệu được xem hoặc chia sẻ dễ dàng và đáng tin cậy, bất kể phần mềm, phần cứng hay hệ điều hành nào. Các tệp PDF có phần mở rộng là .pdf.
Để trích xuất văn bản từ một tệp PDF bằng Python, các thư viện này thường được sử dụng. Chúng tôi sẽ chỉ cho bạn cách trích xuất văn bản từ một PDF bằng cả hai thư viện này.
Cách Trích Xuất Văn Bản từ Tệp PDF Sử Dụng pypdf Trong Python
Dưới đây là các bước.
- Cài đặt pypdf
- Chạy mã được cung cấp trong bài viết này
- Xem kết quả đầu ra
Cài đặt pypdf
Bạn có thể cài đặt pypdf bằng lệnh sau
pip install pypdf
Mã Mẫu để Trích Xuất Văn Bản từ PDF sử dụng pypdf
sample.pdf - Liên kết Tải về (Mẫu PDF này sẽ được sử dụng trong mã, nhưng bạn chắc chắn có thể sử dụng PDF của riêng mình.)
ảnh chụp màn hình của sample.pdf
Mã
Dưới đây là ví dụ mã hoàn chỉnh cho trích xuất văn bản từ một PDF bằng pypdf.
Kết Quả Đầu Ra
Dưới đây là kết quả của mã mẫu cung cấp ở trên.
Cách Trích Xuất Văn Bản từ Tệp PDF Sử Dụng PyMuPDF Trong Python
Dưới đây là các bước.
- Cài đặt PyMuPDF
- Chạy mã được cung cấp trong bài viết này
- Xem kết quả đầu ra
Cài đặt PyMuPDF
Cài đặt PyMuPDF, còn được biết đến như fitz, bằng lệnh sau.
pip install pymupdf
Mã Mẫu để Trích Xuất Văn Bản từ PDF sử dụng PyMuPDF
Chúng tôi đã sử dụng cùng một PDF như trước
sample.pdf - Liên kết Tải về (Mẫu PDF này sẽ được sử dụng trong mã, nhưng bạn chắc chắn có thể sử dụng PDF của riêng mình.)
Mã
Dưới đây là ví dụ mã hoàn chỉnh cho trích xuất văn bản từ một PDF bằng PyMuPDF.
Kết Quả Đầu Ra
Dưới đây là kết quả của mã mẫu cung cấp ở trên.
Kết Luận
Trong bài viết này, chúng tôi cung cấp một mã Python mẫu, một tệp mẫu và kết quả đầu ra của chúng để minh họa cách trích xuất văn bản từ một PDF sử dụng hai thư viện: PyPDF và PyMuPDF.
Nếu bạn có bất kỳ câu hỏi nào hoặc gặp phải bất kỳ vấn đề nào trong khi chạy mã, đừng ngần ngại để lại bình luận trong diễn đàn của chúng tôi!