最後更新:2025 年 1 月 15 日

使用 Python 從 PDF 文件提取文本
在本文中,我們將告訴您如何使用 Python 從 PDF 文件中提取文本。
PDF 代表便攜式文檔格式,是一種流行的數位文檔格式。此格式設計為使文檔無論在何種軟體、硬體或操作系統上都能輕鬆和可靠地查看或共享。PDF 文件的擴展名為 .pdf。
若要使用 Python 從 PDF 文件中提取文本,通常會用到以下這些庫。我們將向您展示如何使用這兩個庫中的任一個來從 PDF 中提取文本。
如何在 Python 中使用 pypdf 從 PDF 文件中提取文本
以下是步驟。
- 安裝 pypdf
- 運行本文提供的代碼
- 查看輸出
安裝 pypdf
您可以使用以下命令安裝 pypdf
pip install pypdf
使用 pypdf 從 PDF 中提取文本的示例代碼
sample.pdf - 下載鏈接(此示例 PDF 將在代碼中使用,當然您也可以使用自己的 PDF。)
sample.pdf 的截圖
代碼
下面是一個用於使用 pypdf 從 PDF 中提取文本的完整代碼示例。
輸出
以下是上面提供的示例代碼的輸出。
如何在 Python 中使用 PyMuPDF 從 PDF 文件中提取文本
以下是步驟。
- 安裝 PyMuPDF
- 運行本文提供的代碼
- 查看輸出
安裝 PyMuPDF
使用以下命令安裝 PyMuPDF,也稱為 fitz。
pip install pymupdf
使用 PyMuPDF 從 PDF 中提取文本的示例代碼
我們仍然使用之前使用的相同 PDF
sample.pdf - 下載鏈接(此示例 PDF 將在代碼中使用,當然您也可以使用自己的 PDF。)
代碼
下面是一個用於使用 PyMuPDF 從 PDF 中提取文本的完整代碼示例。
輸出
以下是上面提供的示例代碼的輸出。
結論
在本文中,我們提供了一個 Python 示例代碼、一個示例文件及其輸出,來演示如何使用兩個庫:PyPDF 和 PyMuPDF 從 PDF 中提取文本。
如果您在運行代碼時有任何問題或遇到任何問題,隨時在我們的論壇中留言!