最終更新日: 2025年1月15日

PythonでPDFファイルからテキストを抽出する方法
この記事では、PythonでPDFファイルからテキストを抽出する方法を皆さんにお知らせします。
PDFは、**Portable Document Format(ポータブルドキュメントフォーマット)**の略で、人気のあるデジタルドキュメントフォーマットです。このフォーマットは、ソフトウェア、ハードウェア、オペレーティングシステムに関係なく、文書を簡単かつ信頼性高く表示または共有できるように設計されています。PDFファイルの拡張子は .pdf です。
Pythonを使用してPDFファイルからテキストを抽出するには、これらのライブラリが一般的に使用されます。私たちは両方の方法でテキストを抽出する方法を示します。
Pythonでpypdfを使用してPDFファイルからテキストを抽出する方法
以下のステップに従ってください。
- pypdf をインストールする
- 記事内のコードを実行する
- 出力を確認する
pypdfをインストールする
以下のコマンドを使用して pypdf をインストールできます。
pip install pypdf
pypdfを使用してPDFからテキストを抽出するサンプルコード
sample.pdf - ダウンロードリンク(このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。)
sample.pdfのスクリーンショット
コード
以下は、pypdfを使用してPDFからテキストを抽出する完全なコード例です。
出力
上記のサンプルコードの出力は次の通りです。
PythonでPyMuPDFを使用してPDFファイルからテキストを抽出する方法
ここでもステップに沿って説明します。
- PyMuPDF をインストールする
- 記事内のコードを実行する
- 出力を確認する
PyMuPDFをインストールする
PyMuPDF もしくは fitz として知られるライブラリを以下のコマンドでインストールします。
pip install pymupdf
PyMuPDFを使用してPDFからテキストを抽出するサンプルコード
前に使用されたのと同じpdfを使用します。
sample.pdf - ダウンロードリンク(このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。)
コード
以下は、PyMuPDFを使用してPDFからテキストを抽出する完全なコード例です。
出力
上記のサンプルコードの出力は次の通りです。
結論
この記事では、2つのライブラリであるPyPDFとPyMuPDFを使用して、PDFからテキストを抽出する方法を示すサンプルのPythonコード、サンプルファイル、およびその出力を紹介しました。
コードを実行する際に質問や問題があれば、私たちのフォーラムでお気軽にコメントを残してください!