PythonでPDFファイルからテキストを抽出する方法

最終更新日: 2025年1月15日

PythonでPDFファイルからテキストを抽出する方法

この記事では、PythonでPDFファイルからテキストを抽出する方法を皆さんにお知らせします。

PDFは、**Portable Document Format（ポータブルドキュメントフォーマット）**の略で、人気のあるデジタルドキュメントフォーマットです。このフォーマットは、ソフトウェア、ハードウェア、オペレーティングシステムに関係なく、文書を簡単かつ信頼性高く表示または共有できるように設計されています。PDFファイルの拡張子は .pdf です。

Pythonを使用してPDFファイルからテキストを抽出するには、これらのライブラリが一般的に使用されます。私たちは両方の方法でテキストを抽出する方法を示します。

Pythonでpypdfを使用してPDFファイルからテキストを抽出する方法

以下のステップに従ってください。

pypdf をインストールする
記事内のコードを実行する
出力を確認する

pypdfをインストールする

以下のコマンドを使用して pypdf をインストールできます。

pip install pypdf

pypdfを使用してPDFからテキストを抽出するサンプルコード

sample.pdf - ダウンロードリンク（このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。）

sample.pdfのスクリーンショット

サンプル入力PDFスクリーンショット

コード

以下は、pypdfを使用してPDFからテキストを抽出する完全なコード例です。

出力

上記のサンプルコードの出力は次の通りです。

PythonでPyMuPDFを使用してPDFファイルからテキストを抽出する方法

ここでもステップに沿って説明します。

PyMuPDF をインストールする
記事内のコードを実行する
出力を確認する

PyMuPDFをインストールする

PyMuPDF もしくは fitz として知られるライブラリを以下のコマンドでインストールします。

pip install pymupdf

PyMuPDFを使用してPDFからテキストを抽出するサンプルコード

前に使用されたのと同じpdfを使用します。

sample.pdf - ダウンロードリンク（このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。）

コード

以下は、PyMuPDFを使用してPDFからテキストを抽出する完全なコード例です。

出力

上記のサンプルコードの出力は次の通りです。

結論

この記事では、2つのライブラリであるPyPDFとPyMuPDFを使用して、PDFからテキストを抽出する方法を示すサンプルのPythonコード、サンプルファイル、およびその出力を紹介しました。

コードを実行する際に質問や問題があれば、私たちのフォーラムでお気軽にコメントを残してください！

PythonでPDFファイルからテキストを抽出する方法#

Pythonでpypdfを使用してPDFファイルからテキストを抽出する方法#

pypdfをインストールする#

pypdfを使用してPDFからテキストを抽出するサンプルコード#

コード#

出力#

PythonでPyMuPDFを使用してPDFファイルからテキストを抽出する方法#

PyMuPDFをインストールする#

PyMuPDFを使用してPDFからテキストを抽出するサンプルコード#

コード#

出力#

結論#

関連記事#

PythonでPDFファイルからテキストを抽出する方法

Pythonでpypdfを使用してPDFファイルからテキストを抽出する方法

pypdfをインストールする

pypdfを使用してPDFからテキストを抽出するサンプルコード

コード

出力

PythonでPyMuPDFを使用してPDFファイルからテキストを抽出する方法

PyMuPDFをインストールする

PyMuPDFを使用してPDFからテキストを抽出するサンプルコード

コード

出力

結論

関連記事