extract text from pdf

PythonでPDFファイルを操作する

最終更新日: 2025年1月29日この記事では、Pythonを使用してPDFファイルを操作する方法をガイドします。ここでは、pypdfライブラリを使用します。 pypdfライブラリを使用して、Pythonで以下の操作を実行する方法を示します： PDFからのテキスト抽出 PDFページの回転複数PDFの結合 PDFの分割 PDFページへの透かしの追加注意: この記事は多くの貴重な詳細をカバーしているため、最も興味のあるセクションに自由に飛ぶことができます！内容は簡単にナビゲートできるように整理されており、あなたに最も関連する部分に素早く集中できます。サンプルコードこの記事で使用されているサンプルコードを以下のリンクからダウンロードできます。コード、入力ファイル、および出力ファイルが含まれています。 PythonでPDFファイルを操作するためのコード例と入力ファイル pypdfのインストール pypdfをインストールするには、ターミナルまたはコマンドプロンプトで次のコマンドを実行してください： pip install pypdf 注意: 上記のコマンドは大文字と小文字を区別します。 1. Pythonを使用してPDFファイルからテキストを抽出するコードの説明 1. PDFリーダーオブジェクトの作成 reader = PdfReader(pdf_file) PdfReader(pdf_file)はPDFファイルをリーダーオブジェクトにロードします。このオブジェクトを使用すると、ページとそのコンテンツにアクセスできます。 2. ページのループ処理 for page_number, page in enumerate(reader.pages, start=1): reader.pagesはPDFのページリストを返します。 enumerate(..., start=1)は1から始まるページ番号を割り当てます。 3. 抽出されたテキストの表示 print(f"Page {page_number}:") print(page.extract_text()) print("-" * 50) # 読みやすさのための区切り page.extract_text()は現在のページからテキストコンテンツを抽出します。スクリプトは抽出されたテキストとページ番号を表示します。 "-" * 50は読みやすさのための区切り線を印字します（--------------------------------------------------）。コードで使用されている入力PDFファイル入力ファイル: ダウンロードリンクコード実行結果 2. Pythonを使用してPDFページを回転するコードの説明このコードは、最初のページを90°時計回りに回転させ、他のページに影響を与えずに修正したPDFを保存します。 1. 必要なクラスのインポート from pypdf import PdfReader, PdfWriter PdfReader: 入力PDFを読み取ります。 PdfWriter: 修正を加えた新しいPDFを作成します。 2.