ドキュメント処理アプリケーションを構築するJavaアプリケーション開発者であるため、Javaアプリケーションで単語ドキュメントを読み取り、これらのドキュメントからプログラムでテキストを抽出する機能を提供することに興味があるかもしれません。 docx4j APIのパワーを活用してdocxファイルを読み取り、Javaアプリケーションからこれらのファイルからテキストを抽出できます。 この記事では、docx4j APIを使用して、テキストの抽出のためにdocxファイルを操作するという目標を達成する方法を示します。
Javaの単語文書からテキストを読んで抽出する方法は? Docx4J APIを使用してDOCXファイルを作成するためのコードの作成を開始する前に、開発環境でDOCX4J APIを構成する必要があります。まだインストールされていない場合はDocx4J APIを構成していない場合は、DOCX4J APIをインストールする方法に関する記事をご覧ください。
JavaのWord Documentからテキストを抽出 この段階では、開発環境をセットアップし、Wordドキュメントからテキストを抽出するためにDOCX4J APIの使用を開始する準備ができていると仮定します。この目的には、次のサンプルコードを使用できます。コンソールベースのJavaアプリケーションの主な方法に直接コピーして実行できます。
// Load document WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx")); // Load main document part MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart(); // Extract nodes String textNodesXPath = "//w:t"; List