문서 처리 응용 프로그램을 구축하는 Java 응용 프로그램 개발자이기 때문에 Java 응용 프로그램에서 Word 문서를 읽는 기능을 제공하고 이러한 문서에서 프로그래밍 방식으로 텍스트를 추출하는 데 관심이있을 수 있습니다. DOCX4J API의 전력을 활용하여 DOCX 파일을 읽고 Java 응용 프로그램에서 이러한 파일에서 텍스트를 추출 할 수 있습니다. 이 기사에서는 DOCX4J API를 사용하여 텍스트 추출을 위해 DOCX 파일 작업을 목표로하는 방법을 보여 드리겠습니다.

Java의 Word Documents에서 텍스트를 읽고 추출하는 방법은 무엇입니까? {.WP- 블록 헤드}

DOCX4J API를 사용하여 DOCX 파일을 작성하기위한 코드를 작성하기 전에 개발 환경에서 DOCX4J API가 구성되어 있어야합니다. DOCX4J API를 아직 설치하고 구성하지 않은 경우 DOCX4J API를 설치하는 방법에 대한 기사를 살펴볼 수 있습니다.

Java의 Word 문서에서 텍스트 추출

이 단계에서는 개발 환경을 설정했으며 Word 문서에서 텍스트를 추출하기 위해 Docx4J API를 사용할 준비가되었다고 가정합니다. 이 목적으로 다음 샘플 코드를 사용할 수 있습니다. 콘솔 기반 Java 응용 프로그램의 기본 메소드에 직접 복사하여 실행할 수 있습니다.

// Load document
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx"));
// Load main document part
MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
// Extract nodes
String textNodesXPath = "//w:t";
List<Object> textNodes= mainDocumentPart.getJAXBNodesViaXPath(textNodesXPath, true);
// Print text
for (Object obj : textNodes) {
  Text text = (Text) ((JAXBElement) obj).getValue();
  String textValue = text.getValue();
  System.out.println(textValue);
}

이 코드가 어떻게 작동하는지 살펴 보겠습니다. Word 문서는 WordProcesingMlPackage 를 사용하여로드되며 MainDocumentPart Docx4J API 클래스를 사용하여 추가로 처리됩니다. 문서가로드되면 텍스트 노드 목록은 실제 문서가 포함 된 MainDocumentPart 객체에서 얻습니다. 그런 다음 각 텍스트 노드를 횡단하여 jaxbelement 객체로 읽습니다.

결론 {.WP- 블록 헤드}

Docx4J API를 사용하면 Java 응용 프로그램 내에서 Word 문서 작업이 쉽습니다. API는 기본 파일 형식의 내부 세부 사항으로 들어 가지 않고 Java 응용 프로그램에 문서 처리 기능을 추가하는 데 도움이됩니다. DOCX4J API와의 작업의 더 많은 예를 보려면이 블로그를 계속 팔로우하십시오.