Là nhà phát triển ứng dụng Java, người xây dựng các ứng dụng xử lý tài liệu, bạn có thể quan tâm đến việc cung cấp khả năng đọc các tài liệu từ trong ứng dụng Java của bạn và trích xuất văn bản từ các tài liệu này theo chương trình. Bạn có thể tận dụng sức mạnh của API DOCX4J để đọc tệp docx và trích xuất văn bản từ các tệp này từ ứng dụng Java của bạn. Trong bài viết này, chúng tôi sẽ chỉ ra cách sử dụng API DOCX4J để đạt được mục tiêu làm việc với các tệp docx để trích xuất văn bản.

Làm thế nào để đọc và trích xuất văn bản từ các tài liệu từ trong java?

Trước khi bạn bắt đầu viết mã để tạo tệp docx bằng API DOCX4J, bạn phải có API DOCX4J được cấu hình trong môi trường phát triển của mình. Nếu bạn đã cài đặt và cấu hình API docx4j, bạn có thể xem bài viết của chúng tôi về Cách cài đặt API DOCX4J.

Trích xuất văn bản từ tài liệu Word trong java

Ở giai đoạn này, chúng tôi giả định rằng bạn đã thiết lập môi trường phát triển của mình và sẵn sàng bắt đầu sử dụng API DOCX4J để trích xuất văn bản từ các tài liệu từ. Mã mẫu sau đây có thể được sử dụng cho mục đích này. Bạn có thể trực tiếp sao chép nó vào phương thức chính của ứng dụng Java dựa trên giao diện điều khiển của bạn và thực hiện nó.

// Load document
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx"));
// Load main document part
MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
// Extract nodes
String textNodesXPath = "//w:t";
List<Object> textNodes= mainDocumentPart.getJAXBNodesViaXPath(textNodesXPath, true);
// Print text
for (Object obj : textNodes) {
  Text text = (Text) ((JAXBElement) obj).getValue();
  String textValue = text.getValue();
  System.out.println(textValue);
}

Hãy để một cái nhìn về cách thức hoạt động của mã này. Tài liệu Word được tải bằng cách sử dụng WordProcesingMlPackage và được xử lý thêm bằng cách sử dụng lớp MainDocumentPart của API DOCX4J. Khi tài liệu được tải, danh sách các nút văn bản được lấy từ đối tượng MainDocumentPart chứa tài liệu thực tế. Mỗi nút văn bản sau đó được đọc là jaxbelement đối tượng bằng cách đi qua nó.

Kết luận

Làm việc với các tài liệu Word từ trong ứng dụng Java của bạn rất dễ dàng với API docx4J. API giúp bạn thêm chức năng xử lý tài liệu vào các ứng dụng Java của bạn mà không cần đi vào các chi tiết nội bộ của định dạng tệp cơ bản. Tiếp tục theo dõi blog này để biết thêm các ví dụ về việc làm việc với API docx4J.