Menjadi pengembang aplikasi Java yang membuat aplikasi pemrosesan dokumen, Anda mungkin tertarik untuk memberikan kemampuan membaca dokumen kata dalam aplikasi Java Anda dan mengekstraksi teks dari dokumen -dokumen ini secara terprogram. Anda dapat memanfaatkan kekuatan API DOCX4J untuk membaca file DOCX dan mengekstrak teks dari file -file ini dari aplikasi Java Anda. Dalam artikel ini, kami akan menunjukkan cara menggunakan API DOCX4J untuk mencapai tujuan kami bekerja dengan file DOCX untuk ekstraksi teks.

Bagaimana cara membaca dan mengekstrak teks dari dokumen kata di java?

Sebelum Anda mulai menulis kode untuk membuat file DOCX menggunakan API DOCX4J, Anda harus memiliki API DOCX4J yang dikonfigurasi di lingkungan pengembangan Anda. Jika Anda belum menginstal dan mengonfigurasi API DOCX4J, Anda dapat melihat artikel kami tentang Cara Menginstal API DOCX4J.

Ekstrak teks dari dokumen Word di java

Pada tahap ini, kami berasumsi bahwa Anda telah mengatur lingkungan pengembangan Anda dan siap untuk mulai menggunakan API DOCX4J untuk mengekstraksi teks dari dokumen Word. Kode sampel berikut dapat digunakan untuk tujuan ini. Anda dapat secara langsung menyalinnya ke metode utama aplikasi Java berbasis konsol Anda dan menjalankannya.

// Load document
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx"));
// Load main document part
MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
// Extract nodes
String textNodesXPath = "//w:t";
List<Object> textNodes= mainDocumentPart.getJAXBNodesViaXPath(textNodesXPath, true);
// Print text
for (Object obj : textNodes) {
  Text text = (Text) ((JAXBElement) obj).getValue();
  String textValue = text.getValue();
  System.out.println(textValue);
}

Mari kita lihat bagaimana kode ini bekerja. Dokumen kata dimuat menggunakan WordProcesingMlPackage dan lebih lanjut diproses menggunakan kelas MainDocumentPart dari API DOCX4J. Setelah dokumen dimuat, daftar node teks diperoleh dari objek MainDocumentPart yang berisi dokumen aktual. Setiap node teks kemudian dibaca sebagai jaxbelement objek dengan melintasi itu.

kesimpulan

Bekerja dengan dokumen Word dari dalam aplikasi Java Anda mudah dengan API DOCX4J. API membantu Anda menambahkan fungsionalitas pemrosesan dokumen ke aplikasi Java Anda tanpa masuk ke detail internal dari format file yang mendasarinya. Terus ikuti blog ini untuk lebih banyak contoh bekerja dengan API DOCX4J.