Belge işleme uygulamaları oluşturan bir Java Uygulama Geliştiricisi olarak, Java uygulamanızdaki kelime belgelerini okuma ve bu belgelerden metin çıkarma yeteneğini programlı olarak sunmak isteyebilirsiniz. DOCX dosyaları ‘i okumak ve Java uygulamanızdan bu dosyalardan metni çıkarmak için Docx4j API’sının gücünden yararlanabilirsiniz. Bu makalede, metnin çıkarılması için DOCX dosyalarıyla çalışma hedefimize ulaşmak için Docx4J API’sının nasıl kullanılacağını göstereceğiz.

Java’daki Word belgelerinden metin nasıl okunur ve çıkarılır? {.wp-blok başlığı}

Docx4J API’sını kullanarak bir DOCX dosyası oluşturma kod yazmaya başlamadan önce, geliştirme ortamınızda yapılandırılmış Docx4J API’si olmalıdır. DOCX4J API’sını henüz yüklemediyseniz ve yapılandırmadıysanız, Docx4j API’sının nasıl kurulacağı hakkındaki makalemize bir göz atabilirsiniz.

Java’daki Word Belgesinden Metin Çıkarma

Bu aşamada, geliştirme ortamınızı kurduğunuzu ve kelime belgelerinden metin çıkarmak için Docx4J API’sını kullanmaya hazır olduğunuzu varsayıyoruz. Bu amaç için aşağıdaki örnek kod kullanılabilir. Doğrudan konsol tabanlı Java uygulamanızın ana yöntemine kopyalayabilir ve yürütebilirsiniz.

// Load document
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx"));
// Load main document part
MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
// Extract nodes
String textNodesXPath = "//w:t";
List<Object> textNodes= mainDocumentPart.getJAXBNodesViaXPath(textNodesXPath, true);
// Print text
for (Object obj : textNodes) {
  Text text = (Text) ((JAXBElement) obj).getValue();
  String textValue = text.getValue();
  System.out.println(textValue);
}

Bu kodun nasıl çalıştığına bir göz atalım. Kelime belgesi WordProcesingMlpackage kullanılarak yüklenir ve ayrıca Docx4j API’sının MainDocumentPart sınıfı kullanılarak işlenir. Belge yüklendikten sonra, metin düğümlerinin listesi gerçek belgeyi içeren MainDocumentPart nesnesinden alınır. Daha sonra her metin düğümü, üzerinde geçerek jaxbelement nesne olarak okunur.

Sonuç

Java uygulamanızdaki kelime belgeleriyle çalışmak Docx4J API ile kolaydır. API, temel dosya biçiminin dahili ayrıntılarına girmeden Java uygulamalarınıza belge işleme işlevleri eklemenize yardımcı olur. Docx4j API ile daha fazla çalışma örneği için bu blogu takip etmeye devam edin.