نظرًا لكونك مطور تطبيق Java يقوم ببناء تطبيقات معالجة المستندات ، فقد تكون مهتمًا بتوفير قدرة قراءة مستندات Word في تطبيق Java الخاص بك واستخراج النص من هذه المستندات برمجيًا. يمكنك الاستفادة من قوة DOCX4J API لقراءة ملفات DOCX واستخراج النص من هذه الملفات من تطبيق Java الخاص بك. في هذه المقالة ، سنعرض كيفية استخدام DOCX4J API لتحقيق هدفنا المتمثل في العمل مع ملفات DOCX لاستخراج النص.

كيف تقرأ واستخراج النص من مستندات Word في Java؟

قبل البدء في كتابة التعليمات البرمجية لإنشاء ملف DOCX باستخدام واجهة برمجة تطبيقات DOCX4J ، يجب أن يكون لديك API DOCX4J تم تكوينه في بيئة التطوير الخاصة بك. إذا لم تكن قد قمت بالفعل بتثبيت وتكوين API DOCX4J ، فيمكنك إلقاء نظرة على مقالتنا حول كيفية تثبيت DOCX4J API.

استخراج النص من مستند Word في Java

في هذه المرحلة ، نفترض أنك قمت بإعداد بيئة التطوير الخاصة بك وأنك مستعد للبدء في استخدام واجهة برمجة تطبيقات DOCX4J لاستخراج النص من مستندات Word. يمكن استخدام رمز العينة التالي لهذا الغرض. يمكنك نسخه مباشرة إلى الطريقة الرئيسية لتطبيق Java القائم على وحدة التحكم وتنفيذها.

// Load document
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("FileFormat.docx"));
// Load main document part
MainDocumentPart mainDocumentPart = wordMLPackage.getMainDocumentPart();
// Extract nodes
String textNodesXPath = "//w:t";
List<Object> textNodes= mainDocumentPart.getJAXBNodesViaXPath(textNodesXPath, true);
// Print text
for (Object obj : textNodes) {
  Text text = (Text) ((JAXBElement) obj).getValue();
  String textValue = text.getValue();
  System.out.println(textValue);
}

دعونا نلقي نظرة على كيفية عمل هذا الرمز. يتم تحميل مستند Word باستخدام WordProcesingMlPackage ويتم معالجته بشكل أكبر باستخدام فئة MainDocumentPart من API DOCX4J. بمجرد تحميل المستند ، يتم الحصول على قائمة العقد النصية من كائن MainDocumentPart الذي يحتوي على المستند الفعلي. ثم تتم قراءة كل عقدة نصية باسم Jaxbelement عن طريق اجتيازها.

الخاتمة

العمل مع مستندات Word من داخل تطبيق Java الخاص بك أمر سهل مع DOCX4J API. تساعدك API على إضافة وظائف معالجة المستندات إلى تطبيقات Java الخاصة بك دون الدخول في التفاصيل الداخلية لتنسيق الملف الأساسي. استمر في متابعة هذه المدونة لمزيد من الأمثلة على العمل مع DOCX4J API.