التكرار عبر الحقول
مقدمة
تعد GroupDocs.Parser for .NET مكتبة قوية تسمح للمطورين باستخراج البيانات من تنسيقات المستندات المختلفة مثل PDF وMicrosoft Word وExcel وPowerPoint. سيرشدك هذا البرنامج التعليمي خلال عملية استخدام GroupDocs.Parser للتكرار عبر حقول المستند واستخراج بيانات محددة باستخدام القوالب. بحلول نهاية هذا البرنامج التعليمي، ستكون قادرًا على استخراج البيانات المنظمة بكفاءة من المستندات الموجودة في تطبيقات .NET الخاصة بك.
المتطلبات الأساسية
قبل أن نبدأ، تأكد من إعداد المتطلبات الأساسية التالية:
- المعرفة الأساسية ببرمجة C#.
- تم تثبيت Visual Studio على جهازك.
- تم تثبيت GroupDocs.Parser لمكتبة .NET والإشارة إليها في مشروعك.
استيراد مساحات الأسماء
للبدء، أضف مساحات الأسماء الضرورية إلى ملف C# الخاص بك:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
دعونا نقسم العملية إلى تعليمات خطوة بخطوة.
الخطوة 1: تحديد حقول القالب
أولاً، حدد الحقول التي تريد استخراجها من المستند باستخدام التعبيرات العادية.
// حدد حقل "السعر".
TemplateField priceField = new TemplateField(
new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
"Price");
// تحديد حقل "البريد الإلكتروني".
TemplateField emailField = new TemplateField(
new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
"Email");
// قم بإنشاء قالب يحتوي على حقول محددة
Template template = new Template(new TemplateItem[] { priceField, emailField });
في هذه الخطوة، قمنا بتحديد حقلين: أحدهما لاستخراج الأسعار (المحددة بعلامة الدولار والأرقام) والآخر لاستخراج عناوين البريد الإلكتروني.
الخطوة 2: تحليل الوثيقة
بعد ذلك، استخدمParser
class لتحليل المستند باستخدام القالب المحدد.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// تحليل المستند حسب القالب
DocumentData data = parser.ParseByTemplate(template);
// التكرار من خلال البيانات المستخرجة
for (int i = 0; i < data.Count; i++)
{
// طباعة اسم الحقل
Console.Write(data[i].Name + ": ");
// تحقق مما إذا كانت المنطقة المستخرجة عبارة عن نص
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
هنا، نقوم بتهيئةParser
باستخدام المسار إلى نموذج المستند الخاص بك، ثم قم بتحليل المستند باستخدام القالب المحدد. نقوم بعد ذلك بمراجعة البيانات المستخرجة وطباعة أسماء الحقول مع النص المستخرج.
خاتمة
في هذا البرنامج التعليمي، اكتشفنا كيفية استخدام GroupDocs.Parser لـ .NET لاستخراج بيانات محددة من المستندات باستخدام القوالب. من خلال الاستفادة من التعبيرات العادية والقوالب، يمكنك استخراج المعلومات المنظمة بكفاءة من تنسيقات المستندات المختلفة. قم بتجربة القوالب وأنواع المستندات المختلفة لتناسب احتياجاتك الخاصة في الاستخراج.
الأسئلة الشائعة
هل يمكن لـ GroupDocs.Parser استخراج البيانات من المستندات الممسوحة ضوئيًا؟
نعم، يمكن لـ GroupDocs.Parser استخراج النص والبيانات التعريفية من مستندات PDF الممسوحة ضوئيًا والقابلة للبحث.
هل GroupDocs.Parser متوافق مع تطبيقات .NET Core؟
نعم، يدعم GroupDocs.Parser .NET Core مع .NET Framework.
ما هي تنسيقات المستندات التي يدعمها GroupDocs.Parser؟
يدعم GroupDocs.Parser مجموعة واسعة من التنسيقات بما في ذلك PDF وMicrosoft Word وExcel وPowerPoint والمزيد.
كيف يمكنني التعامل مع المستندات الكبيرة باستخدام GroupDocs.Parser؟
يوفر GroupDocs.Parser خيارات لاستخراج البيانات من صفحات أو أقسام محددة من المستندات الكبيرة، مما يضمن المعالجة الفعالة.
هل يمكنني استخدام GroupDocs.Parser لاستخراج النص فقط؟
نعم، يمكنك استخراج محتوى نص عادي من المستندات باستخدام GroupDocs.Parser دون الحاجة إلى تنسيق معقد.