استخراج البيانات من نماذج PDF
مقدمة
في هذا البرنامج التعليمي، سنستكشف كيفية استخدام GroupDocs.Parser لـ .NET لاستخراج البيانات من نماذج PDF. GroupDocs.Parser هي مكتبة قوية تتيح للمطورين العمل بكفاءة مع تنسيقات المستندات المختلفة، بما في ذلك PDF وDOCX وXLSX والمزيد. سنتعرف على الخطوات اللازمة لاستخراج حقول محددة من نموذج PDF والتعامل مع البيانات المستخرجة.
المتطلبات الأساسية
قبل أن نبدأ، تأكد من توفر المتطلبات الأساسية التالية:
- المعرفة الأساسية ببرمجة C#.
- تم تثبيت Visual Studio على نظامك.
- تم تثبيت GroupDocs.Parser لمكتبة .NET. يمكنك تنزيله منهنا.
استيراد مساحات الأسماء
للبدء، ستحتاج إلى استيراد مساحات الأسماء المطلوبة في مشروع C# الخاص بك:
using System;
using System.Linq;
using GroupDocs.Parser.Data;
الخطوة 1: تهيئة المحلل اللغوي
أولاً، قم بإنشاء مثيل لـParser
فئة عن طريق تحديد المسار إلى ملف PDF النموذجي الخاص بك:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
//سيتم وضع رمز استخراج البيانات هنا
}
الخطوة 2: استخراج البيانات من وثيقة PDF
التالي، ضمنusing
كتلة، استدعاءParseForm
طريقة استخراج البيانات من مستند PDF:
DocumentData data = parser.ParseForm();
if (data == null)
{
Console.WriteLine("Form extraction isn't supported.");
return;
}
الخطوة 3: الوصول إلى البيانات الميدانية المحددة
الآن، تحديد الطريقةGetFieldText
لاسترداد النص من حقل معين ضمن البيانات المستخرجة:
private static string GetFieldText(DocumentData data, string fieldName)
{
FieldData fieldData = data.GetFieldsByName(fieldName).FirstOrDefault();
return fieldData != null && fieldData.PageArea is PageTextArea
? (fieldData.PageArea as PageTextArea).Text
: null;
}
الخطوة 4: إنشاء كائن سجل أولي
بعد تحديدGetFieldText
الطريقة، استخدمها لملء أPreliminaryRecord
كائن مع البيانات المستخرجة:
PreliminaryRecord rec = new PreliminaryRecord();
rec.Name = GetFieldText(data, "Name");
rec.Model = GetFieldText(data, "Model");
rec.Time = GetFieldText(data, "Time");
rec.Description = GetFieldText(data, "Description");
الخطوة 5: الاستفادة من البيانات المستخرجة
أخيرًا، يمكنك استخدام البيانات المستخرجة حسب الحاجة، سواء حفظها في قاعدة بيانات، أو إرسالها كاستجابة ويب، أو عرضها:
Console.WriteLine("Preliminary record");
Console.WriteLine("Name: {0}", rec.Name);
Console.WriteLine("Model: {0}", rec.Model);
Console.WriteLine("Time: {0}", rec.Time);
Console.WriteLine("Description: {0}", rec.Description);
خاتمة
في هذا البرنامج التعليمي، قمنا بتغطية أساسيات استخراج البيانات من نماذج PDF باستخدام GroupDocs.Parser لـ .NET. باتباع هذه الخطوات، يمكنك استرداد معلومات محددة بكفاءة من مستندات PDF داخل تطبيقات C# الخاصة بك.
الأسئلة الشائعة
هل GroupDocs.Parser متوافق مع تنسيقات المستندات الأخرى إلى جانب PDF؟
نعم، يدعم GroupDocs.Parser العديد من التنسيقات، بما في ذلك DOCX وXLSX وPPTX والمزيد.
هل يمكنني استخراج الصور والبيانات التعريفية باستخدام GroupDocs.Parser؟
نعم، يسمح GroupDocs.Parser باستخراج الصور وبيانات التعريف والنص من المستندات.
أين يمكنني العثور على دعم أو وثائق إضافية لـ GroupDocs.Parser؟
يمكنك زيارةوثائق GroupDocs.Parser للحصول على معلومات وأمثلة مفصلة.
هل هناك نسخة تجريبية مجانية متاحة لـ GroupDocs.Parser؟
نعم يمكنك الوصول إلىنسخة تجريبية مجانية من GroupDocs.Parser لاستكشاف ميزاته.
كيف يمكنني الحصول على ترخيص مؤقت لـ GroupDocs.Parser؟
يمكنك الحصول علىترخيص مؤقت لـ GroupDocs.Parser لتقييم قدراتها في مشاريعك.