Εξαγωγή δεδομένων από φόρμες PDF

Εισαγωγή

Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να χρησιμοποιήσετε το GroupDocs.Parser για .NET για την εξαγωγή δεδομένων από φόρμες PDF. Το GroupDocs.Parser είναι μια ισχυρή βιβλιοθήκη που επιτρέπει στους προγραμματιστές να εργάζονται αποτελεσματικά με διάφορες μορφές εγγράφων, συμπεριλαμβανομένων των PDF, DOCX, XLSX και άλλων. Θα ακολουθήσουμε τα απαραίτητα βήματα για να εξαγάγουμε συγκεκριμένα πεδία από μια φόρμα PDF και να χειριστούμε τα εξαγόμενα δεδομένα.

Προαπαιτούμενα

Πριν ξεκινήσουμε, βεβαιωθείτε ότι έχετε τις ακόλουθες προϋποθέσεις:

Βασικές γνώσεις προγραμματισμού C#.
Το Visual Studio είναι εγκατεστημένο στο σύστημά σας.
Εγκαταστάθηκε το GroupDocs.Parser για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετε απόεδώ.

Εισαγωγή χώρων ονομάτων

Για να ξεκινήσετε, θα χρειαστεί να εισαγάγετε τους απαιτούμενους χώρους ονομάτων στο έργο C#:

using System;
using System.Linq;
using GroupDocs.Parser.Data;

Βήμα 1: Αρχικοποιήστε το Parser

Πρώτα, δημιουργήστε ένα παράδειγμα τουParser τάξη καθορίζοντας τη διαδρομή προς το δείγμα αρχείου PDF:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //Ο κώδικας για την εξαγωγή δεδομένων θα πάει εδώ
}

Βήμα 2: Εξαγωγή δεδομένων από έγγραφο PDF

Στη συνέχεια, εντός τουusing μπλοκ, επίκληση τοParseForm μέθοδος εξαγωγής δεδομένων από το έγγραφο PDF:

DocumentData data = parser.ParseForm();
if (data == null)
{
    Console.WriteLine("Form extraction isn't supported.");
    return;
}

Βήμα 3: Πρόσβαση σε συγκεκριμένα δεδομένα πεδίου

Τώρα, ορίστε μια μέθοδοGetFieldText για να ανακτήσετε κείμενο από ένα συγκεκριμένο πεδίο εντός των εξαγόμενων δεδομένων:

private static string GetFieldText(DocumentData data, string fieldName)
{
    FieldData fieldData = data.GetFieldsByName(fieldName).FirstOrDefault();
    return fieldData != null && fieldData.PageArea is PageTextArea
        ? (fieldData.PageArea as PageTextArea).Text
        : null;
}

Βήμα 4: Δημιουργήστε ένα αντικείμενο προκαταρκτικής εγγραφής

Αφού ορίσουμε τοGetFieldText μέθοδο, χρησιμοποιήστε την για να συμπληρώσετε aPreliminaryRecord αντικείμενο με εξαγόμενα δεδομένα:

PreliminaryRecord rec = new PreliminaryRecord();
rec.Name = GetFieldText(data, "Name");
rec.Model = GetFieldText(data, "Model");
rec.Time = GetFieldText(data, "Time");
rec.Description = GetFieldText(data, "Description");

Βήμα 5: Χρησιμοποιήστε τα εξαγόμενα δεδομένα

Τέλος, μπορείτε να χρησιμοποιήσετε τα εξαγόμενα δεδομένα όπως απαιτείται—είτε αποθηκεύσετε σε μια βάση δεδομένων, είτε στείλετε ως απόκριση ιστού είτε εμφανίζοντάς τα:

Console.WriteLine("Preliminary record");
Console.WriteLine("Name: {0}", rec.Name);
Console.WriteLine("Model: {0}", rec.Model);
Console.WriteLine("Time: {0}", rec.Time);
Console.WriteLine("Description: {0}", rec.Description);

συμπέρασμα

Σε αυτό το σεμινάριο, καλύψαμε τις βασικές αρχές της εξαγωγής δεδομένων από φόρμες PDF χρησιμοποιώντας το GroupDocs.Parser για .NET. Ακολουθώντας αυτά τα βήματα, μπορείτε να ανακτήσετε αποτελεσματικά συγκεκριμένες πληροφορίες από έγγραφα PDF στις εφαρμογές σας C#.

Συχνές ερωτήσεις

Είναι το GroupDocs.Parser συμβατό με άλλες μορφές εγγράφων εκτός από το PDF;

Ναι, το GroupDocs.Parser υποστηρίζει διάφορες μορφές, συμπεριλαμβανομένων των DOCX, XLSX, PPTX και άλλων.

Μπορώ να εξαγάγω εικόνες και μεταδεδομένα χρησιμοποιώντας το GroupDocs.Parser;

Ναι, το GroupDocs.Parser επιτρέπει την εξαγωγή εικόνων, μεταδεδομένων και κειμένου από έγγραφα.

Πού μπορώ να βρω πρόσθετη υποστήριξη ή τεκμηρίωση για το GroupDocs.Parser;

Μπορείτε να επισκεφθείτε τοΤεκμηρίωση GroupDocs.Parser για λεπτομερείς πληροφορίες και παραδείγματα.

Υπάρχει διαθέσιμη δωρεάν δοκιμή για το GroupDocs.Parser;

Ναι, μπορείτε να έχετε πρόσβαση σε έναδωρεάν δοκιμή του GroupDocs.Parser για να εξερευνήσετε τα χαρακτηριστικά του.

Πώς μπορώ να αποκτήσω μια προσωρινή άδεια για το GroupDocs.Parser;

Μπορείτε να αποκτήσετε έναπροσωρινή άδεια για GroupDocs.Parser να αξιολογήσετε τις δυνατότητές του στα έργα σας.

Εξαγωγή συνημμένων από χαρτοφυλάκια PDF Εξαγωγή εικόνων από PDF