Επανάληψη μέσω πεδίων

Εισαγωγή

Το GroupDocs.Parser για .NET είναι μια ισχυρή βιβλιοθήκη που επιτρέπει στους προγραμματιστές να εξάγουν δεδομένα από διάφορες μορφές εγγράφων όπως PDF, Microsoft Word, Excel και PowerPoint. Αυτό το σεμινάριο θα σας καθοδηγήσει στη διαδικασία χρήσης του GroupDocs.Parser για επανάληψη στα πεδία εγγράφων και εξαγωγή συγκεκριμένων δεδομένων χρησιμοποιώντας πρότυπα. Μέχρι το τέλος αυτού του σεμιναρίου, θα μπορείτε να εξάγετε αποτελεσματικά δομημένα δεδομένα από έγγραφα στις εφαρμογές σας .NET.

Προαπαιτούμενα

Πριν ξεκινήσουμε, βεβαιωθείτε ότι έχετε ρυθμίσει τις ακόλουθες προϋποθέσεις:

  • Βασικές γνώσεις προγραμματισμού C#.
  • Το Visual Studio είναι εγκατεστημένο στον υπολογιστή σας.
  • Το GroupDocs.Parser για τη βιβλιοθήκη .NET έχει εγκατασταθεί και αναφέρεται στο έργο σας.

Εισαγωγή χώρων ονομάτων

Για να ξεκινήσετε, προσθέστε τους απαραίτητους χώρους ονομάτων στο αρχείο C#:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Ας αναλύσουμε τη διαδικασία σε οδηγίες βήμα προς βήμα.

Βήμα 1: Ορισμός πεδίων προτύπου

Αρχικά, ορίστε τα πεδία που θέλετε να εξαγάγετε από το έγγραφο χρησιμοποιώντας κανονικές εκφράσεις.

// Ορίστε ένα πεδίο "τιμή".
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// Ορίστε ένα πεδίο "email".
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// Δημιουργήστε ένα πρότυπο με καθορισμένα πεδία
Template template = new Template(new TemplateItem[] { priceField, emailField });

Σε αυτό το βήμα, ορίσαμε δύο πεδία: ένα για την εξαγωγή τιμών (που προσδιορίζονται από το σύμβολο του δολαρίου και τα ψηφία) και ένα άλλο για την εξαγωγή διευθύνσεων email.

Βήμα 2: Ανάλυση του εγγράφου

Στη συνέχεια, χρησιμοποιήστε τοParser κλάση για την ανάλυση του εγγράφου χρησιμοποιώντας το καθορισμένο πρότυπο.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Αναλύστε το έγγραφο με βάση το πρότυπο
    DocumentData data = parser.ParseByTemplate(template);
    // Επανάληψη μέσω εξαγόμενων δεδομένων
    for (int i = 0; i < data.Count; i++)
    {
        // Εκτύπωση ονόματος πεδίου
        Console.Write(data[i].Name + ": ");
        // Ελέγξτε εάν η εξαγόμενη περιοχή είναι κείμενο
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Εδώ, αρχικοποιούμε τοParser με τη διαδρομή προς το δείγμα του εγγράφου σας και, στη συνέχεια, αναλύστε το έγγραφο χρησιμοποιώντας το καθορισμένο πρότυπο. Στη συνέχεια επαναλαμβάνουμε τα εξαγόμενα δεδομένα και εκτυπώνουμε τα ονόματα των πεδίων μαζί με το εξαγόμενο κείμενο.

συμπέρασμα

Σε αυτό το σεμινάριο, εξερευνήσαμε τον τρόπο χρήσης του GroupDocs.Parser για .NET για την εξαγωγή συγκεκριμένων δεδομένων από έγγραφα χρησιμοποιώντας πρότυπα. Αξιοποιώντας κανονικές εκφράσεις και πρότυπα, μπορείτε να εξάγετε αποτελεσματικά δομημένες πληροφορίες από διάφορες μορφές εγγράφων. Πειραματιστείτε με διαφορετικά πρότυπα και τύπους εγγράφων που ταιριάζουν στις συγκεκριμένες ανάγκες εξαγωγής σας.

Συχνές ερωτήσεις

Μπορεί το GroupDocs.Parser να εξάγει δεδομένα από σαρωμένα έγγραφα;

Ναι, το GroupDocs.Parser μπορεί να εξάγει κείμενο και μεταδεδομένα τόσο από σαρωμένα όσο και από έγγραφα PDF με δυνατότητα αναζήτησης.

Είναι το GroupDocs.Parser συμβατό με εφαρμογές .NET Core;

Ναι, το GroupDocs.Parser υποστηρίζει .NET Core μαζί με .NET Framework.

Ποιες μορφές εγγράφων υποστηρίζει το GroupDocs.Parser;

Το GroupDocs.Parser υποστηρίζει ένα ευρύ φάσμα μορφών, όπως PDF, Microsoft Word, Excel, PowerPoint και άλλα.

Πώς μπορώ να χειριστώ μεγάλα έγγραφα με το GroupDocs.Parser;

Το GroupDocs.Parser παρέχει επιλογές εξαγωγής δεδομένων από συγκεκριμένες σελίδες ή ενότητες μεγάλων εγγράφων, διασφαλίζοντας αποτελεσματική επεξεργασία.

Μπορώ να χρησιμοποιήσω το GroupDocs.Parser μόνο για εξαγωγή κειμένου;

Ναι, μπορείτε να εξαγάγετε περιεχόμενο απλού κειμένου από έγγραφα χρησιμοποιώντας το GroupDocs.Parser χωρίς την ανάγκη περίπλοκης μορφοποίησης.