Durch Felder iterieren

Einführung

GroupDocs.Parser für .NET ist eine leistungsstarke Bibliothek, mit der Entwickler Daten aus verschiedenen Dokumentformaten wie PDF, Microsoft Word, Excel und PowerPoint extrahieren können. Dieses Tutorial führt Sie durch den Prozess der Verwendung von GroupDocs.Parser, um Dokumentfelder zu durchlaufen und mithilfe von Vorlagen bestimmte Daten zu extrahieren. Am Ende dieses Tutorials können Sie strukturierte Daten effizient aus Dokumenten in Ihren .NET-Anwendungen extrahieren.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass die folgenden Voraussetzungen erfüllt sind:

  • Grundkenntnisse der C#-Programmierung.
  • Visual Studio ist auf Ihrem Computer installiert.
  • GroupDocs.Parser für die .NET-Bibliothek ist in Ihrem Projekt installiert und referenziert.

Namespaces importieren

Fügen Sie zunächst die erforderlichen Namespaces zu Ihrer C#-Datei hinzu:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Lassen Sie uns den Vorgang in Schritt-für-Schritt-Anleitungen aufschlüsseln.

Schritt 1: Vorlagenfelder definieren

Definieren Sie zunächst mit regulären Ausdrücken die Felder, die Sie aus dem Dokument extrahieren möchten.

// Definieren Sie ein "Preis"-Feld
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// Definieren Sie ein "E-Mail"-Feld
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// Erstellen einer Vorlage mit definierten Feldern
Template template = new Template(new TemplateItem[] { priceField, emailField });

In diesem Schritt haben wir zwei Felder definiert: eines zum Extrahieren von Preisen (gekennzeichnet durch das Dollarzeichen und Ziffern) und ein anderes zum Extrahieren von E-Mail-Adressen.

Schritt 2: Analysieren Sie das Dokument

Verwenden Sie als nächstes dieParser Klasse zum Parsen des Dokuments mithilfe der definierten Vorlage.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Analysieren Sie das Dokument anhand der Vorlage
    DocumentData data = parser.ParseByTemplate(template);
    // Durch extrahierte Daten iterieren
    for (int i = 0; i < data.Count; i++)
    {
        // Feldname drucken
        Console.Write(data[i].Name + ": ");
        // Überprüfen Sie, ob der extrahierte Bereich Text ist
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Hier initialisieren wir dieParser mit dem Pfad zu Ihrem Beispieldokument und analysieren das Dokument dann mithilfe der definierten Vorlage. Anschließend durchlaufen wir die extrahierten Daten und drucken die Feldnamen zusammen mit dem extrahierten Text.

Abschluss

In diesem Tutorial haben wir untersucht, wie Sie mit GroupDocs.Parser für .NET bestimmte Daten aus Dokumenten mithilfe von Vorlagen extrahieren können. Durch die Nutzung regulärer Ausdrücke und Vorlagen können Sie strukturierte Informationen effizient aus verschiedenen Dokumentformaten extrahieren. Experimentieren Sie mit verschiedenen Vorlagen und Dokumenttypen, um Ihren spezifischen Extraktionsanforderungen gerecht zu werden.

Häufig gestellte Fragen

Kann GroupDocs.Parser Daten aus gescannten Dokumenten extrahieren?

Ja, GroupDocs.Parser kann Text und Metadaten sowohl aus gescannten als auch aus durchsuchbaren PDF-Dokumenten extrahieren.

Ist GroupDocs.Parser mit .NET Core-Anwendungen kompatibel?

Ja, GroupDocs.Parser unterstützt .NET Core zusammen mit .NET Framework.

Welche Dokumentformate unterstützt GroupDocs.Parser?

GroupDocs.Parser unterstützt eine breite Palette von Formaten, darunter PDF, Microsoft Word, Excel, PowerPoint und mehr.

Wie kann ich mit GroupDocs.Parser große Dokumente verarbeiten?

GroupDocs.Parser bietet Optionen zum Extrahieren von Daten aus bestimmten Seiten oder Abschnitten großer Dokumente und gewährleistet so eine effiziente Verarbeitung.

Kann ich GroupDocs.Parser nur zur Textextraktion verwenden?

Ja, Sie können mit GroupDocs.Parser einfachen Textinhalt aus Dokumenten extrahieren, ohne dass eine komplexe Formatierung erforderlich ist.