Arbeiten mit Tabellen in extrahierten Daten

Einführung

In diesem Tutorial erfahren Sie, wie Sie mit GroupDocs.Parser für .NET Daten aus Tabellen in Dokumenten extrahieren. GroupDocs.Parser ist ein leistungsstarkes Tool, mit dem Entwickler Text, Metadaten und strukturierte Inhalte aus verschiedenen Dateiformaten wie PDF, DOCX, XLSX und mehr analysieren und extrahieren können. Insbesondere konzentrieren wir uns auf das effiziente Extrahieren von Tabellendaten mithilfe vordefinierter Vorlagen.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Folgendes vorhanden ist:

  • Visual Studio ist auf Ihrem Computer installiert.
  • Grundlegende Kenntnisse von C# und .NET Framework.
  • GroupDocs.Parser-Bibliothek über den NuGet-Paketmanager installiert.

Namespaces importieren

Beginnen Sie mit dem Importieren der erforderlichen Namespaces für die Arbeit mit GroupDocs.Parser und verwandten Funktionen.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Schritt 1: Erstellen einer Tabellenvorlage

Um Daten aus Tabellen zu extrahieren, definieren Sie zunächst eine Vorlage, die die Struktur der Tabelle darstellt, die Sie extrahieren möchten. Geben Sie den Speicherort und die Abmessungen der Tabelle im Dokument an.

// Tabellenparameter definieren (Lage und Größe)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
// Erstellen einer Tabellenvorlage mit Parametern
TemplateTable table = new TemplateTable(parameters, "Details", null);

Schritt 2: Definieren Sie eine Vorlage

Erstellen Sie eine Vorlage, die die von Ihnen definierte Tabellenvorlage enthält. Diese Vorlage gibt dem Parser Hinweise, wonach er beim Extrahieren von Tabellendaten suchen muss.

// Erstellen Sie eine Vorlage mit der Tabelle
Template template = new Template(new TemplateItem[] { table });

Schritt 3: Dokument analysieren und Tabellendaten extrahieren

Nutzen Sie die Parser-Klasse von GroupDocs.Parser, um ein bestimmtes Dokument mithilfe der von Ihnen definierten Vorlage zu analysieren.

// Geben Sie den Pfad zu Ihrer Beispieldatei an
string filePath = "YourSampleFile.pdf";
// Erstellen Sie eine Instanz der Parser-Klasse
using (Parser parser = new Parser(filePath))
{
    // Analysieren Sie das Dokument anhand der Vorlage
    DocumentData data = parser.ParseByTemplate(template);
    // Iterieren Sie über alle extrahierten Daten
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        // Überprüfen Sie, ob das extrahierte Feld eine Tabelle ist
        PageTableArea area = data[i].PageArea as PageTableArea;
        if (area == null)
        {
            continue;
        }
        // Über Tabellenzeilen iterieren
        for (int row = 0; row < area.RowCount; row++)
        {
            // Über Tabellenspalten iterieren
            for (int column = 0; column < area.ColumnCount; column++)
            {
                // Holen Sie sich den Zellenwert
                PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
                // Drucken Sie den Zellenwert (oder eine leere Zeichenfolge, wenn dieser null ist).
                Console.Write(cellValue == null ? "" : cellValue.Text);
                // Drucken eines Tabulatorabstands zwischen Spalten
                if (column > 0)
                {
                    Console.Write("\t");
                }
            }
            // Wechseln Sie nach dem Drucken jeder Zeile zur nächsten Zeile
            Console.WriteLine();
        }
    }
}

Abschluss

In diesem Tutorial haben wir untersucht, wie man mit GroupDocs.Parser für .NET Tabellendaten aus Dokumenten extrahiert. Durch das Definieren von Vorlagen und die Verwendung von Analysemethoden können Entwickler strukturierte Daten wie Tabellen effizient aus verschiedenen Dateiformaten extrahieren.

Häufig gestellte Fragen

Ist GroupDocs.Parser mit allen Dokumentformaten kompatibel?

Ja, GroupDocs.Parser unterstützt eine Vielzahl von Dateiformaten, darunter PDF, DOCX, XLSX, PPTX und mehr.

Kann ich Daten aus bestimmten Bereichen eines Dokuments extrahieren?

Natürlich können Sie Vorlagen definieren, die auf die Extraktion bestimmter Bereiche (z. B. Tabellen) innerhalb eines Dokuments abzielen.

Ist GroupDocs.Parser für große Dokumente geeignet?

Ja, GroupDocs.Parser ist für die effiziente Verarbeitung großer Dokumente optimiert, sodass Entwickler Daten nahtlos extrahieren können.

Unterstützt GroupDocs.Parser die Textextraktion neben strukturierten Daten?

Ja, zusätzlich zur strukturierten Datenextraktion (wie Tabellen) kann GroupDocs.Parser Klartext und Metadaten aus Dokumenten extrahieren.

Wie kann ich Unterstützung oder Hilfe bei der GroupDocs.Parser-Integration erhalten?

Für Support und Diskussionen besuchen Sie das GroupDocs-Community-ForumHier.