Tabellen aus Dokument extrahieren

Einführung

Groupdocs.Parser für .NET ist eine umfassende Bibliothek, die das Parsen von Dokumenten erleichtert und es Ihnen ermöglicht, wertvolle Informationen wie Tabellen, Text, Metadaten und mehr aus Dokumenten zu extrahieren. In diesem Tutorial konzentrieren wir uns speziell auf das Extrahieren von Tabellen aus Dokumenten mithilfe der Groupdocs.Parser-API.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:

Visual Studio ist auf Ihrem System installiert.
.NET Framework oder .NET Core installiert.
Grundkenntnisse der C#-Programmierung.

Namespaces importieren

Zuerst müssen Sie die erforderlichen Namespaces importieren, um auf die Klassen und Methoden von Groupdocs.Parser zuzugreifen.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Schritt 1: Erstellen Sie eine Instanz der Parser-Klasse

Initialisieren Sie eine neue Instanz desParser Klasse, indem Sie den Pfad zu Ihrem Beispieldokument angeben.

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Ihr Code kommt hier rein
}

Schritt 2: Überprüfen Sie die Unterstützung für die Tabellenextraktion

Überprüfen Sie, ob das Dokument die Tabellenextraktion unterstützt. Verwenden Sie dazuFeatures Eigentum derParser Klasse.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document doesn't support table extraction.");
    return;
}

Schritt 3: Tabellenlayout definieren

Definieren Sie das Layout der Tabellen, die Sie extrahieren möchten, mitTemplateTableLayout. Geben Sie Spaltenbreiten und Zeilenhöhen basierend auf der Struktur Ihres Dokuments an.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },
    new double[] { 325, 340, 365, 395 });

Schritt 4: Optionen zur Tabellenextraktion festlegen

ErstellenPageTableAreaOptions mit dem definierten Layout, um anzugeben, wie Tabellen extrahiert werden sollen.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Schritt 5: Tabellen extrahieren

Nutzen Sie dieGetTables Methode derParser Klasse zum Extrahieren von Tabellen aus dem Dokument basierend auf den angegebenen Optionen.

IEnumerable<PageTableArea> tables = parser.GetTables(options);

Schritt 6: Tabellendaten iterieren und darauf zugreifen

Iterieren Sie durch die extrahierten Tabellen und ihre jeweiligen Zeilen und Spalten, um auf die Zellendaten zuzugreifen.

foreach (PageTableArea table in tables)
{
    for (int row = 0; row < table.RowCount; row++)
    {
        for (int column = 0; column < table.ColumnCount; column++)
        {
            PageTableAreaCell cell = table[row, column];
            if (cell != null)
            {
                Console.Write(cell.Text);
                Console.Write(" | ");
            }
        }
        Console.WriteLine();
    }
    Console.WriteLine();
}

Abschluss

In diesem Tutorial haben wir erläutert, wie Sie mit Groupdocs.Parser für .NET Tabellen effizient aus Dokumenten extrahieren können. Mithilfe der Funktionen dieser Bibliothek können Sie die Tabellenextraktion nahtlos in Ihre .NET-Anwendungen integrieren.

Häufig gestellte Fragen

Kann Groupdocs.Parser verschiedene Dokumentformate verarbeiten?

Ja, Groupdocs.Parser unterstützt eine breite Palette von Dokumentformaten, darunter DOCX, PDF, XLSX und mehr.

Gibt es eine Testversion für Groupdocs.Parser für .NET?

Ja, Sie können eine kostenlose Testversion herunterladen vonHier.

Wie kann ich Unterstützung für Groupdocs.Parser-bezogene Abfragen erhalten?

Besuchen Sie dieGroupdocs.Parser-Forum zur Hilfe.

Wo kann ich eine Lizenz für Groupdocs.Parser erwerben?

Sie können eine Lizenz erwerben beiHier.

Wie kann ich eine temporäre Lizenz zu Evaluierungszwecken erhalten?

Sie können eine temporäre Lizenz erhaltenHier.

Tabellen aus der Dokumentseite extrahieren