Tabellen uit document extraheren

Invoering

Groupdocs.Parser voor .NET is een uitgebreide bibliotheek die het parseren van documenten vergemakkelijkt, waardoor u waardevolle informatie zoals tabellen, tekst, metagegevens en meer uit documenten kunt extraheren. In deze zelfstudie richten we ons specifiek op het extraheren van tabellen uit documenten met behulp van de Groupdocs.Parser API.

Vereisten

Voordat we beginnen, zorg ervoor dat u over het volgende beschikt:

  • Visual Studio is op uw systeem geïnstalleerd.
  • .NET Framework of .NET Core geïnstalleerd.
  • Basiskennis van programmeren in C#.

Naamruimten importeren

Eerst moet u de benodigde naamruimten importeren om toegang te krijgen tot de Groupdocs.Parser-klassen en -methoden.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Stap 1: Maak een exemplaar van de parserklasse

Initialiseer een nieuw exemplaar van hetParser klasse door het pad naar uw voorbeelddocument op te geven.

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Je code komt hier
}

Stap 2: Controleer de ondersteuning voor tabelextractie

Controleer of het document tabelextractie ondersteunt met behulp van deFeatures eigendom van deParser klas.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document doesn't support table extraction.");
    return;
}

Stap 3: Definieer de tabelindeling

Definieer de lay-out van de tabellen die u wilt extraherenTemplateTableLayout. Geef kolombreedtes en rijhoogtes op op basis van de structuur van uw document.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },
    new double[] { 325, 340, 365, 395 });

Stap 4: Stel opties voor tabelextractie in

CreërenPageTableAreaOptions met de gedefinieerde lay-out om te specificeren hoe tabellen moeten worden geëxtraheerd.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Stap 5: Tabellen extraheren

Maak gebruik van deGetTables werkwijze van deParser class om tabellen uit het document te extraheren op basis van de opgegeven opties.

IEnumerable<PageTableArea> tables = parser.GetTables(options);

Stap 6: Tabelgegevens herhalen en openen

Blader door de geëxtraheerde tabellen en hun respectievelijke rijen en kolommen om toegang te krijgen tot celgegevens.

foreach (PageTableArea table in tables)
{
    for (int row = 0; row < table.RowCount; row++)
    {
        for (int column = 0; column < table.ColumnCount; column++)
        {
            PageTableAreaCell cell = table[row, column];
            if (cell != null)
            {
                Console.Write(cell.Text);
                Console.Write(" | ");
            }
        }
        Console.WriteLine();
    }
    Console.WriteLine();
}

Conclusie

In deze zelfstudie hebben we besproken hoe u Groupdocs.Parser voor .NET kunt gebruiken om tabellen efficiënt uit documenten te extraheren. Door gebruik te maken van de mogelijkheden van deze bibliotheek kunt u tabelextractie naadloos integreren in uw .NET-toepassingen.

Veelgestelde vragen

Kan Groupdocs.Parser verschillende documentformaten verwerken?

Ja, Groupdocs.Parser ondersteunt een breed scala aan documentformaten, waaronder DOCX, PDF, XLSX en meer.

Is er een proefversie beschikbaar voor Groupdocs.Parser voor .NET?

Ja, u kunt een gratis proefversie downloaden vanhier.

Hoe kan ik ondersteuning krijgen voor Groupdocs.Parser-gerelateerde vragen?

U kunt een bezoek brengen aan deGroupdocs.Parser-forum Voor assistentie.

Waar kan ik een licentie voor Groupdocs.Parser kopen?

U kunt een licentie kopen bijhier.

Hoe kan ik een tijdelijke licentie verkrijgen voor evaluatiedoeleinden?

U kunt een tijdelijke licentie verkrijgenhier.