Tabellen uit document extraheren
Invoering
Groupdocs.Parser voor .NET is een uitgebreide bibliotheek die het parseren van documenten vergemakkelijkt, waardoor u waardevolle informatie zoals tabellen, tekst, metagegevens en meer uit documenten kunt extraheren. In deze zelfstudie richten we ons specifiek op het extraheren van tabellen uit documenten met behulp van de Groupdocs.Parser API.
Vereisten
Voordat we beginnen, zorg ervoor dat u over het volgende beschikt:
- Visual Studio is op uw systeem geïnstalleerd.
- .NET Framework of .NET Core geïnstalleerd.
- Basiskennis van programmeren in C#.
Naamruimten importeren
Eerst moet u de benodigde naamruimten importeren om toegang te krijgen tot de Groupdocs.Parser-klassen en -methoden.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;
Stap 1: Maak een exemplaar van de parserklasse
Initialiseer een nieuw exemplaar van hetParser
klasse door het pad naar uw voorbeelddocument op te geven.
using (Parser parser = new Parser("YourSampleFile.docx"))
{
// Je code komt hier
}
Stap 2: Controleer de ondersteuning voor tabelextractie
Controleer of het document tabelextractie ondersteunt met behulp van deFeatures
eigendom van deParser
klas.
if (!parser.Features.Tables)
{
Console.WriteLine("Document doesn't support table extraction.");
return;
}
Stap 3: Definieer de tabelindeling
Definieer de lay-out van de tabellen die u wilt extraherenTemplateTableLayout
. Geef kolombreedtes en rijhoogtes op op basis van de structuur van uw document.
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
Stap 4: Stel opties voor tabelextractie in
CreërenPageTableAreaOptions
met de gedefinieerde lay-out om te specificeren hoe tabellen moeten worden geëxtraheerd.
PageTableAreaOptions options = new PageTableAreaOptions(layout);
Stap 5: Tabellen extraheren
Maak gebruik van deGetTables
werkwijze van deParser
class om tabellen uit het document te extraheren op basis van de opgegeven opties.
IEnumerable<PageTableArea> tables = parser.GetTables(options);
Stap 6: Tabelgegevens herhalen en openen
Blader door de geëxtraheerde tabellen en hun respectievelijke rijen en kolommen om toegang te krijgen tot celgegevens.
foreach (PageTableArea table in tables)
{
for (int row = 0; row < table.RowCount; row++)
{
for (int column = 0; column < table.ColumnCount; column++)
{
PageTableAreaCell cell = table[row, column];
if (cell != null)
{
Console.Write(cell.Text);
Console.Write(" | ");
}
}
Console.WriteLine();
}
Console.WriteLine();
}
Conclusie
In deze zelfstudie hebben we besproken hoe u Groupdocs.Parser voor .NET kunt gebruiken om tabellen efficiënt uit documenten te extraheren. Door gebruik te maken van de mogelijkheden van deze bibliotheek kunt u tabelextractie naadloos integreren in uw .NET-toepassingen.
Veelgestelde vragen
Kan Groupdocs.Parser verschillende documentformaten verwerken?
Ja, Groupdocs.Parser ondersteunt een breed scala aan documentformaten, waaronder DOCX, PDF, XLSX en meer.
Is er een proefversie beschikbaar voor Groupdocs.Parser voor .NET?
Ja, u kunt een gratis proefversie downloaden vanhier.
Hoe kan ik ondersteuning krijgen voor Groupdocs.Parser-gerelateerde vragen?
U kunt een bezoek brengen aan deGroupdocs.Parser-forum Voor assistentie.
Waar kan ik een licentie voor Groupdocs.Parser kopen?
U kunt een licentie kopen bijhier.
Hoe kan ik een tijdelijke licentie verkrijgen voor evaluatiedoeleinden?
U kunt een tijdelijke licentie verkrijgenhier.