Extrahujte tabulky z dokumentu

Úvod

Groupdocs.Parser for .NET je komplexní knihovna, která usnadňuje analýzu dokumentů a umožňuje vám z dokumentů extrahovat cenné informace, jako jsou tabulky, text, metadata a další. V tomto tutoriálu se zaměřujeme konkrétně na extrahování tabulek z dokumentů pomocí Groupdocs.Parser API.

Předpoklady

Než začneme, ujistěte se, že máte následující:

Visual Studio nainstalované ve vašem systému.
Nainstalované rozhraní .NET Framework nebo .NET Core.
Základní znalost programování v C#.

Import jmenných prostorů

Nejprve musíte importovat potřebné jmenné prostory pro přístup ke třídám a metodám Groupdocs.Parser.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Krok 1: Vytvořte instanci třídy analyzátoru

Inicializujte novou instanci souboruParser třídy poskytnutím cesty k vašemu ukázkovému dokumentu.

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Váš kód je zde
}

Krok 2: Zkontrolujte podporu extrakce tabulky

Ověřte, zda dokument podporuje extrakci tabulky pomocíFeatures vlastnictvíParser třída.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document doesn't support table extraction.");
    return;
}

Krok 3: Definujte rozložení tabulky

Definujte rozvržení tabulek, které chcete pomocí extrahovatTemplateTableLayout. Určete šířky sloupců a výšky řádků na základě struktury dokumentu.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },
    new double[] { 325, 340, 365, 395 });

Krok 4: Nastavte možnosti extrakce tabulky

VytvořitPageTableAreaOptions s definovaným rozložením, abyste určili, jak mají být tabulky extrahovány.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Krok 5: Extrahujte tabulky

VyužijteGetTables metodaParser třídy extrahovat tabulky z dokumentu na základě zadaných možností.

IEnumerable<PageTableArea> tables = parser.GetTables(options);

Krok 6: Iterace a přístup k datům tabulky

Iterováním extrahovaných tabulek a jejich příslušných řádků a sloupců získáte přístup k datům buněk.

foreach (PageTableArea table in tables)
{
    for (int row = 0; row < table.RowCount; row++)
    {
        for (int column = 0; column < table.ColumnCount; column++)
        {
            PageTableAreaCell cell = table[row, column];
            if (cell != null)
            {
                Console.Write(cell.Text);
                Console.Write(" | ");
            }
        }
        Console.WriteLine();
    }
    Console.WriteLine();
}

Závěr

V tomto tutoriálu jsme probrali, jak používat Groupdocs.Parser pro .NET k efektivnímu extrahování tabulek z dokumentů. Využitím možností této knihovny můžete bez problémů integrovat extrakci tabulek do aplikací .NET.

FAQ

Dokáže Groupdocs.Parser zpracovat různé formáty dokumentů?

Ano, Groupdocs.Parser podporuje širokou škálu formátů dokumentů včetně DOCX, PDF, XLSX a dalších.

Je k dispozici zkušební verze pro Groupdocs.Parser pro .NET?

Ano, můžete si stáhnout bezplatnou zkušební verzi ztady.

Jak mohu získat podporu pro dotazy související s Groupdocs.Parser?

Můžete navštívitFórum Groupdocs.Parser pro pomoc.

Kde si mohu zakoupit licenci pro Groupdocs.Parser?

Licenci si můžete zakoupit odtady.

Jak mohu získat dočasnou licenci pro účely hodnocení?

Můžete získat dočasnou licencitady.

Extrahujte tabulky ze stránky dokumentu