Wyodrębnij tabele z dokumentu

Wstęp

Groupdocs.Parser dla .NET to obszerna biblioteka ułatwiająca analizowanie dokumentów, umożliwiająca wyodrębnianie z dokumentów cennych informacji, takich jak tabele, tekst, metadane i inne. W tym samouczku skupimy się szczególnie na wyodrębnianiu tabel z dokumentów przy użyciu interfejsu API Groupdocs.Parser.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz następujące elementy:

  • Program Visual Studio zainstalowany w systemie.
  • Zainstalowany .NET Framework lub .NET Core.
  • Podstawowa znajomość programowania w języku C#.

Importuj przestrzenie nazw

Najpierw musisz zaimportować niezbędne przestrzenie nazw, aby uzyskać dostęp do klas i metod Groupdocs.Parser.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Krok 1: Utwórz instancję klasy analizatora składni

Zainicjuj nową instancjęParser class, podając ścieżkę do przykładowego dokumentu.

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Twój kod trafia tutaj
}

Krok 2: Sprawdź obsługę wyodrębniania tabeli

Sprawdź, czy dokument obsługuje wyodrębnianie tabeli za pomocą metodyFeatures własnośćParser klasa.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document doesn't support table extraction.");
    return;
}

Krok 3: Zdefiniuj układ tabeli

Zdefiniuj układ tabel, za pomocą których chcesz wyodrębnićTemplateTableLayout. Określ szerokość kolumn i wysokość wierszy w oparciu o strukturę dokumentu.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },
    new double[] { 325, 340, 365, 395 });

Krok 4: Ustaw opcje wyodrębniania tabeli

TworzyćPageTableAreaOptions ze zdefiniowanym układem, aby określić sposób wyodrębniania tabel.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Krok 5: Wyodrębnij tabele

Skorzystaj zGetTables metodaParser class, aby wyodrębnić tabele z dokumentu na podstawie określonych opcji.

IEnumerable<PageTableArea> tables = parser.GetTables(options);

Krok 6: Iteruj i uzyskaj dostęp do danych tabeli

Wykonaj iterację po wyodrębnionych tabelach oraz odpowiadających im wierszach i kolumnach, aby uzyskać dostęp do danych komórek.

foreach (PageTableArea table in tables)
{
    for (int row = 0; row < table.RowCount; row++)
    {
        for (int column = 0; column < table.ColumnCount; column++)
        {
            PageTableAreaCell cell = table[row, column];
            if (cell != null)
            {
                Console.Write(cell.Text);
                Console.Write(" | ");
            }
        }
        Console.WriteLine();
    }
    Console.WriteLine();
}

Wniosek

W tym samouczku omówiliśmy, jak używać Groupdocs.Parser dla platformy .NET do wydajnego wyodrębniania tabel z dokumentów. Wykorzystując możliwości tej biblioteki, możesz bezproblemowo zintegrować wyodrębnianie tabel z aplikacjami .NET.

Często zadawane pytania

Czy Groupdocs.Parser może obsługiwać różne formaty dokumentów?

Tak, Groupdocs.Parser obsługuje szeroką gamę formatów dokumentów, w tym DOCX, PDF, XLSX i inne.

Czy dostępna jest wersja próbna programu Groupdocs.Parser dla platformy .NET?

Tak, możesz pobrać bezpłatną wersję próbną ze stronyTutaj.

Jak mogę uzyskać pomoc dotyczącą zapytań związanych z Groupdocs.Parser?

Możesz odwiedzićForum Groupdocs.Parser do pomocy.

Gdzie mogę kupić licencję na Groupdocs.Parser?

Możesz kupić licencję odTutaj.

Jak mogę uzyskać tymczasową licencję do celów ewaluacyjnych?

Możesz uzyskać licencję tymczasowąTutaj.