Wyodrębnij tabele z dokumentu
Wstęp
Groupdocs.Parser dla .NET to obszerna biblioteka ułatwiająca analizowanie dokumentów, umożliwiająca wyodrębnianie z dokumentów cennych informacji, takich jak tabele, tekst, metadane i inne. W tym samouczku skupimy się szczególnie na wyodrębnianiu tabel z dokumentów przy użyciu interfejsu API Groupdocs.Parser.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następujące elementy:
- Program Visual Studio zainstalowany w systemie.
- Zainstalowany .NET Framework lub .NET Core.
- Podstawowa znajomość programowania w języku C#.
Importuj przestrzenie nazw
Najpierw musisz zaimportować niezbędne przestrzenie nazw, aby uzyskać dostęp do klas i metod Groupdocs.Parser.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;
Krok 1: Utwórz instancję klasy analizatora składni
Zainicjuj nową instancjęParser
class, podając ścieżkę do przykładowego dokumentu.
using (Parser parser = new Parser("YourSampleFile.docx"))
{
// Twój kod trafia tutaj
}
Krok 2: Sprawdź obsługę wyodrębniania tabeli
Sprawdź, czy dokument obsługuje wyodrębnianie tabeli za pomocą metodyFeatures
własnośćParser
klasa.
if (!parser.Features.Tables)
{
Console.WriteLine("Document doesn't support table extraction.");
return;
}
Krok 3: Zdefiniuj układ tabeli
Zdefiniuj układ tabel, za pomocą których chcesz wyodrębnićTemplateTableLayout
. Określ szerokość kolumn i wysokość wierszy w oparciu o strukturę dokumentu.
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
Krok 4: Ustaw opcje wyodrębniania tabeli
TworzyćPageTableAreaOptions
ze zdefiniowanym układem, aby określić sposób wyodrębniania tabel.
PageTableAreaOptions options = new PageTableAreaOptions(layout);
Krok 5: Wyodrębnij tabele
Skorzystaj zGetTables
metodaParser
class, aby wyodrębnić tabele z dokumentu na podstawie określonych opcji.
IEnumerable<PageTableArea> tables = parser.GetTables(options);
Krok 6: Iteruj i uzyskaj dostęp do danych tabeli
Wykonaj iterację po wyodrębnionych tabelach oraz odpowiadających im wierszach i kolumnach, aby uzyskać dostęp do danych komórek.
foreach (PageTableArea table in tables)
{
for (int row = 0; row < table.RowCount; row++)
{
for (int column = 0; column < table.ColumnCount; column++)
{
PageTableAreaCell cell = table[row, column];
if (cell != null)
{
Console.Write(cell.Text);
Console.Write(" | ");
}
}
Console.WriteLine();
}
Console.WriteLine();
}
Wniosek
W tym samouczku omówiliśmy, jak używać Groupdocs.Parser dla platformy .NET do wydajnego wyodrębniania tabel z dokumentów. Wykorzystując możliwości tej biblioteki, możesz bezproblemowo zintegrować wyodrębnianie tabel z aplikacjami .NET.
Często zadawane pytania
Czy Groupdocs.Parser może obsługiwać różne formaty dokumentów?
Tak, Groupdocs.Parser obsługuje szeroką gamę formatów dokumentów, w tym DOCX, PDF, XLSX i inne.
Czy dostępna jest wersja próbna programu Groupdocs.Parser dla platformy .NET?
Tak, możesz pobrać bezpłatną wersję próbną ze stronyTutaj.
Jak mogę uzyskać pomoc dotyczącą zapytań związanych z Groupdocs.Parser?
Możesz odwiedzićForum Groupdocs.Parser do pomocy.
Gdzie mogę kupić licencję na Groupdocs.Parser?
Możesz kupić licencję odTutaj.
Jak mogę uzyskać tymczasową licencję do celów ewaluacyjnych?
Możesz uzyskać licencję tymczasowąTutaj.