Praca z tabelami w wyodrębnionych danych
Wstęp
tym samouczku omówimy, jak używać GroupDocs.Parser dla .NET do wyodrębniania danych z tabel w dokumentach. GroupDocs.Parser to potężne narzędzie, które umożliwia programistom analizowanie i wyodrębnianie tekstu, metadanych i treści strukturalnych z różnych formatów plików, takich jak PDF, DOCX, XLSX i innych. W szczególności skupimy się na wydajnym wyodrębnianiu danych z tabeli przy użyciu predefiniowanych szablonów.
Warunki wstępne
Zanim zaczniesz, upewnij się, że masz przygotowane następujące elementy:
- Program Visual Studio zainstalowany na Twoim komputerze.
- Podstawowa znajomość C# i frameworku .NET.
- Biblioteka GroupDocs.Parser zainstalowana za pośrednictwem menedżera pakietów NuGet.
Importuj przestrzenie nazw
Zacznij od zaimportowania przestrzeni nazw niezbędnych do pracy z GroupDocs.Parser i powiązanymi funkcjami.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Krok 1: Utwórz szablon tabeli
Aby wyodrębnić dane z tabel, najpierw zdefiniuj szablon reprezentujący strukturę tabeli, którą chcesz wyodrębnić. Określ lokalizację i wymiary tabeli w dokumencie.
// Zdefiniuj parametry tabeli (lokalizacja i rozmiar)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
// Utwórz szablon tabeli z parametrami
TemplateTable table = new TemplateTable(parameters, "Details", null);
Krok 2: Zdefiniuj szablon
Utwórz szablon zawierający zdefiniowany szablon tabeli. Ten szablon wskaże parserowi, na co zwrócić uwagę podczas wyodrębniania danych z tabeli.
// Utwórz szablon z tabelą
Template template = new Template(new TemplateItem[] { table });
Krok 3: Przeanalizuj dokument i wyodrębnij dane z tabeli
Użyj klasy Parser z GroupDocs.Parser, aby przeanalizować konkretny dokument przy użyciu zdefiniowanego szablonu.
// Określ ścieżkę do przykładowego pliku
string filePath = "YourSampleFile.pdf";
// Utwórz instancję klasy Parser
using (Parser parser = new Parser(filePath))
{
// Przeanalizuj dokument według szablonu
DocumentData data = parser.ParseByTemplate(template);
// Iteruj po wszystkich wyodrębnionych danych
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
// Sprawdź, czy wyodrębnione pole jest tabelą
PageTableArea area = data[i].PageArea as PageTableArea;
if (area == null)
{
continue;
}
// Iteruj po wierszach tabeli
for (int row = 0; row < area.RowCount; row++)
{
// Iteruj po kolumnach tabeli
for (int column = 0; column < area.ColumnCount; column++)
{
// Uzyskaj wartość komórki
PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
// Wydrukuj wartość komórki (lub pusty ciąg, jeśli jest pusty)
Console.Write(cellValue == null ? "" : cellValue.Text);
// Wydrukuj odstęp tabulacji między kolumnami
if (column > 0)
{
Console.Write("\t");
}
}
// Przejdź do następnej linii po wydrukowaniu każdego wiersza
Console.WriteLine();
}
}
}
Wniosek
tym samouczku omówiliśmy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania danych tabeli z dokumentów. Definiując szablony i wykorzystując metody analizy, programiści mogą skutecznie wyodrębniać ustrukturyzowane dane, takie jak tabele, z różnych formatów plików.
Często zadawane pytania
Czy GroupDocs.Parser jest kompatybilny ze wszystkimi formatami dokumentów?
Tak, GroupDocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, DOCX, XLSX, PPTX i inne.
Czy mogę wyodrębnić dane z określonych regionów w dokumencie?
Oczywiście możesz zdefiniować szablony ukierunkowane na określone obszary (takie jak tabele) w dokumencie w celu wyodrębnienia.
Czy GroupDocs.Parser nadaje się do dużych dokumentów?
Tak, GroupDocs.Parser jest zoptymalizowany pod kątem wydajnej obsługi dużych dokumentów, umożliwiając programistom bezproblemowe wyodrębnianie danych.
Czy GroupDocs.Parser obsługuje wyodrębnianie tekstu wraz z danymi strukturalnymi?
Tak, oprócz strukturalnego wyodrębniania danych (takich jak tabele), GroupDocs.Parser może wyodrębniać zwykły tekst i metadane z dokumentów.
Jak mogę uzyskać wsparcie lub pomoc dotyczącą integracji GroupDocs.Parser?
Aby uzyskać wsparcie i dyskusje, odwiedź forum społeczności GroupDocsTutaj.