Praca z tabelami w wyodrębnionych danych

Wstęp

tym samouczku omówimy, jak używać GroupDocs.Parser dla .NET do wyodrębniania danych z tabel w dokumentach. GroupDocs.Parser to potężne narzędzie, które umożliwia programistom analizowanie i wyodrębnianie tekstu, metadanych i treści strukturalnych z różnych formatów plików, takich jak PDF, DOCX, XLSX i innych. W szczególności skupimy się na wydajnym wyodrębnianiu danych z tabeli przy użyciu predefiniowanych szablonów.

Warunki wstępne

Zanim zaczniesz, upewnij się, że masz przygotowane następujące elementy:

  • Program Visual Studio zainstalowany na Twoim komputerze.
  • Podstawowa znajomość C# i frameworku .NET.
  • Biblioteka GroupDocs.Parser zainstalowana za pośrednictwem menedżera pakietów NuGet.

Importuj przestrzenie nazw

Zacznij od zaimportowania przestrzeni nazw niezbędnych do pracy z GroupDocs.Parser i powiązanymi funkcjami.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Krok 1: Utwórz szablon tabeli

Aby wyodrębnić dane z tabel, najpierw zdefiniuj szablon reprezentujący strukturę tabeli, którą chcesz wyodrębnić. Określ lokalizację i wymiary tabeli w dokumencie.

// Zdefiniuj parametry tabeli (lokalizacja i rozmiar)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
// Utwórz szablon tabeli z parametrami
TemplateTable table = new TemplateTable(parameters, "Details", null);

Krok 2: Zdefiniuj szablon

Utwórz szablon zawierający zdefiniowany szablon tabeli. Ten szablon wskaże parserowi, na co zwrócić uwagę podczas wyodrębniania danych z tabeli.

// Utwórz szablon z tabelą
Template template = new Template(new TemplateItem[] { table });

Krok 3: Przeanalizuj dokument i wyodrębnij dane z tabeli

Użyj klasy Parser z GroupDocs.Parser, aby przeanalizować konkretny dokument przy użyciu zdefiniowanego szablonu.

// Określ ścieżkę do przykładowego pliku
string filePath = "YourSampleFile.pdf";
// Utwórz instancję klasy Parser
using (Parser parser = new Parser(filePath))
{
    // Przeanalizuj dokument według szablonu
    DocumentData data = parser.ParseByTemplate(template);
    // Iteruj po wszystkich wyodrębnionych danych
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        // Sprawdź, czy wyodrębnione pole jest tabelą
        PageTableArea area = data[i].PageArea as PageTableArea;
        if (area == null)
        {
            continue;
        }
        // Iteruj po wierszach tabeli
        for (int row = 0; row < area.RowCount; row++)
        {
            // Iteruj po kolumnach tabeli
            for (int column = 0; column < area.ColumnCount; column++)
            {
                // Uzyskaj wartość komórki
                PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
                // Wydrukuj wartość komórki (lub pusty ciąg, jeśli jest pusty)
                Console.Write(cellValue == null ? "" : cellValue.Text);
                // Wydrukuj odstęp tabulacji między kolumnami
                if (column > 0)
                {
                    Console.Write("\t");
                }
            }
            // Przejdź do następnej linii po wydrukowaniu każdego wiersza
            Console.WriteLine();
        }
    }
}

Wniosek

tym samouczku omówiliśmy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania danych tabeli z dokumentów. Definiując szablony i wykorzystując metody analizy, programiści mogą skutecznie wyodrębniać ustrukturyzowane dane, takie jak tabele, z różnych formatów plików.

Często zadawane pytania

Czy GroupDocs.Parser jest kompatybilny ze wszystkimi formatami dokumentów?

Tak, GroupDocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, DOCX, XLSX, PPTX i inne.

Czy mogę wyodrębnić dane z określonych regionów w dokumencie?

Oczywiście możesz zdefiniować szablony ukierunkowane na określone obszary (takie jak tabele) w dokumencie w celu wyodrębnienia.

Czy GroupDocs.Parser nadaje się do dużych dokumentów?

Tak, GroupDocs.Parser jest zoptymalizowany pod kątem wydajnej obsługi dużych dokumentów, umożliwiając programistom bezproblemowe wyodrębnianie danych.

Czy GroupDocs.Parser obsługuje wyodrębnianie tekstu wraz z danymi strukturalnymi?

Tak, oprócz strukturalnego wyodrębniania danych (takich jak tabele), GroupDocs.Parser może wyodrębniać zwykły tekst i metadane z dokumentów.

Jak mogę uzyskać wsparcie lub pomoc dotyczącą integracji GroupDocs.Parser?

Aby uzyskać wsparcie i dyskusje, odwiedź forum społeczności GroupDocsTutaj.