Iteruj po polach

Wstęp

GroupDocs.Parser dla .NET to potężna biblioteka, która umożliwia programistom wyodrębnianie danych z różnych formatów dokumentów, takich jak PDF, Microsoft Word, Excel i PowerPoint. Ten samouczek poprowadzi Cię przez proces używania GroupDocs.Parser do iteracji po polach dokumentu i wyodrębniania określonych danych przy użyciu szablonów. Pod koniec tego samouczka będziesz w stanie efektywnie wyodrębniać uporządkowane dane z dokumentów w aplikacjach .NET.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz skonfigurowane następujące wymagania wstępne:

  • Podstawowa znajomość programowania w języku C#.
  • Program Visual Studio zainstalowany na Twoim komputerze.
  • Zainstalowana biblioteka GroupDocs.Parser for .NET, do której odwołuje się Twój projekt.

Importuj przestrzenie nazw

Aby rozpocząć, dodaj niezbędne przestrzenie nazw do pliku C#:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Podzielmy proces na instrukcje krok po kroku.

Krok 1: Zdefiniuj pola szablonu

Najpierw zdefiniuj pola, które chcesz wyodrębnić z dokumentu, używając wyrażeń regularnych.

// Zdefiniuj pole „cena”.
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// Zdefiniuj pole „e-mail”.
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// Utwórz szablon ze zdefiniowanymi polami
Template template = new Template(new TemplateItem[] { priceField, emailField });

tym kroku zdefiniowaliśmy dwa pola: jedno do wyodrębniania cen (oznaczonych znakiem dolara i cyframi), a drugie do wyodrębniania adresów e-mail.

Krok 2: Przeanalizuj dokument

Następnie użyjParser class do analizowania dokumentu przy użyciu zdefiniowanego szablonu.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Przeanalizuj dokument według szablonu
    DocumentData data = parser.ParseByTemplate(template);
    // Iteruj po wyodrębnionych danych
    for (int i = 0; i < data.Count; i++)
    {
        // Wydrukuj nazwę pola
        Console.Write(data[i].Name + ": ");
        // Sprawdź, czy wyodrębniony obszar jest tekstem
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Tutaj inicjujemyParser ze ścieżką do przykładowego dokumentu, a następnie przeanalizuj dokument przy użyciu zdefiniowanego szablonu. Następnie iterujemy po wyodrębnionych danych i drukujemy nazwy pól wraz z wyodrębnionym tekstem.

Wniosek

W tym samouczku omówiliśmy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania określonych danych z dokumentów przy użyciu szablonów. Wykorzystując wyrażenia regularne i szablony, możesz efektywnie wyodrębniać uporządkowane informacje z różnych formatów dokumentów. Eksperymentuj z różnymi szablonami i typami dokumentów, aby dopasować je do swoich konkretnych potrzeb w zakresie ekstrakcji.

Często zadawane pytania

Czy GroupDocs.Parser może wyodrębnić dane ze zeskanowanych dokumentów?

Tak, GroupDocs.Parser może wyodrębniać tekst i metadane zarówno z zeskanowanych, jak i przeszukiwalnych dokumentów PDF.

Czy GroupDocs.Parser jest zgodny z aplikacjami .NET Core?

Tak, GroupDocs.Parser obsługuje .NET Core wraz z .NET Framework.

Jakie formaty dokumentów obsługuje GroupDocs.Parser?

GroupDocs.Parser obsługuje szeroką gamę formatów, w tym PDF, Microsoft Word, Excel, PowerPoint i inne.

Jak mogę obsługiwać duże dokumenty za pomocą GroupDocs.Parser?

GroupDocs.Parser udostępnia opcje wyodrębniania danych z określonych stron lub sekcji dużych dokumentów, zapewniając wydajne przetwarzanie.

Czy mogę używać GroupDocs.Parser tylko do wyodrębniania tekstu?

Tak, możesz wyodrębnić zawartość zwykłego tekstu z dokumentów za pomocą GroupDocs.Parser bez konieczności stosowania skomplikowanego formatowania.