Pobierz pole według nazwy

Wstęp

W tym samouczku pokażemy, jak wykorzystać GroupDocs.Parser dla .NET do wyodrębnienia z dokumentów określonych pól danych, takich jak ceny i adresy e-mail. Ta potężna biblioteka upraszcza zadania analizowania dokumentów, dzięki czemu idealnie nadaje się do różnych potrzeb związanych z ekstrakcją danych.

Warunki wstępne

Przed przystąpieniem do samouczka upewnij się, że spełniasz następujące wymagania wstępne:

  • Program Visual Studio zainstalowany w systemie.
  • Podstawowa znajomość programowania w języku C#.
  • Pobierz i zainstaluj GroupDocs.Parser dla .NET zten link.

Importuj przestrzenie nazw

Rozpocznij od zaimportowania niezbędnych przestrzeni nazw do projektu C#:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Krok 1: Zdefiniuj pola szablonu

Najpierw zdefiniujemy pola szablonu do wyodrębniania danych. W tym przykładzie utworzymy pola do przechwytywania cen i wiadomości e-mail.

// Zdefiniuj pole „cena”.
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// Zdefiniuj pole „e-mail”.
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// Utwórz szablon
Template template = new Template(new TemplateItem[] { priceField, emailField });

Krok 2: Przeanalizuj dokument przy użyciu szablonu

Następnie przeanalizujemy dokument przy użyciu zdefiniowanego szablonu.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Przeanalizuj dokument według szablonu
    DocumentData data = parser.ParseByTemplate(template);
    // Ceny druku
    Console.WriteLine("Prices:");
    foreach (FieldData field in data.GetFieldsByName("Price"))
    {
        PageTextArea area = field.PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
    // Drukuj e-maile
    Console.WriteLine("Emails:");
    foreach (FieldData field in data.GetFieldsByName("Email"))
    {
        PageTextArea area = field.PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Wniosek

W tym samouczku nauczyliśmy się, jak używać GroupDocs.Parser dla .NET do wyodrębniania określonych pól danych z dokumentów. Definiując szablony i wykorzystując możliwości analizowania biblioteki, programiści mogą skutecznie pobierać ustrukturyzowane dane, takie jak ceny i wiadomości e-mail, z różnych formatów dokumentów.

Często zadawane pytania

Czy mogę analizować różne typy dokumentów za pomocą GroupDocs.Parser dla .NET?

Tak, GroupDocs.Parser obsługuje analizowanie różnych formatów dokumentów, takich jak PDF, DOCX, PPTX i inne.

Czy GroupDocs.Parser nadaje się do przetwarzania dokumentów na dużą skalę?

Oczywiście GroupDocs.Parser jest zoptymalizowany pod kątem wydajności i może efektywnie obsługiwać duże ilości dokumentów.

Jak mogę zintegrować GroupDocs.Parser z moją aplikacją .NET?

Możesz łatwo zintegrować GroupDocs.Parser, odwołując się do biblioteki w projekcie Visual Studio i importując wymagane przestrzenie nazw.

Czy GroupDocs.Parser zapewnia obsługę wyodrębniania obrazów lub metadanych?

Tak, GroupDocs.Parser oferuje interfejsy API umożliwiające wyodrębnianie obrazów, tekstu i metadanych z dokumentów.

Czy istnieje forum społeczności dla użytkowników GroupDocs.Parser?

Tak, możesz szukać pomocy i kontaktować się z innymi użytkownikami na forum GroupDocs.ParserTutaj.