Wyodrębnij dane z formularzy PDF

Wstęp

W tym samouczku omówimy, jak wykorzystać GroupDocs.Parser dla .NET do wyodrębnienia danych z formularzy PDF. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom wydajną pracę z różnymi formatami dokumentów, w tym PDF, DOCX, XLSX i innymi. Przeprowadzimy przez niezbędne kroki, aby wyodrębnić określone pola z formularza PDF i obsłużyć wyodrębnione dane.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz następujące wymagania wstępne:

  • Podstawowa znajomość programowania w języku C#.
  • Program Visual Studio zainstalowany w systemie.
  • Zainstalowana biblioteka GroupDocs.Parser for .NET. Można go pobrać zTutaj.

Importuj przestrzenie nazw

Aby rozpocząć, musisz zaimportować wymagane przestrzenie nazw do swojego projektu C#:

using System;
using System.Linq;
using GroupDocs.Parser.Data;

Krok 1: Zainicjuj parser

Najpierw utwórz instancjęParser class, podając ścieżkę do przykładowego pliku PDF:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //Tutaj będzie umieszczony kod do ekstrakcji danych
}

Krok 2: Wyodrębnij dane z dokumentu PDF

Następnie w ramachusing zablokuj, wywołajParseForm metoda wyodrębnienia danych z dokumentu PDF:

DocumentData data = parser.ParseForm();
if (data == null)
{
    Console.WriteLine("Form extraction isn't supported.");
    return;
}

Krok 3: Uzyskaj dostęp do określonych danych pola

Teraz zdefiniuj metodęGetFieldText aby pobrać tekst z określonego pola w wyodrębnionych danych:

private static string GetFieldText(DocumentData data, string fieldName)
{
    FieldData fieldData = data.GetFieldsByName(fieldName).FirstOrDefault();
    return fieldData != null && fieldData.PageArea is PageTextArea
        ? (fieldData.PageArea as PageTextArea).Text
        : null;
}

Krok 4: Utwórz wstępny obiekt rekordu

Po zdefiniowaniuGetFieldText metodę, użyj jej do wypełnienia aPreliminaryRecord obiekt z wyodrębnionymi danymi:

PreliminaryRecord rec = new PreliminaryRecord();
rec.Name = GetFieldText(data, "Name");
rec.Model = GetFieldText(data, "Model");
rec.Time = GetFieldText(data, "Time");
rec.Description = GetFieldText(data, "Description");

Krok 5: Wykorzystaj wyodrębnione dane

Wreszcie możesz w razie potrzeby wykorzystać wyodrębnione dane — zapisując je w bazie danych, wysyłając jako odpowiedź internetową lub wyświetlając je:

Console.WriteLine("Preliminary record");
Console.WriteLine("Name: {0}", rec.Name);
Console.WriteLine("Model: {0}", rec.Model);
Console.WriteLine("Time: {0}", rec.Time);
Console.WriteLine("Description: {0}", rec.Description);

Wniosek

W tym samouczku omówiliśmy podstawy wyodrębniania danych z formularzy PDF przy użyciu programu GroupDocs.Parser dla platformy .NET. Wykonując te kroki, możesz efektywnie pobierać określone informacje z dokumentów PDF w aplikacjach C#.

Często zadawane pytania

Czy GroupDocs.Parser jest kompatybilny z innymi formatami dokumentów oprócz PDF?

Tak, GroupDocs.Parser obsługuje różne formaty, w tym DOCX, XLSX, PPTX i inne.

Czy mogę wyodrębnić obrazy i metadane za pomocą GroupDocs.Parser?

Tak, GroupDocs.Parser umożliwia wyodrębnianie obrazów, metadanych i tekstu z dokumentów.

Gdzie mogę znaleźć dodatkową pomoc lub dokumentację dotyczącą GroupDocs.Parser?

Możesz odwiedzićDokumentacja GroupDocs.Parser szczegółowe informacje i przykłady.

Czy dostępna jest bezpłatna wersja próbna programu GroupDocs.Parser?

Tak, możesz uzyskać dostęp dobezpłatna wersja próbna GroupDocs.Parser aby poznać jego funkcje.

Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?

Możesz nabyć Atymczasowa licencja na GroupDocs.Parser aby ocenić jego możliwości w Twoich projektach.