Wyodrębnij dane z formularzy PDF
Wstęp
W tym samouczku omówimy, jak wykorzystać GroupDocs.Parser dla .NET do wyodrębnienia danych z formularzy PDF. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom wydajną pracę z różnymi formatami dokumentów, w tym PDF, DOCX, XLSX i innymi. Przeprowadzimy przez niezbędne kroki, aby wyodrębnić określone pola z formularza PDF i obsłużyć wyodrębnione dane.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następujące wymagania wstępne:
- Podstawowa znajomość programowania w języku C#.
- Program Visual Studio zainstalowany w systemie.
- Zainstalowana biblioteka GroupDocs.Parser for .NET. Można go pobrać zTutaj.
Importuj przestrzenie nazw
Aby rozpocząć, musisz zaimportować wymagane przestrzenie nazw do swojego projektu C#:
using System;
using System.Linq;
using GroupDocs.Parser.Data;
Krok 1: Zainicjuj parser
Najpierw utwórz instancjęParser
class, podając ścieżkę do przykładowego pliku PDF:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
//Tutaj będzie umieszczony kod do ekstrakcji danych
}
Krok 2: Wyodrębnij dane z dokumentu PDF
Następnie w ramachusing
zablokuj, wywołajParseForm
metoda wyodrębnienia danych z dokumentu PDF:
DocumentData data = parser.ParseForm();
if (data == null)
{
Console.WriteLine("Form extraction isn't supported.");
return;
}
Krok 3: Uzyskaj dostęp do określonych danych pola
Teraz zdefiniuj metodęGetFieldText
aby pobrać tekst z określonego pola w wyodrębnionych danych:
private static string GetFieldText(DocumentData data, string fieldName)
{
FieldData fieldData = data.GetFieldsByName(fieldName).FirstOrDefault();
return fieldData != null && fieldData.PageArea is PageTextArea
? (fieldData.PageArea as PageTextArea).Text
: null;
}
Krok 4: Utwórz wstępny obiekt rekordu
Po zdefiniowaniuGetFieldText
metodę, użyj jej do wypełnienia aPreliminaryRecord
obiekt z wyodrębnionymi danymi:
PreliminaryRecord rec = new PreliminaryRecord();
rec.Name = GetFieldText(data, "Name");
rec.Model = GetFieldText(data, "Model");
rec.Time = GetFieldText(data, "Time");
rec.Description = GetFieldText(data, "Description");
Krok 5: Wykorzystaj wyodrębnione dane
Wreszcie możesz w razie potrzeby wykorzystać wyodrębnione dane — zapisując je w bazie danych, wysyłając jako odpowiedź internetową lub wyświetlając je:
Console.WriteLine("Preliminary record");
Console.WriteLine("Name: {0}", rec.Name);
Console.WriteLine("Model: {0}", rec.Model);
Console.WriteLine("Time: {0}", rec.Time);
Console.WriteLine("Description: {0}", rec.Description);
Wniosek
W tym samouczku omówiliśmy podstawy wyodrębniania danych z formularzy PDF przy użyciu programu GroupDocs.Parser dla platformy .NET. Wykonując te kroki, możesz efektywnie pobierać określone informacje z dokumentów PDF w aplikacjach C#.
Często zadawane pytania
Czy GroupDocs.Parser jest kompatybilny z innymi formatami dokumentów oprócz PDF?
Tak, GroupDocs.Parser obsługuje różne formaty, w tym DOCX, XLSX, PPTX i inne.
Czy mogę wyodrębnić obrazy i metadane za pomocą GroupDocs.Parser?
Tak, GroupDocs.Parser umożliwia wyodrębnianie obrazów, metadanych i tekstu z dokumentów.
Gdzie mogę znaleźć dodatkową pomoc lub dokumentację dotyczącą GroupDocs.Parser?
Możesz odwiedzićDokumentacja GroupDocs.Parser szczegółowe informacje i przykłady.
Czy dostępna jest bezpłatna wersja próbna programu GroupDocs.Parser?
Tak, możesz uzyskać dostęp dobezpłatna wersja próbna GroupDocs.Parser aby poznać jego funkcje.
Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?
Możesz nabyć Atymczasowa licencja na GroupDocs.Parser aby ocenić jego możliwości w Twoich projektach.