Извлечение данных из PDF-форм
Введение
В этом руководстве мы рассмотрим, как использовать GroupDocs.Parser для .NET для извлечения данных из форм PDF. GroupDocs.Parser — мощная библиотека, позволяющая разработчикам эффективно работать с различными форматами документов, включая PDF, DOCX, XLSX и другие. Мы выполним необходимые шаги для извлечения определенных полей из формы PDF и обработки извлеченных данных.
Предварительные условия
Прежде чем мы начнем, убедитесь, что у вас есть следующие предварительные условия:
- Базовые знания программирования на C#.
- Visual Studio установлена в вашей системе.
- Установлена библиотека GroupDocs.Parser для .NET. Вы можете скачать его сздесь.
Импортировать пространства имен
Чтобы начать работу, вам необходимо импортировать необходимые пространства имен в ваш проект C#:
using System;
using System.Linq;
using GroupDocs.Parser.Data;
Шаг 1. Инициализируйте парсер
Сначала создайте экземплярParser
класс, указав путь к образцу PDF-файла:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
//Здесь будет находиться код для извлечения данных
}
Шаг 2. Извлечение данных из PDF-документа
Далее, в рамкахusing
заблокировать, вызватьParseForm
метод извлечения данных из PDF-документа:
DocumentData data = parser.ParseForm();
if (data == null)
{
Console.WriteLine("Form extraction isn't supported.");
return;
}
Шаг 3. Доступ к конкретным данным поля
Теперь определите методGetFieldText
чтобы получить текст из определенного поля в извлеченных данных:
private static string GetFieldText(DocumentData data, string fieldName)
{
FieldData fieldData = data.GetFieldsByName(fieldName).FirstOrDefault();
return fieldData != null && fieldData.PageArea is PageTextArea
? (fieldData.PageArea as PageTextArea).Text
: null;
}
Шаг 4. Создайте объект предварительной записи
После определенияGetFieldText
метод, используйте его для заполненияPreliminaryRecord
объект с извлеченными данными:
PreliminaryRecord rec = new PreliminaryRecord();
rec.Name = GetFieldText(data, "Name");
rec.Model = GetFieldText(data, "Model");
rec.Time = GetFieldText(data, "Time");
rec.Description = GetFieldText(data, "Description");
Шаг 5: Используйте извлеченные данные
Наконец, вы можете использовать извлеченные данные по мере необходимости — сохраняя их в базе данных, отправляя в качестве веб-ответа или отображая их:
Console.WriteLine("Preliminary record");
Console.WriteLine("Name: {0}", rec.Name);
Console.WriteLine("Model: {0}", rec.Model);
Console.WriteLine("Time: {0}", rec.Time);
Console.WriteLine("Description: {0}", rec.Description);
Заключение
В этом руководстве мы рассмотрели основы извлечения данных из форм PDF с помощью GroupDocs.Parser для .NET. Выполнив эти шаги, вы сможете эффективно извлекать конкретную информацию из PDF-документов в своих приложениях C#.
Часто задаваемые вопросы
Совместим ли GroupDocs.Parser с другими форматами документов, кроме PDF?
Да, GroupDocs.Parser поддерживает различные форматы, включая DOCX, XLSX, PPTX и другие.
Могу ли я извлечь изображения и метаданные с помощью GroupDocs.Parser?
Да, GroupDocs.Parser позволяет извлекать изображения, метаданные и текст из документов.
Где я могу найти дополнительную поддержку или документацию для GroupDocs.Parser?
Вы можете посетитьДокументация GroupDocs.Parser для получения подробной информации и примеров.
Доступна ли бесплатная пробная версия GroupDocs.Parser?
Да, вы можете получить доступ кбесплатная пробная версия GroupDocs.Parser изучить его особенности.
Как получить временную лицензию на GroupDocs.Parser?
Вы можете приобрестивременная лицензия для GroupDocs.Parser оценить его возможности в ваших проектах.