Работа с полями в связанных позициях в шаблонах
Введение
GroupDocs.Parser для .NET — это надежная библиотека, предназначенная для облегчения задач анализа документов и извлечения данных. Он поддерживает широкий спектр форматов файлов, включая PDF, DOCX, XLSX и другие. Одной из его ключевых функций является извлечение данных на основе шаблонов, которое позволяет определять поля в документе и извлекать определенные данные на основе этих предопределенных шаблонов.
Предварительные условия
Прежде чем мы начнем, убедитесь, что у вас есть следующее:
- Базовое понимание программирования на C#.
- Visual Studio установлена в вашей системе
- GroupDocs.Parser для библиотеки .NET (скачать с сайтаздесь)
- Примеры файлов документов для работы
Импорт пространств имен
Начните с включения необходимых пространств имен в проект C#:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Шаг 1. Определите поля шаблона
Сначала определите поля шаблона, используя регулярные выражения и связанные позиции:
// Определить поле с помощью регулярного выражения
TemplateField field = new TemplateField(
new TemplateRegexPosition("Tax"),
"Tax");
// Определите связанное поле с определенными настройками позиции
TemplateField linkedField = new TemplateField(
new TemplateLinkedPosition(
"Tax",
new Size(100, 20),
new TemplateLinkedPositionEdges(false, false, true, false)),
"TaxValue");
Шаг 2: Создайте шаблон
Затем создайте шаблон, содержащий определенные поля:
// Создайте шаблон с определенными полями
Template template = new Template(new TemplateItem[] { field, linkedField });
Шаг 3. Анализ документа с помощью шаблона
Теперь инициализируйтеParser
class и проанализируйте документ, используя шаблон:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Разобрать документ по шаблону
DocumentData data = parser.ParseByTemplate(template);
// Перебирать извлеченные данные и распечатывать результаты.
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
Заключение
GroupDocs.Parser для .NET упрощает процесс извлечения структурированных данных из документов с помощью шаблонов. Определив поля и применив шаблоны, вы можете эффективно извлекать соответствующую информацию, повышая автоматизацию и производительность задач обработки документов.
Часто задаваемые вопросы
Может ли GroupDocs.Parser извлекать данные из зашифрованных PDF-файлов?
Да, GroupDocs.Parser поддерживает анализ зашифрованных PDF-файлов, предоставляя пароль во время анализа.
Какие форматы файлов поддерживаются для извлечения на основе шаблонов?
GroupDocs.Parser поддерживает широкий спектр форматов файлов, включая PDF, DOCX, XLSX, PPTX, TXT и другие.
Доступна ли пробная версия для GroupDocs.Parser?
Да, вы можете скачать бесплатную пробную версию с сайтаздесь.
Могу ли я использовать GroupDocs.Parser для пакетной обработки документов?
Да, GroupDocs.Parser позволяет пакетную обработку одновременно анализировать несколько документов.
Где я могу получить техническую поддержку для GroupDocs.Parser?
Вы можете обратиться за технической поддержкой и пообщаться с сообществом по адресуФорум групповых документов.