Lavorare con i campi nelle posizioni collegate nei modelli
introduzione
GroupDocs.Parser per .NET è una solida libreria progettata per facilitare le attività di analisi dei documenti e di estrazione dei dati. Supporta un’ampia gamma di formati di file, inclusi PDF, DOCX, XLSX e altri. Una delle sue caratteristiche principali è l’estrazione dei dati basata su modelli, che consente di definire campi all’interno di un documento ed estrarre dati specifici in base a questi modelli predefiniti.
Prerequisiti
Prima di iniziare, assicurati di avere quanto segue:
- Conoscenza di base della programmazione C#
- Visual Studio installato nel sistema
- GroupDocs.Parser per la libreria .NET (scarica daQui)
- File di documenti di esempio con cui lavorare
Importazione di spazi dei nomi
Inizia includendo gli spazi dei nomi necessari nel tuo progetto C#:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Passaggio 1: definire i campi del modello
Innanzitutto, definisci i campi del modello utilizzando espressioni regolari e posizioni collegate:
// Definire un campo con un'espressione regolare
TemplateField field = new TemplateField(
new TemplateRegexPosition("Tax"),
"Tax");
// Definire un campo collegato con impostazioni di posizione specifiche
TemplateField linkedField = new TemplateField(
new TemplateLinkedPosition(
"Tax",
new Size(100, 20),
new TemplateLinkedPositionEdges(false, false, true, false)),
"TaxValue");
Passaggio 2: crea un modello
Successivamente, crea un modello contenente i campi definiti:
// Crea un modello con i campi definiti
Template template = new Template(new TemplateItem[] { field, linkedField });
Passaggio 3: analizzare il documento con il modello
Ora inizializza il fileParser
class e analizzare il documento utilizzando il modello:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Analizzare il documento in base al modello
DocumentData data = parser.ParseByTemplate(template);
// Scorri i dati estratti e stampa i risultati
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
Conclusione
GroupDocs.Parser per .NET semplifica il processo di estrazione dei dati strutturati dai documenti utilizzando i modelli. Definendo i campi e applicando modelli, puoi estrarre in modo efficiente le informazioni rilevanti, migliorando l’automazione e la produttività nelle attività di elaborazione dei documenti.
Domande frequenti
GroupDocs.Parser può estrarre dati da file PDF crittografati?
Sì, GroupDocs.Parser supporta l’analisi di file PDF crittografati fornendo la password durante l’analisi.
Quali formati di file sono supportati per l’estrazione basata su modelli?
GroupDocs.Parser supporta un’ampia gamma di formati di file tra cui PDF, DOCX, XLSX, PPTX, TXT e altri.
È disponibile una versione di prova per GroupDocs.Parser?
Sì, puoi scaricare una versione di prova gratuita daQui.
Posso utilizzare GroupDocs.Parser per l’elaborazione batch di documenti?
Sì, GroupDocs.Parser consente l’elaborazione batch per analizzare più documenti contemporaneamente.
Dove posso ottenere supporto tecnico per GroupDocs.Parser?
Puoi cercare supporto tecnico e interagire con la community all’indirizzoForum di GroupDocs.