Travailler avec des champs à des positions liées dans des modèles

Introduction

GroupDocs.Parser pour .NET est une bibliothèque robuste conçue pour faciliter les tâches d’analyse de documents et d’extraction de données. Il prend en charge un large éventail de formats de fichiers, notamment PDF, DOCX, XLSX, etc. L’une de ses fonctionnalités clés est l’extraction de données basée sur des modèles, qui vous permet de définir des champs dans un document et d’extraire des données spécifiques en fonction de ces modèles prédéfinis.

Conditions préalables

Avant de commencer, assurez-vous d’avoir les éléments suivants :

Compréhension de base de la programmation C#
Visual Studio installé sur votre système
Bibliothèque GroupDocs.Parser pour .NET (téléchargement depuisici)
Exemples de fichiers de documents avec lesquels travailler

Importation d’espaces de noms

Commencez par inclure les espaces de noms nécessaires dans votre projet C# :

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Étape 1 : Définir les champs du modèle

Tout d’abord, définissez les champs du modèle à l’aide d’expressions régulières et de positions liées :

// Définir un champ avec une expression régulière
TemplateField field = new TemplateField(
    new TemplateRegexPosition("Tax"),
    "Tax");
// Définir un champ lié avec des paramètres de position spécifiques
TemplateField linkedField = new TemplateField(
    new TemplateLinkedPosition(
        "Tax",
        new Size(100, 20),
        new TemplateLinkedPositionEdges(false, false, true, false)),
    "TaxValue");

Étape 2 : créer un modèle

Créez ensuite un modèle contenant les champs définis :

// Créer un modèle avec les champs définis
Template template = new Template(new TemplateItem[] { field, linkedField });

Étape 3 : Analyser le document avec le modèle

Maintenant, initialisez leParser classe et analysez le document à l’aide du modèle :

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Analyser le document par le modèle
    DocumentData data = parser.ParseByTemplate(template);
    // Parcourez les données extraites et imprimez les résultats
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Conclusion

GroupDocs.Parser pour .NET simplifie le processus d’extraction de données structurées à partir de documents à l’aide de modèles. En définissant des champs et en appliquant des modèles, vous pouvez extraire efficacement les informations pertinentes, améliorant ainsi l’automatisation et la productivité des tâches de traitement des documents.

FAQ

GroupDocs.Parser peut-il extraire des données de fichiers PDF cryptés ?

Oui, GroupDocs.Parser prend en charge l’analyse des fichiers PDF cryptés en fournissant le mot de passe lors de l’analyse.

Quels formats de fichiers sont pris en charge pour l’extraction basée sur un modèle ?

GroupDocs.Parser prend en charge une large gamme de formats de fichiers, notamment PDF, DOCX, XLSX, PPTX, TXT, etc.

Existe-t-il une version d’essai disponible pour GroupDocs.Parser ?

Oui, vous pouvez télécharger une version d’essai gratuite à partir deici.

Puis-je utiliser GroupDocs.Parser pour le traitement par lots de documents ?

Oui, GroupDocs.Parser permet le traitement par lots pour analyser plusieurs documents simultanément.

Où puis-je obtenir une assistance technique pour GroupDocs.Parser ?

Vous pouvez demander une assistance technique et interagir avec la communauté àForum GroupDocs.

Travailler avec des champs à des positions fixes dans les modèles Travailler avec des champs aux positions Regex dans les modèles