Extraire le texte de zones spécifiques avec des options

Introduction

Dans ce didacticiel, nous verrons comment utiliser GroupDocs.Parser pour .NET pour extraire du texte de zones spécifiques d’un document à l’aide d’options personnalisables. GroupDocs.Parser est une bibliothèque puissante qui permet aux développeurs d’analyser et d’extraire sans effort du texte de divers formats de documents.

Conditions préalables

Avant de plonger dans le codage, assurez-vous d’avoir les éléments suivants :

  1. Environnement de développement : installez Visual Studio ou tout autre IDE de développement .NET.
  2. Bibliothèque GroupDocs.Parser : téléchargez et installez GroupDocs.Parser pour .NET à partir deici.
  3. Exemple de fichier : préparez un exemple de document (par exemple, PDF, DOCX, etc.) à partir duquel extraire le texte.

Importer des espaces de noms

Tout d’abord, vous devrez importer les espaces de noms nécessaires pour accéder aux classes et méthodes GroupDocs.Parser.

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Étape 1 : Créer une instance de la classe Parser

Initialiser une instance duParser classe en fournissant le chemin d’accès à votre exemple de fichier.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Le code pour l'extraction de la zone de texte ira ici
}

Étape 2 : Définir les options d’extraction de la zone de texte

CréerPageTextAreaOptions pour spécifier les critères d’extraction de texte.

PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));

Dans cet exemple :

  • "\\s[a-z]{2}\\s" est un modèle d’expression régulière permettant de faire correspondre les zones de texte contenant uniquement des lettres minuscules.
  • new Rectangle(new Point(0, 0), new Size(300, 100)) définit le rectangle (position et taille) sur la page à partir duquel extraire le texte.

Étape 3 : Extraire les zones de texte

Utilisez les options définies pour extraire les zones de texte qui répondent aux critères spécifiés.

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Étape 4 : Vérifier et parcourir les zones de texte extraites

Vérifiez si l’extraction de zone de texte est prise en charge, puis parcourez les zones extraites.

if (areas == null)
{
    Console.WriteLine("Page text areas extraction isn't supported");
    return;
}
foreach (PageTextArea a in areas)
{
    Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}

Conclusion

Dans ce didacticiel, nous avons expliqué comment extraire du texte de zones spécifiques d’un document à l’aide de GroupDocs.Parser pour .NET. Cette bibliothèque offre des capacités étendues pour analyser divers formats de documents, ce qui en fait un outil précieux pour les tâches d’extraction de texte.

FAQ

GroupDocs.Parser peut-il extraire le texte des documents numérisés ?

Oui, GroupDocs.Parser prend en charge l’extraction de texte basée sur l’OCR pour les documents numérisés.

GroupDocs.Parser est-il compatible avec plusieurs formats de documents ?

Oui, il peut analyser et extraire du texte à partir de PDF, DOCX, XLSX, PPTX et d’autres formats populaires.

GroupDocs.Parser prend-il en charge .NET Core ?

Oui, GroupDocs.Parser est compatible avec .NET Core ainsi qu’avec .NET Framework.

Puis-je extraire des métadonnées avec du texte à l’aide de GroupDocs.Parser ?

Oui, vous pouvez extraire à la fois le contenu textuel et les métadonnées des documents.

Existe-t-il une version d’essai disponible pour GroupDocs.Parser ?

Oui, vous pouvez bénéficier d’un essai gratuit auprès deici.