Extraire le texte de zones spécifiques avec des options
Introduction
Dans ce didacticiel, nous verrons comment utiliser GroupDocs.Parser pour .NET pour extraire du texte de zones spécifiques d’un document à l’aide d’options personnalisables. GroupDocs.Parser est une bibliothèque puissante qui permet aux développeurs d’analyser et d’extraire sans effort du texte de divers formats de documents.
Conditions préalables
Avant de plonger dans le codage, assurez-vous d’avoir les éléments suivants :
- Environnement de développement : installez Visual Studio ou tout autre IDE de développement .NET.
- Bibliothèque GroupDocs.Parser : téléchargez et installez GroupDocs.Parser pour .NET à partir deici.
- Exemple de fichier : préparez un exemple de document (par exemple, PDF, DOCX, etc.) à partir duquel extraire le texte.
Importer des espaces de noms
Tout d’abord, vous devrez importer les espaces de noms nécessaires pour accéder aux classes et méthodes GroupDocs.Parser.
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Étape 1 : Créer une instance de la classe Parser
Initialiser une instance duParser
classe en fournissant le chemin d’accès à votre exemple de fichier.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Le code pour l'extraction de la zone de texte ira ici
}
Étape 2 : Définir les options d’extraction de la zone de texte
CréerPageTextAreaOptions
pour spécifier les critères d’extraction de texte.
PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));
Dans cet exemple :
"\\s[a-z]{2}\\s"
est un modèle d’expression régulière permettant de faire correspondre les zones de texte contenant uniquement des lettres minuscules.new Rectangle(new Point(0, 0), new Size(300, 100))
définit le rectangle (position et taille) sur la page à partir duquel extraire le texte.
Étape 3 : Extraire les zones de texte
Utilisez les options définies pour extraire les zones de texte qui répondent aux critères spécifiés.
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Étape 4 : Vérifier et parcourir les zones de texte extraites
Vérifiez si l’extraction de zone de texte est prise en charge, puis parcourez les zones extraites.
if (areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
foreach (PageTextArea a in areas)
{
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
Conclusion
Dans ce didacticiel, nous avons expliqué comment extraire du texte de zones spécifiques d’un document à l’aide de GroupDocs.Parser pour .NET. Cette bibliothèque offre des capacités étendues pour analyser divers formats de documents, ce qui en fait un outil précieux pour les tâches d’extraction de texte.
FAQ
GroupDocs.Parser peut-il extraire le texte des documents numérisés ?
Oui, GroupDocs.Parser prend en charge l’extraction de texte basée sur l’OCR pour les documents numérisés.
GroupDocs.Parser est-il compatible avec plusieurs formats de documents ?
Oui, il peut analyser et extraire du texte à partir de PDF, DOCX, XLSX, PPTX et d’autres formats populaires.
GroupDocs.Parser prend-il en charge .NET Core ?
Oui, GroupDocs.Parser est compatible avec .NET Core ainsi qu’avec .NET Framework.
Puis-je extraire des métadonnées avec du texte à l’aide de GroupDocs.Parser ?
Oui, vous pouvez extraire à la fois le contenu textuel et les métadonnées des documents.
Existe-t-il une version d’essai disponible pour GroupDocs.Parser ?
Oui, vous pouvez bénéficier d’un essai gratuit auprès deici.