Extraire le texte de zones spécifiques d'une page

Introduction

Dans ce didacticiel, nous explorerons comment extraire du texte de zones spécifiques d’une page à l’aide de la bibliothèque GroupDocs.Parser pour .NET. GroupDocs.Parser simplifie l’extraction de texte à partir de documents, permettant aux développeurs de cibler des régions d’intérêt spécifiques au sein d’un document pour l’extraction de texte. Cela peut être particulièrement utile lorsqu’il s’agit de documents complexes où une extraction précise du texte est requise pour un traitement ou une analyse ultérieurs.

Conditions préalables

Avant de commencer, assurez-vous d’avoir les éléments suivants :

Visual Studio installé sur votre ordinateur.
Compréhension de base de la programmation C#.
GroupDocs.Parser pour la bibliothèque .NET installée. Vous pouvez le télécharger depuisici.
Exemples de fichiers de documents pour tester l’extraction de texte.

Importer des espaces de noms

Tout d’abord, incluez les espaces de noms nécessaires dans votre fichier de code C# pour accéder aux fonctionnalités GroupDocs.Parser :

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Étape 1 : instancier la classe Parser

Pour commencer à extraire du texte d’un document, créez une instance duParserclasse en fournissant le chemin d’accès à votre exemple de fichier de document :

// Créer une instance de la classe Parser
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Continuez avec l'extraction de texte...
}

Remplacer"YourSampleFile.docx" avec le chemin d’accès à votre fichier de document actuel.

Étape 2 : Vérifiez la prise en charge de l’extraction des zones de texte

Avant de procéder à l’extraction de texte, vérifiez si le document prend en charge l’extraction de zones de texte à l’aide de l’outilFeatures propriété duParser classe:

// Vérifiez si le document prend en charge l'extraction des zones de texte
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

Cette étape garantit que le document peut être traité pour extraire les zones de texte.

Étape 3 : obtenir des informations sur le document

Récupérez les informations de base sur le document à l’aide de l’outilGetDocumentInfo() méthode:

// Obtenir les informations sur le document
IDocumentInfo documentInfo = parser.GetDocumentInfo();

Ces informations incluent le nombre de pages et d’autres métadonnées sur le document.

Étape 4 : Parcourir les pages du document

Parcourez chaque page du document pour extraire le texte de zones spécifiques :

// Vérifiez si le document comporte des pages
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// Itérer sur les pages
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // Imprimer le numéro de la page actuelle
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Continuez l'extraction de texte à partir des zones...
}

Cette boucle traite chaque page du document de manière séquentielle.

Étape 5 : Extraire le texte de zones spécifiques

Dans la boucle d’itération de page, récupérez le texte de domaines d’intérêt spécifiques à l’aide deGetTextAreas() méthode:

// Itérer sur les zones de texte de la page
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // Imprimer les coordonnées du rectangle et la valeur de la zone de texte
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

Cette étape extrait le texte de chaque zone définie (telle que les rectangles de délimitation) de la page et affiche le texte extrait.

Conclusion

Dans ce didacticiel, nous avons appris à extraire du texte de zones spécifiques d’une page à l’aide de GroupDocs.Parser pour .NET. En tirant parti des capacités de cette bibliothèque, les développeurs peuvent récupérer avec précision le texte des régions ciblées au sein des documents pour diverses applications.

FAQ

Puis-je extraire du texte à partir d’images numérisées à l’aide de GroupDocs.Parser pour .NET ?

Oui, GroupDocs.Parser prend en charge l’extraction de texte à partir d’images numérisées via les capacités OCR (Optical Character Recognition).

GroupDocs.Parser est-il compatible avec différents formats de documents ?

Oui, GroupDocs.Parser prend en charge un large éventail de formats de documents, notamment les PDF, les documents Microsoft Office, etc.

Comment puis-je gérer des structures de documents complexes avec des éléments imbriqués ?

GroupDocs.Parser fournit des fonctionnalités permettant de naviguer dans des structures de documents complexes et d’extraire du texte de manière sélective en fonction de critères définis.

GroupDocs.Parser préserve-t-il le formatage lors de l’extraction de texte ?

GroupDocs.Parser se concentre sur l’extraction de contenu textuel brut ; cependant, vous pouvez intégrer une logique de formatage supplémentaire si nécessaire dans votre application.

GroupDocs.Parser peut-il être utilisé pour le traitement par lots de documents ?

Oui, GroupDocs.Parser peut être intégré aux flux de travail de traitement par lots pour gérer efficacement plusieurs documents.

Extraire le texte de zones spécifiques Extraire le texte de zones spécifiques avec des options