Reconnaissance du texte dans les régions rectangulaires
Introduction
Dans ce didacticiel, nous verrons comment utiliser GroupDocs.Parser pour .NET pour reconnaître le texte dans des régions rectangulaires spécifiques des documents. GroupDocs.Parser est une bibliothèque puissante qui permet aux développeurs d’extraire du texte, des métadonnées et bien plus encore à partir de divers formats de fichiers, notamment PDF, Word, Excel et PowerPoint.
Conditions préalables
Avant de commencer, assurez-vous d’avoir la configuration suivante :
- GroupDocs.Parser pour .NET : téléchargez et installez la bibliothèque à partir deici.
- Environnement de développement : Visual Studio ou tout autre IDE .NET.
- Exemple de document : disposez d’un exemple de fichier (par exemple, PDF, DOCX) contenant du texte à reconnaître.
Importer des espaces de noms
Tout d’abord, vous devrez importer les espaces de noms nécessaires dans votre code C# :
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Étape 1 : initialiser les paramètres de l’analyseur
Commencez par configurer leParserSettings
avec le connecteur OCR. Ici, nous utiliserons le connecteur sur site Aspose OCR :
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Étape 2 : Créer une instance d’analyseur
Ensuite, instanciez leParser
classe avec les paramètres définis précédemment :
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Le code continue ici
}
Remplacer"YourSampleFile.pdf"
avec le chemin d’accès à votre document.
Étape 3 : Définir le rectangle OCR
Définissez un rectangle dans le document où la reconnaissance de texte sera effectuée. Par exemple, un rectangle commençant à(0, 0)
avec largeur400
et la hauteur200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
Étape 4 : configurer les options de reconnaissance de texte
CréerTextOptions
pour spécifier l’utilisation de l’OCR avec le rectangle défini :
TextOptions options = new TextOptions(false, true, ocrOptions);
Étape 5 : Extraire le texte à l’aide de l’OCR
Utilisez leGetText
méthode duParser
instance avec le configuréTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Lire le texte extrait ou gérer le cas « non pris en charge »
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Conclusion
Dans ce didacticiel, nous avons montré comment exploiter GroupDocs.Parser pour .NET pour extraire le texte de régions rectangulaires spécifiques dans des documents à l’aide de l’OCR. Ce processus peut être davantage personnalisé et intégré à diverses applications pour des tâches d’extraction de texte automatisées.
FAQ
GroupDocs.Parser peut-il extraire le texte des documents numérisés ?
Oui, GroupDocs.Parser prend en charge la reconnaissance optique de caractères (OCR) pour extraire le texte des documents numérisés.
Quels formats de fichiers GroupDocs.Parser prend-il en charge ?
GroupDocs.Parser prend en charge un large éventail de formats de fichiers, notamment PDF, DOCX, XLSX, PPTX, etc.
Comment puis-je gérer des documents qui ne sont pas pris en charge pour l’extraction de texte ?
Vous pouvez vérifier si l’extraction de texte est prise en charge en utilisantTextReader
instance renvoyée parparser.GetText(options)
.
GroupDocs.Parser est-il adapté aux tâches d’extraction de texte à grande échelle ?
Oui, GroupDocs.Parser est conçu pour gérer efficacement les tâches d’extraction de texte à grande échelle.
Où puis-je obtenir de l’aide pour les problèmes liés à GroupDocs.Parser ?
Pour obtenir de l’aide et des discussions, visitez leForum GroupDocs.Parser.