Gestion de l'OCR
Introduction
Dans ce didacticiel, nous explorerons comment utiliser GroupDocs.Parser pour .NET pour gérer efficacement les tâches de reconnaissance optique de caractères (OCR). Cette bibliothèque fournit des outils puissants pour extraire du texte à partir de documents, et avec l’OCR, vous pouvez extraire du texte même à partir d’images ou de documents numérisés. Examinons le processus étape par étape.
Conditions préalables
Avant de commencer, assurez-vous d’avoir la configuration suivante :
- GroupDocs.Parser pour la bibliothèque .NET : téléchargez la bibliothèque à partir deici.
- Votre exemple de fichier : préparez un exemple de fichier (document ou image) à partir duquel vous souhaitez extraire du texte.
- Connaissance de base de l’environnement C# et .NET.
Importer des espaces de noms
Tout d’abord, vous devez importer les espaces de noms nécessaires pour utiliser les fonctionnalités GroupDocs.Parser dans votre application .NET.
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Étape 1 : Créer des paramètres d’analyseur avec le connecteur OCR
Initialisez leParserSettings
classe avec le connecteur OCR. Par exemple, en utilisant Aspose OCR sur site.
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Étape 2 : Configurer les options OCR
Mettre en place unOcrEventHandler
pour gérer les avertissements lors du traitement OCR.
OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);
Étape 3 : configurer les options d’extraction de texte
CréerTextOptions
pour activer l’extraction de texte basée sur l’OCR.
TextOptions options = new TextOptions(false, true, ocrOptions);
Étape 4 : Extraire le texte à l’aide de l’OCR
Instancier leParser
classe avec les paramètres et extrayez le texte à l’aide de l’OCR.
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
using (TextReader reader = parser.GetText(options))
{
if (reader == null)
{
Console.WriteLine("Text extraction isn't supported.");
}
else
{
Console.WriteLine(reader.ReadToEnd());
}
}
if (handler.HasWarnings)
{
Console.WriteLine("The following warnings occurred during text recognition:");
foreach (string w in handler.Warnings)
{
Console.WriteLine("\t* " + w);
}
}
else
{
Console.WriteLine("Text recognition was performed without any warnings.");
}
}
Conclusion
En suivant ces étapes, vous pouvez tirer parti de GroupDocs.Parser pour .NET pour gérer efficacement les tâches OCR au sein de vos applications. L’extraction de texte à partir d’images ou de documents numérisés devient transparente grâce aux puissantes capacités offertes par cette bibliothèque.
FAQ
GroupDocs.Parser pour .NET est-il compatible avec différents formats de fichiers ?
Oui, GroupDocs.Parser prend en charge un large éventail de formats de fichiers, notamment PDF, DOCX, PPTX, XLSX, images (JPEG, PNG, TIFF), etc.
Puis-je utiliser GroupDocs.Parser pour .NET dans mes projets commerciaux ?
Oui, vous pouvez intégrer GroupDocs.Parser pour .NET dans vos applications commerciales après avoir acheté une licence.
GroupDocs.Parser gère-t-il les fichiers chiffrés ou protégés par mot de passe ?
GroupDocs.Parser peut analyser et extraire le texte de documents PDF protégés par mot de passe.
Existe-t-il une version d’essai disponible pour GroupDocs.Parser pour .NET ?
Oui, vous pouvez télécharger une version d’essai gratuite à partir deici.
Où puis-je trouver de l’aide ou poser des questions relatives à GroupDocs.Parser pour .NET ?
Vous pouvez visiter leForum GroupDocs.Parser pour toute question ou discussion d’assistance.