Gestion de l'OCR

Introduction

Dans ce didacticiel, nous explorerons comment utiliser GroupDocs.Parser pour .NET pour gérer efficacement les tâches de reconnaissance optique de caractères (OCR). Cette bibliothèque fournit des outils puissants pour extraire du texte à partir de documents, et avec l’OCR, vous pouvez extraire du texte même à partir d’images ou de documents numérisés. Examinons le processus étape par étape.

Conditions préalables

Avant de commencer, assurez-vous d’avoir la configuration suivante :

  • GroupDocs.Parser pour la bibliothèque .NET : téléchargez la bibliothèque à partir deici.
  • Votre exemple de fichier : préparez un exemple de fichier (document ou image) à partir duquel vous souhaitez extraire du texte.
  • Connaissance de base de l’environnement C# et .NET.

Importer des espaces de noms

Tout d’abord, vous devez importer les espaces de noms nécessaires pour utiliser les fonctionnalités GroupDocs.Parser dans votre application .NET.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Étape 1 : Créer des paramètres d’analyseur avec le connecteur OCR

Initialisez leParserSettings classe avec le connecteur OCR. Par exemple, en utilisant Aspose OCR sur site.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Étape 2 : Configurer les options OCR

Mettre en place unOcrEventHandler pour gérer les avertissements lors du traitement OCR.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

Étape 3 : configurer les options d’extraction de texte

CréerTextOptions pour activer l’extraction de texte basée sur l’OCR.

TextOptions options = new TextOptions(false, true, ocrOptions);

Étape 4 : Extraire le texte à l’aide de l’OCR

Instancier leParser classe avec les paramètres et extrayez le texte à l’aide de l’OCR.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

Conclusion

En suivant ces étapes, vous pouvez tirer parti de GroupDocs.Parser pour .NET pour gérer efficacement les tâches OCR au sein de vos applications. L’extraction de texte à partir d’images ou de documents numérisés devient transparente grâce aux puissantes capacités offertes par cette bibliothèque.

FAQ

GroupDocs.Parser pour .NET est-il compatible avec différents formats de fichiers ?

Oui, GroupDocs.Parser prend en charge un large éventail de formats de fichiers, notamment PDF, DOCX, PPTX, XLSX, images (JPEG, PNG, TIFF), etc.

Puis-je utiliser GroupDocs.Parser pour .NET dans mes projets commerciaux ?

Oui, vous pouvez intégrer GroupDocs.Parser pour .NET dans vos applications commerciales après avoir acheté une licence.

GroupDocs.Parser gère-t-il les fichiers chiffrés ou protégés par mot de passe ?

GroupDocs.Parser peut analyser et extraire le texte de documents PDF protégés par mot de passe.

Existe-t-il une version d’essai disponible pour GroupDocs.Parser pour .NET ?

Oui, vous pouvez télécharger une version d’essai gratuite à partir deici.

Où puis-je trouver de l’aide ou poser des questions relatives à GroupDocs.Parser pour .NET ?

Vous pouvez visiter leForum GroupDocs.Parser pour toute question ou discussion d’assistance.