Gestione dell'OCR

introduzione

In questo tutorial esploreremo come utilizzare GroupDocs.Parser per .NET per gestire in modo efficiente le attività di riconoscimento ottico dei caratteri (OCR). Questa libreria fornisce potenti strumenti per estrarre testo dai documenti e, con l’OCR, puoi estrarre testo anche da immagini o documenti scansionati. Immergiamoci nel processo passo dopo passo.

Prerequisiti

Prima di iniziare, assicurati di avere la seguente configurazione:

  • GroupDocs.Parser per .NET Library: scarica la libreria daQui.
  • Il tuo file di esempio: prepara un file di esempio (documento o immagine) da cui desideri estrarre il testo.
  • Conoscenza base dell’ambiente C# e .NET.

Importa spazi dei nomi

Innanzitutto è necessario importare gli spazi dei nomi necessari per utilizzare le funzionalità GroupDocs.Parser nell’applicazione .NET.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Passaggio 1: creare le impostazioni del parser con il connettore OCR

Inizializza ilParserSettings classe con il connettore OCR. Ad esempio, utilizzando Aspose OCR in sede.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Passaggio 2: configura le opzioni OCR

Configura unOcrEventHandler per gestire gli avvisi durante l’elaborazione OCR.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

Passaggio 3: configura le opzioni di estrazione del testo

CreareTextOptions per abilitare l’estrazione del testo basata su OCR.

TextOptions options = new TextOptions(false, true, ocrOptions);

Passaggio 4: estrai il testo utilizzando l’OCR

Istanziare ilParser class con le impostazioni ed estrai il testo utilizzando l’OCR.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

Conclusione

Seguendo questi passaggi, puoi sfruttare GroupDocs.Parser for .NET per gestire le attività OCR in modo efficace all’interno delle tue applicazioni. L’estrazione del testo da immagini o documenti scansionati diventa semplice grazie alle potenti funzionalità offerte da questa libreria.

Domande frequenti

GroupDocs.Parser per .NET è compatibile con diversi formati di file?

Sì, GroupDocs.Parser supporta un’ampia gamma di formati di file tra cui PDF, DOCX, PPTX, XLSX, immagini (JPEG, PNG, TIFF) e altro ancora.

Posso utilizzare GroupDocs.Parser per .NET nei miei progetti commerciali?

Sì, puoi integrare GroupDocs.Parser for .NET nelle tue applicazioni commerciali dopo aver acquistato una licenza.

GroupDocs.Parser gestisce file crittografati o protetti da password?

GroupDocs.Parser può analizzare ed estrarre testo da documenti PDF protetti da password.

È disponibile una versione di prova per GroupDocs.Parser per .NET?

Sì, puoi scaricare una versione di prova gratuita daQui.

Dove posso trovare supporto o porre domande relative a GroupDocs.Parser per .NET?

Puoi visitare ilForum GroupDocs.Parser per qualsiasi domanda o discussione di supporto.