Handhabung von OCR

Einführung

In diesem Tutorial erfahren Sie, wie Sie mit GroupDocs.Parser für .NET Aufgaben zur optischen Zeichenerkennung (OCR) effizient erledigen können. Diese Bibliothek bietet leistungsstarke Tools zum Extrahieren von Text aus Dokumenten. Mit OCR können Sie sogar aus Bildern oder gescannten Dokumenten Text extrahieren. Lassen Sie uns Schritt für Schritt in den Prozess eintauchen.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie Folgendes eingerichtet haben:

  • GroupDocs.Parser für .NET-Bibliothek: Laden Sie die Bibliothek herunter vonHier.
  • Ihre Beispieldatei: Bereiten Sie eine Beispieldatei (Dokument oder Bild) vor, aus der Sie Text extrahieren möchten.
  • Grundkenntnisse der C#- und .NET-Umgebung.

Namespaces importieren

Zuerst müssen Sie die erforderlichen Namespaces importieren, um die GroupDocs.Parser-Funktionen in Ihrer .NET-Anwendung zu verwenden.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Schritt 1: Parser-Einstellungen mit OCR-Connector erstellen

Initialisieren Sie denParserSettings Klasse mit dem OCR-Anschluss. Beispielsweise durch Verwendung von Aspose OCR vor Ort.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Schritt 2: OCR-Optionen konfigurieren

Richten Sie einOcrEventHandler um Warnungen während der OCR-Verarbeitung zu behandeln.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

Schritt 3: Konfigurieren Sie die Textextraktionsoptionen

ErstellenTextOptions um OCR-basierte Textextraktion zu ermöglichen.

TextOptions options = new TextOptions(false, true, ocrOptions);

Schritt 4: Text mit OCR extrahieren

Instanziieren Sie denParser Klasse mit den Einstellungen und extrahieren Sie Text mithilfe von OCR.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

Abschluss

Wenn Sie diese Schritte befolgen, können Sie GroupDocs.Parser für .NET nutzen, um OCR-Aufgaben in Ihren Anwendungen effektiv auszuführen. Das Extrahieren von Text aus Bildern oder gescannten Dokumenten wird mit den leistungsstarken Funktionen dieser Bibliothek zum Kinderspiel.

Häufig gestellte Fragen

Ist GroupDocs.Parser für .NET mit verschiedenen Dateiformaten kompatibel?

Ja, GroupDocs.Parser unterstützt eine Vielzahl von Dateiformaten, darunter PDF, DOCX, PPTX, XLSX, Bilder (JPEG, PNG, TIFF) und mehr.

Kann ich GroupDocs.Parser für .NET in meinen kommerziellen Projekten verwenden?

Ja, Sie können GroupDocs.Parser für .NET nach dem Erwerb einer Lizenz in Ihre kommerziellen Anwendungen integrieren.

Verarbeitet GroupDocs.Parser verschlüsselte oder passwortgeschützte Dateien?

GroupDocs.Parser kann Text aus passwortgeschützten PDF-Dokumenten analysieren und extrahieren.

Gibt es eine Testversion für GroupDocs.Parser für .NET?

Ja, Sie können eine kostenlose Testversion herunterladen vonHier.

Wo finde ich Unterstützung oder kann Fragen zu GroupDocs.Parser für .NET stellen?

Besuchen Sie dieGroupDocs.Parser-Forum für Supportanfragen oder Diskussionen.