Erkennen von Text in rechteckigen Bereichen

Einführung

In diesem Tutorial erfahren Sie, wie Sie mit GroupDocs.Parser für .NET Text in bestimmten rechteckigen Bereichen von Dokumenten erkennen können. GroupDocs.Parser ist eine leistungsstarke Bibliothek, mit der Entwickler Text, Metadaten und mehr aus verschiedenen Dateiformaten extrahieren können, darunter PDF, Word, Excel und PowerPoint.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie Folgendes eingerichtet haben:

  • GroupDocs.Parser für .NET: Laden Sie die Bibliothek herunter und installieren Sie sie vonHier.
  • Entwicklungsumgebung: Visual Studio oder eine andere .NET IDE.
  • Beispieldokument: Halten Sie eine Beispieldatei (z. B. PDF, DOCX) bereit, die den zu erkennenden Text enthält.

Namespaces importieren

Zuerst müssen Sie die erforderlichen Namespaces in Ihren C#-Code importieren:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Schritt 1: Parser-Einstellungen initialisieren

Beginnen Sie mit der Einrichtung desParserSettings mit dem OCR-Connector. Hier verwenden wir den Aspose OCR On-Premise-Connector:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Schritt 2: Parserinstanz erstellen

Als nächstes instantiieren Sie denParser Klasse mit den zuvor definierten Einstellungen:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Der Code wird hier fortgesetzt
}

Ersetzen"YourSampleFile.pdf" durch den Pfad zu Ihrem Dokument.

Schritt 3: OCR-Rechteck definieren

Definieren Sie ein Rechteck innerhalb des Dokuments, in dem die Texterkennung durchgeführt wird. Beispielsweise ein Rechteck beginnend bei(0, 0) mit Breite400 und Höhe200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

Schritt 4: Konfigurieren Sie die Texterkennungsoptionen

ErstellenTextOptions um die OCR-Verwendung zusammen mit dem definierten Rechteck anzugeben:

TextOptions options = new TextOptions(false, true, ocrOptions);

Schritt 5: Text mit OCR extrahieren

Verwenden Sie dieGetText Methode derParser Instanz mit der konfiguriertenTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Extrahierten Text lesen oder Fall „nicht unterstützt“ behandeln
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Abschluss

In diesem Tutorial haben wir gezeigt, wie Sie GroupDocs.Parser für .NET nutzen können, um mithilfe von OCR Text aus bestimmten rechteckigen Bereichen in Dokumenten zu extrahieren. Dieser Prozess kann weiter angepasst und in verschiedene Anwendungen für automatisierte Textextraktionsaufgaben integriert werden.

Häufig gestellte Fragen

Kann GroupDocs.Parser Text aus gescannten Dokumenten extrahieren?

Ja, GroupDocs.Parser unterstützt OCR (Optical Character Recognition) zum Extrahieren von Text aus gescannten Dokumenten.

Welche Dateiformate unterstützt GroupDocs.Parser?

GroupDocs.Parser unterstützt eine Vielzahl von Dateiformaten, darunter PDF, DOCX, XLSX, PPTX und mehr.

Wie kann ich mit Dokumenten umgehen, deren Textextraktion nicht unterstützt wird?

Sie können überprüfen, ob die Textextraktion unterstützt wird, indem SieTextReader Instanz zurückgegeben vonparser.GetText(options).

Ist GroupDocs.Parser für umfangreiche Textextraktionsaufgaben geeignet?

Ja, GroupDocs.Parser ist für die effiziente Bewältigung umfangreicher Textextraktionsaufgaben konzipiert.

Wo erhalte ich Unterstützung bei Problemen mit GroupDocs.Parser?

Für Unterstützung und Diskussionen besuchen Sie dieGroupDocs.Parser-Forum.