Text in bestimmten Bereichen erkennen

Einführung

In diesem Tutorial erfahren Sie, wie Sie mit GroupDocs.Parser für .NET Text aus bestimmten Bereichen eines Dokuments erkennen und extrahieren können. GroupDocs.Parser ist eine leistungsstarke Dokumentanalysebibliothek, mit der Entwickler mit verschiedenen Dokumentformaten arbeiten können, darunter PDF, Word, Excel, PowerPoint und mehr. Insbesondere konzentrieren wir uns auf die Nutzung der OCR-Funktionen (Optical Character Recognition) von GroupDocs.Parser, um Text aus bestimmten Bereichen eines Dokuments zu extrahieren.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass die folgenden Voraussetzungen erfüllt sind:

  1. Visual Studio IDE: Stellen Sie sicher, dass Visual Studio auf Ihrem Computer installiert ist.
  2. GroupDocs.Parser für .NET: Laden Sie GroupDocs.Parser für .NET herunter und installieren Sie es von derDownload-Link.
  3. Dokumentbeispiele: Bereiten Sie Beispieldateien (z. B. PDF, DOCX) vor, aus denen Sie Text extrahieren möchten.

Namespaces importieren

Importieren Sie zunächst die erforderlichen Namespaces in Ihr Projekt:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Lassen Sie uns den Prozess mithilfe von GroupDocs.Parser für .NET in detaillierte Schritte aufteilen:

Schritt 1: Parser-Einstellungen mit OCR-Connector erstellen

Erstellen Sie zunächst eine Instanz vonParserSettingsKlasse und initialisieren Sie sie mit einem OCR-Connector, wie zum BeispielAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Schritt 2: Parser mit Einstellungen instanziieren

Erstellen Sie als nächstes eine Instanz vonParser Klasse durch Übergabe der zuvor erstelltenParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Codeausschnitt wird fortgesetzt...
}

Ersetzen"YourSampleFile.pdf" durch den Pfad zu Ihrem Zieldokument.

Schritt 3: Konfigurieren Sie die Optionen zur Textbereichsextraktion

Erstellen Sie eine Instanz vonPageTextAreaOptions So aktivieren Sie die OCR-basierte Textextraktion:

PageTextAreaOptions options = new PageTextAreaOptions(true);

Satztrue um OCR für eine bessere Texterkennung zu aktivieren.

Schritt 4: Textbereiche extrahieren

Aufrufenparser.GetTextAreas(options) um Textbereiche aus dem Dokument zu extrahieren:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Schritt 5: Extrahierte Textbereiche verarbeiten

Iterieren Sie über die extrahierten Textbereiche und rufen Sie Informationen zu Text, Position und Größe ab:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Abschluss

In diesem Tutorial haben wir den Prozess der Textextraktion aus bestimmten Bereichen eines Dokuments mithilfe von GroupDocs.Parser für .NET mit OCR-Funktionen behandelt. Indem Sie diese Schritte befolgen, können Sie die Analysefunktionen von GroupDocs.Parser effektiv nutzen, um Textextraktionsaufgaben programmgesteuert auszuführen.

Häufig gestellte Fragen

Kann GroupDocs.Parser Text aus gescannten Dokumenten extrahieren?

Ja, GroupDocs.Parser unterstützt OCR zum Extrahieren von Text aus gescannten Bildern in Dokumenten.

Welche Dokumentformate werden von GroupDocs.Parser unterstützt?

GroupDocs.Parser unterstützt eine Vielzahl von Formaten, darunter PDF, DOCX, XLSX, PPTX, TXT und mehr.

Ist GroupDocs.Parser für die Stapelverarbeitung von Dokumenten geeignet?

Ja, GroupDocs.Parser kann Stapelverarbeitungsaufgaben zum Parsen und Extrahieren von Dokumenten effizient bewältigen.

Kann ich die Optionen zur Textextraktion mit GroupDocs.Parser anpassen?

Ja, GroupDocs.Parser bietet verschiedene Optionen zur Anpassung der Textextraktion basierend auf spezifischen Anforderungen.

Bietet GroupDocs.Parser Unterstützung für das Extrahieren von Metadaten aus Dokumenten?

Ja, GroupDocs.Parser ermöglicht die Extraktion von Metadaten wie Autor, Erstellungsdatum und mehr aus unterstützten Dokumentformaten.