Extrahieren von Text aus bestimmten Bereichen einer Seite

Einführung

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Bibliothek GroupDocs.Parser für .NET Text aus bestimmten Bereichen einer Seite extrahieren. GroupDocs.Parser vereinfacht die Textextraktion aus Dokumenten und ermöglicht es Entwicklern, bestimmte Bereiche von Interesse innerhalb eines Dokuments für die Textextraktion auszuwählen. Dies kann insbesondere bei komplexen Dokumenten nützlich sein, bei denen eine präzise Textextraktion für die weitere Verarbeitung oder Analyse erforderlich ist.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Visual Studio ist auf Ihrem Computer installiert.
  • Grundlegende Kenntnisse der C#-Programmierung.
  • GroupDocs.Parser für .NET-Bibliothek installiert. Sie können es herunterladen vonHier.
  • Beispieldokumentdateien zum Testen der Textextraktion.

Namespaces importieren

Fügen Sie zunächst die erforderlichen Namespaces in Ihre C#-Codedatei ein, um auf die GroupDocs.Parser-Funktionen zuzugreifen:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Schritt 1: Instanziieren der Parser-Klasse

Um mit dem Extrahieren von Text aus einem Dokument zu beginnen, erstellen Sie eine Instanz desParserKlasse, indem Sie den Pfad zu Ihrer Beispieldokumentdatei angeben:

// Erstellen Sie eine Instanz der Parser-Klasse
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Fahren Sie mit der Textextraktion fort ...
}

Ersetzen"YourSampleFile.docx" durch den Pfad zu Ihrer eigentlichen Dokumentdatei.

Schritt 2: Überprüfen Sie die Unterstützung für die Extraktion von Textbereichen

Bevor Sie mit der Textextraktion fortfahren, prüfen Sie, ob das Dokument die Extraktion von Textbereichen unterstützt. Verwenden Sie dazuFeatures Eigentum derParser Klasse:

// Überprüfen Sie, ob das Dokument die Extraktion von Textbereichen unterstützt
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

Durch diesen Schritt wird sichergestellt, dass das Dokument zum Extrahieren von Textbereichen verarbeitet werden kann.

Schritt 3: Dokumentinformationen abrufen

Rufen Sie grundlegende Informationen zum Dokument ab mit demGetDocumentInfo() Methode:

// Dokumentinformationen abrufen
IDocumentInfo documentInfo = parser.GetDocumentInfo();

Zu diesen Informationen gehören die Seitenzahl und andere Metadaten zum Dokument.

Schritt 4: Über Dokumentseiten iterieren

Gehen Sie jede Seite des Dokuments durch, um Text aus bestimmten Bereichen zu extrahieren:

// Überprüfen Sie, ob das Dokument Seiten hat
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// Über Seiten iterieren
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // Aktuelle Seitenzahl drucken
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Fahren Sie mit der Textextraktion aus Bereichen fort …
}

Diese Schleife verarbeitet nacheinander jede Seite des Dokuments.

Schritt 5: Text aus bestimmten Bereichen extrahieren

Rufen Sie innerhalb der Seiteniterationsschleife Text aus bestimmten Bereichen von Interesse ab, indem SieGetTextAreas() Methode:

// Über Seitentextbereiche iterieren
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // Rechteckkoordinaten und Textbereichswert drucken
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

Dieser Schritt extrahiert Text aus jedem definierten Bereich (z. B. Begrenzungsrechtecke) auf der Seite und zeigt den extrahierten Text an.

Abschluss

In diesem Tutorial haben wir gelernt, wie man mit GroupDocs.Parser für .NET Text aus bestimmten Bereichen einer Seite extrahiert. Mithilfe der Funktionen dieser Bibliothek können Entwickler für verschiedene Anwendungen gezielt Text aus Zielbereichen in Dokumenten abrufen.

Häufig gestellte Fragen

Kann ich mit GroupDocs.Parser für .NET Text aus gescannten Bildern extrahieren?

Ja, GroupDocs.Parser unterstützt die Textextraktion aus gescannten Bildern durch OCR-Funktionen (Optical Character Recognition).

Ist GroupDocs.Parser mit verschiedenen Dokumentformaten kompatibel?

Ja, GroupDocs.Parser unterstützt eine breite Palette von Dokumentformaten, darunter PDF, Microsoft Office-Dokumente und mehr.

Wie kann ich komplexe Dokumentstrukturen mit verschachtelten Elementen verarbeiten?

GroupDocs.Parser bietet Funktionen zum Navigieren durch komplexe Dokumentstrukturen und zum selektiven Extrahieren von Text basierend auf definierten Kriterien.

Behält GroupDocs.Parser die Formatierung während der Textextraktion bei?

GroupDocs.Parser konzentriert sich auf das Extrahieren von Rohtextinhalten. Sie können jedoch bei Bedarf zusätzliche Formatierungslogik in Ihre Anwendung integrieren.

Kann GroupDocs.Parser zur Stapelverarbeitung von Dokumenten verwendet werden?

Ja, GroupDocs.Parser kann in Stapelverarbeitungs-Workflows integriert werden, um mehrere Dokumente effizient zu verarbeiten.