Extrahieren Sie Text aus einer PDF-Seite im Raw-Modus
Einführung
In diesem Tutorial erfahren Sie, wie Sie mit GroupDocs.Parser für .NET Text aus Seiten in PDF-Dokumenten im Raw-Modus extrahieren. GroupDocs.Parser ist ein leistungsstarkes Tool, mit dem Entwickler programmgesteuert mit verschiedenen Dokumentformaten arbeiten können.
Voraussetzungen
Stellen Sie vor dem Starten dieses Tutorials sicher, dass Sie über Folgendes verfügen:
- Visual Studio ist auf Ihrem Computer installiert.
- Grundkenntnisse der C#-Programmierung.
- GroupDocs.Parser für .NET-Bibliothek, die SieHier herunterladen.
- Eine Beispiel-PDF-Datei zu Testzwecken.
Namespaces importieren
Stellen Sie zunächst sicher, dass Sie die erforderlichen Namespaces in Ihr C#-Projekt importieren:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Schritt 1: Erstellen Sie eine Instanz der Parser-Klasse
Instanziieren Sie zunächst dieParser
Klasse, indem Sie den Pfad zu Ihrer Beispiel-PDF-Datei angeben.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Ihr Code kommt hier rein
}
Schritt 2: Dokumentinformationen abrufen und über Seiten iterieren
Rufen Sie als Nächstes die Dokumentinformationen ab und durchlaufen Sie jede Seite, um Text zu extrahieren.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Ihr Code zur Textextraktion kommt hierhin
}
Schritt 3: Text von jeder Seite extrahieren
Innerhalb der Schleife verwenden Sie dieGetText
Methode, um Text von jeder Seite zu extrahieren und auszudrucken.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Abschluss
In diesem Tutorial haben wir gelernt, wie man mit GroupDocs.Parser für .NET Text aus PDF-Seiten im Rohmodus extrahiert. Dieser Prozess beinhaltet die Erstellung einesParser
Instanz, Abrufen von Dokumentinformationen, Durchlaufen jeder Seite und Extrahieren von Text mithilfe derGetText
Methode.
Häufig gestellte Fragen
Was ist GroupDocs.Parser für .NET?
GroupDocs.Parser für .NET ist eine API zur Dokumentanalyse, die es Entwicklern ermöglicht, programmgesteuert Text, Metadaten und andere Informationen aus verschiedenen Dateiformaten zu extrahieren.
Wie lade ich GroupDocs.Parser für .NET herunter?
Sie können die Bibliothek herunterladen von derGroupDocs-Website.
Gibt es eine kostenlose Testversion?
Ja, Sie können auf eine kostenlose Testversion von GroupDocs.Parser für .NET zugreifen vonHier.
Wo finde ich Unterstützung für GroupDocs.Parser für .NET?
Technische Hilfe und Community-Support erhalten Sie unterGroupDocs-Forum.
Wie kann ich eine Lizenz für GroupDocs.Parser für .NET erwerben?
Sie können eine Lizenz erwerben bei derKaufseite oder erwerben Sie eine temporäre LizenzHier.