Extrahieren Sie formatierten Text aus der Dokumentseite

Einführung

In diesem Tutorial führen wir Sie durch den Prozess des Extrahierens von formatiertem Text aus Dokumentseiten mithilfe von GroupDocs.Parser für .NET. Mit dieser Bibliothek können Sie Text aus verschiedenen Dokumentformaten wie PDF, Word, Excel und mehr effizient analysieren und extrahieren.

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:

Visual Studio ist auf Ihrem System installiert.
Grundkenntnisse der C#-Programmierung.
GroupDocs.Parser für .NET-Bibliothek. Sie können es herunterladenHier.

Namespaces importieren

Importieren Sie zunächst die erforderlichen Namespaces in Ihr C#-Projekt.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Schritt 1: Erstellen Sie eine Instanz der Parser-Klasse

Beginnen Sie mit der Erstellung einer Instanz desParser Klasse, indem Sie den Pfad zu Ihrer Beispieldatei angeben.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Der Code kommt hierhin
}

Schritt 2: Überprüfen Sie, ob die Extraktion formatierten Textes unterstützt wird

Bevor Sie mit der Textextraktion fortfahren, überprüfen Sie, ob das Dokument die Extraktion formatierten Textes unterstützt.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Schritt 3: Dokumentinformationen abrufen

Rufen Sie Informationen zum Dokument ab, beispielsweise die Seitenanzahl.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Schritt 4: Über Dokumentseiten iterieren und formatierten Text extrahieren

Iterieren Sie durch jede Seite des Dokuments und extrahieren Sie formatierten Text mit angegebenen Optionen (z. B. Markdown-Format).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Abschluss

Jetzt wissen Sie, wie Sie mit GroupDocs.Parser für .NET formatierten Text aus Dokumentseiten extrahieren. Diese Bibliothek bietet eine leistungsstarke und benutzerfreundliche Lösung für die Textextraktion aus verschiedenen Dateiformaten.

Häufig gestellte Fragen

Kann GroupDocs.Parser verschiedene Dateiformate verarbeiten?

Ja, GroupDocs.Parser unterstützt eine breite Palette von Dokumentformaten, darunter PDF, DOCX, XLSX, PPTX und mehr.

Ist GroupDocs.Parser mit .NET Core kompatibel?

Ja, GroupDocs.Parser unterstützt .NET Core und .NET Framework.

Behält GroupDocs.Parser die Textformatierung während der Extraktion bei?

Ja, GroupDocs.Parser kann beim Extrahieren von Text Formatierungen wie Stile und Schriftarten beibehalten.

Kann ich mit GroupDocs.Parser Bilder und Metadaten extrahieren?

Ja, GroupDocs.Parser ermöglicht das Extrahieren von Bildern, Metadaten und Text aus Dokumenten.

Wie kann ich Support für GroupDocs.Parser erhalten?

Unterstützung erhalten Sie vomGroupDocs.Parser-Forum.

Formatierten Text aus Dokument extrahieren HTML-Inhalt extrahieren