GetFormattedText

GetFormattedText(FormattedTextOptions)

Extraheert een opgemaakte tekst uit het document.

public TextReader GetFormattedText(FormattedTextOptions options)
Parameter Type Beschrijving
options FormattedTextOptions De opgemaakte tekstextractie-opties.

Winstwaarde

Een exemplaar vanTextReader klasse met de geëxtraheerde tekst; nul als geformatteerde tekstextractie niet wordt ondersteund.

Opmerkingen

Kom meer te weten:

Voorbeelden

Het volgende voorbeeld laat zien hoe een documenttekst als HTML-tekst kan worden geëxtraheerd:

// Maak een instantie van de Parser-klasse
using (Parser parser = new Parser(filePath))
{
    // Extraheer een opgemaakte tekst in de reader
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Print een opgemaakte tekst uit het document
        // Als geformatteerde tekstextractie niet wordt ondersteund, is een lezer null
        Console.WriteLine(reader == null ? "Formatted text extraction isn't suppported" : reader.ReadToEnd());
    }
}

Zie ook


GetFormattedText(int, FormattedTextOptions)

Extraheert een opgemaakte tekst van de documentpagina.

public TextReader GetFormattedText(int pageIndex, FormattedTextOptions options)
Parameter Type Beschrijving
pageIndex Int32 De op nul gebaseerde pagina-index.
options FormattedTextOptions De opgemaakte tekstextractie-opties.

Winstwaarde

Een exemplaar vanTextReaderklasse met de geëxtraheerde tekst; nul als geformatteerde tekstpagina-extractie niet wordt ondersteund.

Opmerkingen

Kom meer te weten:

Voorbeelden

In het volgende voorbeeld ziet u hoe u de tekst van een documentpagina kunt extraheren als Markdown-tekst:

// Maak een instantie van de Parser-klasse
using (Parser parser = new Parser(filePath))
{
    // Controleer of het document geformatteerde tekstextractie ondersteunt
    if (!parser.Features.FormattedText)
    {
        Console.WriteLine("Document isn't supports formatted text extraction.");
        return;
    }
    
    // Haal de documentinfo op
    IDocumentInfo documentInfo = parser.GetDocumentInfo();
    // Controleer of het document pagina's heeft
    if (documentInfo.PageCount == 0)
    {
        Console.WriteLine("Document hasn't pages.");
        return;
    }
    
    // Herhaal pagina's
    for (int p = 0; p<documentInfo.PageCount; p++)
    {
        // Druk een paginanummer af 
        Console.WriteLine(string.Format("Page {0}/{1}", p + 1, documentInfo.PageCount));
        // Extraheer een opgemaakte tekst in de reader
        using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
        {
            // Print een opgemaakte tekst uit het document
            // We negeren null-checking omdat we eerder de ondersteuning voor opgemaakte tekstextractie hebben gecontroleerd
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

Zie ook