Extraheer opgemaakte tekst uit de documentpagina

Invoering

In deze zelfstudie begeleiden we u bij het extraheren van opgemaakte tekst uit documentpagina’s met behulp van GroupDocs.Parser voor .NET. Met deze bibliotheek kunt u tekst efficiënt ontleden en extraheren uit verschillende documentformaten, zoals PDF, Word, Excel en meer.

Vereisten

Voordat we beginnen, zorg ervoor dat u over het volgende beschikt:

Visual Studio is op uw systeem geïnstalleerd.
Basiskennis van programmeren in C#.
GroupDocs.Parser voor .NET-bibliotheek. Je kunt het downloadenhier.

Naamruimten importeren

Begin eerst met het importeren van de benodigde naamruimten in uw C#-project.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Stap 1: Maak een exemplaar van de parserklasse

Begin met het maken van een exemplaar van deParser class door het pad naar uw voorbeeldbestand op te geven.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Code komt hier terecht
}

Stap 2: Controleer of geformatteerde tekstextractie wordt ondersteund

Voordat u doorgaat met tekstextractie, controleert u of het document geformatteerde tekstextractie ondersteunt.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Stap 3: Documentinformatie ophalen

Haal informatie op over het document, zoals het aantal pagina’s.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Stap 4: Herhaal de documentpagina’s en extraheer de opgemaakte tekst

Blader door elke pagina van het document en extraheer opgemaakte tekst met behulp van de opgegeven opties (bijvoorbeeld Markdown-indeling).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusie

Nu weet u hoe u opgemaakte tekst uit documentpagina’s kunt extraheren met GroupDocs.Parser voor .NET. Deze bibliotheek biedt een krachtige en gebruiksvriendelijke oplossing voor tekstextractie uit verschillende bestandsformaten.

Veelgestelde vragen

Kan GroupDocs.Parser verschillende bestandsformaten verwerken?

Ja, GroupDocs.Parser ondersteunt een breed scala aan documentformaten, waaronder PDF, DOCX, XLSX, PPTX en meer.

Is GroupDocs.Parser compatibel met .NET Core?

Ja, GroupDocs.Parser ondersteunt .NET Core en .NET Framework.

Behoudt GroupDocs.Parser de tekstopmaak tijdens het uitpakken?

Ja, GroupDocs.Parser kan opmaak zoals stijlen en lettertypen behouden bij het extraheren van tekst.

Kan ik afbeeldingen en metagegevens extraheren met GroupDocs.Parser?

Ja, GroupDocs.Parser maakt het extraheren van afbeeldingen, metagegevens en tekst uit documenten mogelijk.

Hoe kan ik ondersteuning krijgen voor GroupDocs.Parser?

U kunt ondersteuning krijgen van deGroupDocs.Parser-forum.

Opgemaakte tekst uit document extraheren HTML-inhoud extraheren