Extraheer tekst van pagina in Raw-modus

Invoering

In deze zelfstudie leert u hoe u Groupdocs.Parser voor .NET kunt gebruiken om tekst uit documentpagina’s te extraheren in de onbewerkte modus. Deze bibliotheek biedt efficiënte tools voor het parseren en extraheren van inhoud uit verschillende bestandsformaten, waardoor ontwikkelaars de extractie van documenttekst kunnen opnemen in hun .NET-toepassingen.

Vereisten

Voordat u begint, moet u ervoor zorgen dat u aan de volgende vereisten voldoet:

  • Basiskennis van programmeren in C# en .NET
  • Visual Studio is op uw computer geïnstalleerd
  • Toegang tot Groupdocs.Parser voor .NET-bibliotheek
  • Voorbeelddocumentbestand voor testen

Naamruimten importeren

Begin met het opnemen van de benodigde naamruimten in uw C#-project:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Stap 1: Initialiseer Parser

Maak eerst een exemplaar van deParser klasse door het pad naar uw voorbeelddocumentbestand op te geven.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Jouw code hier
}

Stap 2: Documentinformatie ophalen

Haal informatie over het document op met behulp vanGetDocumentInfo() methode.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Stap 3: Herhaal pagina’s en extraheer tekst

Blader door elke pagina van het document en extraheer de tekstinhoud.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Extraheer tekst van de pagina
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusie

U hebt nu geleerd hoe u Groupdocs.Parser voor .NET kunt gebruiken om tekst uit documentpagina’s te extraheren in de onbewerkte modus. Dit kan een krachtige functie zijn voor toepassingen die tekstinhoud uit verschillende bestandsformaten moeten analyseren of verwerken.

Veelgestelde vragen

Is Groupdocs.Parser voor .NET compatibel met alle bestandsformaten?

Groupdocs.Parser ondersteunt een breed scala aan bestandsindelingen, waaronder PDF, DOCX, XLSX, PPTX, EPUB en meer.

Kan ik metagegevens samen met tekst extraheren met behulp van deze bibliotheek?

Ja, met Groupdocs.Parser kunt u zowel tekst als metagegevens uit documenten extraheren.

Is er een proefversie beschikbaar om te testen?

Ja, u kunt een gratis proefversie downloaden vanhier.

Hoe kan ik technische ondersteuning krijgen voor Groupdocs.Parser?

Voor technische ondersteuning kunt u terecht op deGroupdocs.Parser-forum.

Waar kan ik een licentie kopen voor Groupdocs.Parser voor .NET?

U kunt een licentie kopenhier.