Extraheer tekst van pagina in PDF in Raw-modus

Invoering

In deze zelfstudie onderzoeken we hoe u GroupDocs.Parser voor .NET kunt gebruiken om tekst uit pagina’s in PDF-documenten te extraheren in de onbewerkte modus. GroupDocs.Parser is een krachtige tool waarmee ontwikkelaars programmatisch met verschillende documentformaten kunnen werken.

Vereisten

Voordat u met deze zelfstudie begint, moet u ervoor zorgen dat u over het volgende beschikt:

Visual Studio is op uw computer geïnstalleerd.
Basiskennis van programmeren in C#.
GroupDocs.Parser voor .NET-bibliotheek, wat u kuntdownload hier.
Een voorbeeld-PDF-bestand voor testdoeleinden.

Naamruimten importeren

Zorg er eerst voor dat u de benodigde naamruimten in uw C#-project importeert:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Stap 1: Maak een exemplaar van de parserklasse

Instantieer om te beginnen deParserklasse door het pad naar uw voorbeeld-PDF-bestand op te geven.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Je code komt hier
}

Stap 2: Documentinformatie ophalen en pagina’s herhalen

Haal vervolgens de documentinformatie op en herhaal elke pagina om tekst te extraheren.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Uw code voor tekstextractie komt hier terecht
}

Stap 3: Extraheer tekst van elke pagina

Gebruik binnen de lus deGetText methode om tekst van elke pagina te extraheren en af te drukken.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Conclusie

In deze zelfstudie hebben we geleerd hoe u tekst uit PDF-pagina’s kunt extraheren in de onbewerkte modus met behulp van GroupDocs.Parser voor .NET. Dit proces omvat het maken van eenParser bijvoorbeeld het verkrijgen van documentinformatie, het doorlopen van elke pagina en het extraheren van tekst met behulp van deGetText methode.

Veelgestelde vragen

Wat is GroupDocs.Parser voor .NET?

GroupDocs.Parser voor .NET is een API voor het parseren van documenten waarmee ontwikkelaars programmatisch tekst, metagegevens en andere informatie uit verschillende bestandsindelingen kunnen extraheren.

Hoe download ik GroupDocs.Parser voor .NET?

U kunt de bibliotheek downloaden via deGroupDocs-website.

Is er een gratis proefversie beschikbaar?

Ja, u heeft toegang tot een gratis proefversie van GroupDocs.Parser voor .NET vanafhier.

Waar kan ik ondersteuning vinden voor GroupDocs.Parser voor .NET?

Voor technische hulp en gemeenschapsondersteuning gaat u naar deGroupDocs-forum.

Hoe kan ik een licentie kopen voor GroupDocs.Parser voor .NET?

U kunt een licentie aanschaffen bij deaankooppagina of een tijdelijke licentie aanschaffenhier.

Extraheer tekst van een specifieke pagina in PDF Parseer gegevens uit PDF-documenten