Extrahera text från sidan i PDF i råläge

Introduktion

I den här handledningen kommer vi att undersöka hur du använder GroupDocs.Parser för .NET för att extrahera text från sidor i PDF-dokument med råläge. GroupDocs.Parser är ett kraftfullt verktyg som gör det möjligt för utvecklare att arbeta med olika dokumentformat programmatiskt.

Förutsättningar

Innan du börjar den här handledningen, se till att du har följande:

  • Visual Studio installerat på din dator.
  • Grundläggande kunskaper i C#-programmering.
  • GroupDocs.Parser för .NET-bibliotek, vilket du kanladda ner här.
  • Ett exempel på PDF-fil för teständamål.

Importera namnområden

Se först till att importera de nödvändiga namnrymden i ditt C#-projekt:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Steg 1: Skapa en instans av Parser Class

Till att börja, instansieraParserklass genom att ange sökvägen till din exempel-PDF-fil.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Din kod kommer hit
}

Steg 2: Få dokumentinformation och iterera över sidor

Hämta sedan dokumentinformationen och iterera över varje sida för att extrahera text.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Din kod för textextraktion kommer här
}

Steg 3: Extrahera text från varje sida

Inom slingan använder duGetText metod för att extrahera text från varje sida och skriva ut den.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Slutsats

I den här handledningen har vi lärt oss hur man extraherar text från PDF-sidor i råläge med GroupDocs.Parser för .NET. Denna process innebär att skapa enParser t.ex. hämta dokumentinformation, iterera över varje sida och extrahera text med hjälp avGetText metod.

FAQ’s

Vad är GroupDocs.Parser för .NET?

GroupDocs.Parser för .NET är ett API för dokumenttolkning som tillåter utvecklare att extrahera text, metadata och annan information från olika filformat programmatiskt.

Hur laddar jag ner GroupDocs.Parser för .NET?

Du kan ladda ner biblioteket frånGroupDocs webbplats.

Finns det en gratis provperiod?

Ja, du kan få tillgång till en gratis provversion av GroupDocs.Parser för .NET frånhär.

Var kan jag hitta support för GroupDocs.Parser för .NET?

För teknisk assistans och gemenskapsstöd, besökGroupDocs forum.

Hur kan jag köpa en licens för GroupDocs.Parser för .NET?

Du kan köpa en licens frånköpsidan eller skaffa en tillfällig licenshär.