Szöveg kibontása az oldalról PDF-ben nyers módban

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan használhatja a GroupDocs.Parser for .NET-et a PDF-dokumentumok oldalaiból nyers módban történő szöveg kinyerésére. A GroupDocs.Parser egy hatékony eszköz, amely lehetővé teszi a fejlesztők számára, hogy programozottan dolgozzanak különféle dokumentumformátumokkal.

Előfeltételek

Mielőtt elkezdené ezt az oktatóanyagot, győződjön meg arról, hogy rendelkezik az alábbiakkal:

  • Visual Studio telepítve van a gépedre.
  • C# programozási alapismeretek.
  • GroupDocs.Parser for .NET könyvtár, amelyet megtehettöltse le itt.
  • Egy minta PDF-fájl tesztelési célokra.

Névterek importálása

Először is importálja a szükséges névtereket a C# projektbe:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1. lépés: Hozzon létre egy példányt az elemző osztályból

Kezdésként példányosítsa aParserosztályban, megadva a minta PDF-fájl elérési útját.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // A kódod ide kerül
}

2. lépés: Szerezze be a dokumentumadatokat, és ismételje meg az oldalakat

Ezután kérje le a dokumentum információit, és ismételje meg az egyes oldalakat a szöveg kibontásához.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // A szövegkivonat kódja ide kerül
}

3. lépés: Szöveg kibontása minden oldalról

A cikluson belül használja aGetText módszert, amellyel minden oldalról kinyerhet szöveget és kinyomtathatja azokat.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Következtetés

Ebben az oktatóanyagban megtanultuk, hogyan lehet szöveget kivonni PDF-oldalakból nyers módban a GroupDocs.Parser for .NET használatával. Ez a folyamat magában foglalja aParser például a dokumentum információinak beszerzése, az egyes oldalak iterációja és a szöveg kibontása aGetText módszer.

GYIK

Mi az a GroupDocs.Parser for .NET?

GroupDocs.Parser for .NET egy dokumentumelemző API, amely lehetővé teszi a fejlesztők számára, hogy programozottan kinyerjenek szöveget, metaadatokat és egyéb információkat különböző fájlformátumokból.

Hogyan tölthetem le a GroupDocs.Parser for .NET-et?

A könyvtár letölthető aGroupDocs webhely.

Van ingyenes próbaverzió?

Igen, elérheti a GroupDocs.Parser for .NET ingyenes próbaverzióját innenitt.

Hol találok támogatást a GroupDocs.Parser for .NET számára?

Technikai segítségért és közösségi támogatásért látogassa meg aGroupDocs fórum.

Hogyan vásárolhatok licencet a GroupDocs.Parser for .NET számára?

Engedélyt vásárolhat avásárlási oldal vagy ideiglenes engedélyt szerezniitt.