Szöveg kibontása az oldalról PDF-ben nyers módban
Bevezetés
Ebben az oktatóanyagban megvizsgáljuk, hogyan használhatja a GroupDocs.Parser for .NET-et a PDF-dokumentumok oldalaiból nyers módban történő szöveg kinyerésére. A GroupDocs.Parser egy hatékony eszköz, amely lehetővé teszi a fejlesztők számára, hogy programozottan dolgozzanak különféle dokumentumformátumokkal.
Előfeltételek
Mielőtt elkezdené ezt az oktatóanyagot, győződjön meg arról, hogy rendelkezik az alábbiakkal:
- Visual Studio telepítve van a gépedre.
- C# programozási alapismeretek.
- GroupDocs.Parser for .NET könyvtár, amelyet megtehettöltse le itt.
- Egy minta PDF-fájl tesztelési célokra.
Névterek importálása
Először is importálja a szükséges névtereket a C# projektbe:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
1. lépés: Hozzon létre egy példányt az elemző osztályból
Kezdésként példányosítsa aParser
osztályban, megadva a minta PDF-fájl elérési útját.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// A kódod ide kerül
}
2. lépés: Szerezze be a dokumentumadatokat, és ismételje meg az oldalakat
Ezután kérje le a dokumentum információit, és ismételje meg az egyes oldalakat a szöveg kibontásához.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// A szövegkivonat kódja ide kerül
}
3. lépés: Szöveg kibontása minden oldalról
A cikluson belül használja aGetText
módszert, amellyel minden oldalról kinyerhet szöveget és kinyomtathatja azokat.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Következtetés
Ebben az oktatóanyagban megtanultuk, hogyan lehet szöveget kivonni PDF-oldalakból nyers módban a GroupDocs.Parser for .NET használatával. Ez a folyamat magában foglalja aParser
például a dokumentum információinak beszerzése, az egyes oldalak iterációja és a szöveg kibontása aGetText
módszer.
GYIK
Mi az a GroupDocs.Parser for .NET?
GroupDocs.Parser for .NET egy dokumentumelemző API, amely lehetővé teszi a fejlesztők számára, hogy programozottan kinyerjenek szöveget, metaadatokat és egyéb információkat különböző fájlformátumokból.
Hogyan tölthetem le a GroupDocs.Parser for .NET-et?
A könyvtár letölthető aGroupDocs webhely.
Van ingyenes próbaverzió?
Igen, elérheti a GroupDocs.Parser for .NET ingyenes próbaverzióját innenitt.
Hol találok támogatást a GroupDocs.Parser for .NET számára?
Technikai segítségért és közösségi támogatásért látogassa meg aGroupDocs fórum.
Hogyan vásárolhatok licencet a GroupDocs.Parser for .NET számára?
Engedélyt vásárolhat avásárlási oldal vagy ideiglenes engedélyt szerezniitt.