Szöveg kibontása az oldalról nyers módban

Bevezetés

Ebből az oktatóanyagból megtudhatja, hogyan használhatja a Groupdocs.Parser for .NET-et a dokumentumoldalak szövegének nyers módban történő kinyerésére. Ez a könyvtár hatékony eszközöket biztosít a különböző fájlformátumok tartalmának elemzéséhez és kibontásához, lehetővé téve a fejlesztők számára, hogy beépítsék a dokumentumszöveg-kivonást .NET-alkalmazásaikba.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik a következő előfeltételekkel:

  • C# és .NET programozási alapismeretek
  • A Visual Studio telepítve van a gépedre
  • Hozzáférés a Groupdocs.Parser for .NET könyvtárhoz
  • Dokumentumfájl minta teszteléshez

Névterek importálása

Kezdje azzal, hogy belefoglalja a szükséges névtereket a C# projektbe:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1. lépés: Inicializálja az elemzőt

Először hozzon létre egy példányt aParser osztályba, megadva a mintadokumentumfájl elérési útját.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Itt a kódod
}

2. lépés: A dokumentumadatok lekérése

Információk lekérése a dokumentumról a segítségévelGetDocumentInfo() módszer.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

3. lépés: Ismételje meg az oldalakat és vonja ki a szöveget

Ismételje meg a dokumentum minden oldalát, és bontsa ki a szöveges tartalmat.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Szöveg kibontása az oldalról
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Következtetés

Most már megtanulta, hogyan kell használni a Groupdocs.Parser for .NET alkalmazást a dokumentumoldalak szövegének nyers módban történő kinyerésére. Ez egy hatékony funkció lehet olyan alkalmazások számára, amelyeknek különféle fájlformátumokból származó szöveges tartalmakat kell elemezniük vagy feldolgozniuk.

GYIK

A Groupdocs.Parser for .NET kompatibilis az összes fájlformátummal?

A Groupdocs.Parser a fájlformátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX, EPUB és egyebeket.

Kivonhatom a metaadatokat a szöveggel együtt ezzel a könyvtárral?

Igen, a Groupdocs.Parser lehetővé teszi a szöveg és a metaadatok kinyerését a dokumentumokból.

Létezik próbaverzió tesztelésre?

Igen, letölthet egy ingyenes próbaverziót a webhelyrőlitt.

Hogyan kaphatok technikai támogatást a Groupdocs.Parser számára?

Technikai segítségért keresse fel aGroupdocs.Parser fórum.

Hol vásárolhatok licencet a Groupdocs.Parser for .NET számára?

Vásárolhat licencetitt.