Szöveg kinyerése az oldal meghatározott területeiről

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan lehet szöveget kivonni egy oldal meghatározott területeiről a GroupDocs.Parser for .NET könyvtár használatával. A GroupDocs.Parser leegyszerűsíti a szövegek kinyerését a dokumentumokból, lehetővé téve a fejlesztők számára, hogy megcélozzák a dokumentumon belül az érdeklődésre számot tartó területeket a szöveg kinyerése céljából. Ez különösen hasznos lehet összetett dokumentumok kezelésekor, ahol a további feldolgozáshoz vagy elemzéshez pontos szövegkivonat szükséges.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik az alábbiakkal:

  • Visual Studio telepítve van a gépedre.
  • A C# programozás alapjai.
  • GroupDocs.Parser for .NET könyvtár telepítve. Letöltheti innenitt.
  • Mintadokumentumfájlok a szövegkivonás teszteléséhez.

Névterek importálása

Először foglalja bele a szükséges névtereket a C# kódfájlba a GroupDocs.Parser funkcióinak eléréséhez:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1. lépés: Példányosítsa az elemző osztályt

Szöveg kinyerésének megkezdéséhez hozzon létre egy példányt a dokumentumbólParserosztályban, megadva a mintadokumentumfájl elérési útját:

// Hozzon létre egy példányt az Parser osztályból
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Folytassa a szövegkivonattal...
}

Cserélje ki"YourSampleFile.docx" a tényleges dokumentumfájl elérési útjával.

2. lépés: Ellenőrizze a szövegterületek kivonatolási támogatását

Mielőtt folytatná a szövegkivonást, ellenőrizze, hogy a dokumentum támogatja-e a szövegterületek kibontását aFeatures tulajdona aParser osztály:

// Ellenőrizze, hogy a dokumentum támogatja-e a szövegterületek kibontását
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

Ez a lépés biztosítja, hogy a dokumentum feldolgozható legyen a szövegterületek kibontásához.

3. lépés: Dokumentuminformációk lekérése

A dokumentummal kapcsolatos alapvető információk lekérése aGetDocumentInfo() módszer:

// Szerezze meg a dokumentum adatait
IDocumentInfo documentInfo = parser.GetDocumentInfo();

Ez az információ tartalmazza az oldalak számát és a dokumentum egyéb metaadatait.

4. lépés: Ismételje meg a dokumentumoldalakat

Iteráljon végig a dokumentum minden oldalán, hogy szöveget vonjon ki meghatározott területekről:

// Ellenőrizze, hogy a dokumentumban vannak-e oldalak
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// Iteráljon oldalakon keresztül
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // Aktuális oldalszám nyomtatása
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Folytassa a szöveg kinyerését a területekről...
}

Ez a ciklus a dokumentum minden oldalát szekvenciálisan dolgozza fel.

5. lépés: Szöveg kibontása meghatározott területekről

Az oldaliterációs cikluson belül a használatával kérjen le szöveget adott érdeklődési területrőlGetTextAreas() módszer:

// Iteráljon az oldal szövegterületein
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // Téglalap koordináták és szövegterület értékének nyomtatása
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

Ez a lépés kivonja a szöveget az oldal minden meghatározott területéről (például határoló téglalapokból), és megjeleníti a kivont szöveget.

Következtetés

Ebben az oktatóanyagban megtanultuk, hogyan lehet szöveget kivonni egy oldal meghatározott területeiről a GroupDocs.Parser for .NET segítségével. A könyvtár képességeit kihasználva a fejlesztők pontosan lekérhetik a szöveget a célzott régiókból a dokumentumokon belül különböző alkalmazásokhoz.

GYIK

Kivonhatok szöveget a beolvasott képekből a GroupDocs.Parser for .NET segítségével?

Igen, a GroupDocs.Parser támogatja a szövegek kinyerését a beolvasott képekből az OCR (Optical Character Recognition) képességeken keresztül.

A GroupDocs.Parser kompatibilis a különböző dokumentumformátumokkal?

Igen, a GroupDocs.Parser a dokumentumformátumok széles skáláját támogatja, beleértve a PDF-et, a Microsoft Office dokumentumokat és egyebeket.

Hogyan kezelhetem a beágyazott elemekkel rendelkező összetett dokumentumszerkezeteket?

GroupDocs.Parser olyan funkciókat biztosít, amelyek segítségével navigálhat összetett dokumentumstruktúrákban, és meghatározott kritériumok alapján szelektíven kivonhatja a szöveget.

GroupDocs.Parser megőrzi a formázást a szövegkivonás során?

A GroupDocs.Parser a nyers szöveges tartalom kinyerésére összpontosít; szükség szerint azonban további formázási logikát is integrálhat az alkalmazásba.

Használható a GroupDocs.Parser dokumentumok kötegelt feldolgozására?

Igen, a GroupDocs.Parser integrálható a kötegelt feldolgozási munkafolyamatokba, hogy több dokumentumot hatékonyan kezelhessen.