Szöveg kinyerése az oldal meghatározott területeiről
Bevezetés
Ebben az oktatóanyagban megvizsgáljuk, hogyan lehet szöveget kivonni egy oldal meghatározott területeiről a GroupDocs.Parser for .NET könyvtár használatával. A GroupDocs.Parser leegyszerűsíti a szövegek kinyerését a dokumentumokból, lehetővé téve a fejlesztők számára, hogy megcélozzák a dokumentumon belül az érdeklődésre számot tartó területeket a szöveg kinyerése céljából. Ez különösen hasznos lehet összetett dokumentumok kezelésekor, ahol a további feldolgozáshoz vagy elemzéshez pontos szövegkivonat szükséges.
Előfeltételek
Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik az alábbiakkal:
- Visual Studio telepítve van a gépedre.
- A C# programozás alapjai.
- GroupDocs.Parser for .NET könyvtár telepítve. Letöltheti innenitt.
- Mintadokumentumfájlok a szövegkivonás teszteléséhez.
Névterek importálása
Először foglalja bele a szükséges névtereket a C# kódfájlba a GroupDocs.Parser funkcióinak eléréséhez:
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
1. lépés: Példányosítsa az elemző osztályt
Szöveg kinyerésének megkezdéséhez hozzon létre egy példányt a dokumentumbólParser
osztályban, megadva a mintadokumentumfájl elérési útját:
// Hozzon létre egy példányt az Parser osztályból
using (Parser parser = new Parser("YourSampleFile.docx"))
{
// Folytassa a szövegkivonattal...
}
Cserélje ki"YourSampleFile.docx"
a tényleges dokumentumfájl elérési útjával.
2. lépés: Ellenőrizze a szövegterületek kivonatolási támogatását
Mielőtt folytatná a szövegkivonást, ellenőrizze, hogy a dokumentum támogatja-e a szövegterületek kibontását aFeatures
tulajdona aParser
osztály:
// Ellenőrizze, hogy a dokumentum támogatja-e a szövegterületek kibontását
if (!parser.Features.TextAreas)
{
Console.WriteLine("Document doesn't support text areas extraction.");
return;
}
Ez a lépés biztosítja, hogy a dokumentum feldolgozható legyen a szövegterületek kibontásához.
3. lépés: Dokumentuminformációk lekérése
A dokumentummal kapcsolatos alapvető információk lekérése aGetDocumentInfo()
módszer:
// Szerezze meg a dokumentum adatait
IDocumentInfo documentInfo = parser.GetDocumentInfo();
Ez az információ tartalmazza az oldalak számát és a dokumentum egyéb metaadatait.
4. lépés: Ismételje meg a dokumentumoldalakat
Iteráljon végig a dokumentum minden oldalán, hogy szöveget vonjon ki meghatározott területekről:
// Ellenőrizze, hogy a dokumentumban vannak-e oldalak
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document doesn't have any pages.");
return;
}
// Iteráljon oldalakon keresztül
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
// Aktuális oldalszám nyomtatása
Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
// Folytassa a szöveg kinyerését a területekről...
}
Ez a ciklus a dokumentum minden oldalát szekvenciálisan dolgozza fel.
5. lépés: Szöveg kibontása meghatározott területekről
Az oldaliterációs cikluson belül a használatával kérjen le szöveget adott érdeklődési területrőlGetTextAreas()
módszer:
// Iteráljon az oldal szövegterületein
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
// Téglalap koordináták és szövegterület értékének nyomtatása
Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}
Ez a lépés kivonja a szöveget az oldal minden meghatározott területéről (például határoló téglalapokból), és megjeleníti a kivont szöveget.
Következtetés
Ebben az oktatóanyagban megtanultuk, hogyan lehet szöveget kivonni egy oldal meghatározott területeiről a GroupDocs.Parser for .NET segítségével. A könyvtár képességeit kihasználva a fejlesztők pontosan lekérhetik a szöveget a célzott régiókból a dokumentumokon belül különböző alkalmazásokhoz.
GYIK
Kivonhatok szöveget a beolvasott képekből a GroupDocs.Parser for .NET segítségével?
Igen, a GroupDocs.Parser támogatja a szövegek kinyerését a beolvasott képekből az OCR (Optical Character Recognition) képességeken keresztül.
A GroupDocs.Parser kompatibilis a különböző dokumentumformátumokkal?
Igen, a GroupDocs.Parser a dokumentumformátumok széles skáláját támogatja, beleértve a PDF-et, a Microsoft Office dokumentumokat és egyebeket.
Hogyan kezelhetem a beágyazott elemekkel rendelkező összetett dokumentumszerkezeteket?
GroupDocs.Parser olyan funkciókat biztosít, amelyek segítségével navigálhat összetett dokumentumstruktúrákban, és meghatározott kritériumok alapján szelektíven kivonhatja a szöveget.
GroupDocs.Parser megőrzi a formázást a szövegkivonás során?
A GroupDocs.Parser a nyers szöveges tartalom kinyerésére összpontosít; szükség szerint azonban további formázási logikát is integrálhat az alkalmazásba.
Használható a GroupDocs.Parser dokumentumok kötegelt feldolgozására?
Igen, a GroupDocs.Parser integrálható a kötegelt feldolgozási munkafolyamatokba, hogy több dokumentumot hatékonyan kezelhessen.