Szöveg kinyerése adott területekről opciókkal
Bevezetés
Ebben az oktatóanyagban megvizsgáljuk, hogyan használhatja a GroupDocs.Parser for .NET-et a dokumentum adott területeinek szövegének kinyerésére testreszabható beállításokkal. A GroupDocs.Parser egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy könnyedén elemezzenek és bontsanak ki szöveget különböző dokumentumformátumokból.
Előfeltételek
Mielőtt belemerülnénk a kódolásba, győződjön meg arról, hogy rendelkezik a következőkkel:
- Fejlesztői környezet: Telepítse a Visual Studio-t vagy bármely más .NET fejlesztői IDE-t.
- GroupDocs.Parser Library: Töltse le és telepítse a GroupDocs.Parser for .NET alkalmazást innenitt.
- Mintafájl: Készítsen egy mintadokumentumot (pl. PDF, DOCX stb.) a szöveg kivonásához.
Névterek importálása
Először is importálnia kell a szükséges névtereket a GroupDocs.Parser osztályok és metódusok eléréséhez.
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
1. lépés: Hozzon létre egy példányt az elemző osztályból
Inicializálja aParser
osztályba, megadva a mintafájl elérési útját.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// A szövegterület-kivonat kódja ide kerül
}
2. lépés: Adja meg a szövegterület kivonatolási beállításait
TeremtPageTextAreaOptions
a szövegkivonás kritériumainak megadásához.
PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));
Ebben a példában:
"\\s[a-z]{2}\\s"
egy reguláris kifejezés minta, amely csak kisbetűket tartalmazó szövegterületekhez illeszkedik.new Rectangle(new Point(0, 0), new Size(300, 100))
meghatározza azt a téglalapot (pozíció és méret) az oldalon, amelyből a szöveget ki kell bontani.
3. lépés: Szövegterületek kibontása
Használja a megadott beállításokat a megadott feltételeknek megfelelő szövegterületek kibontásához.
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
4. lépés: Ellenőrizze és ismételje meg a kivont szövegterületeket
Ellenőrizze, hogy a szövegterület-kivonás támogatott-e, majd ismételje meg a kibontott területeket.
if (areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
foreach (PageTextArea a in areas)
{
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
Következtetés
Ebben az oktatóanyagban bemutattuk, hogyan lehet szöveget kivonni egy dokumentum bizonyos területeiről a GroupDocs.Parser for .NET segítségével. Ez a könyvtár széleskörű lehetőségeket kínál különféle dokumentumformátumok elemzéséhez, így értékes eszköz a szövegkivonási feladatokhoz.
GYIK
A GroupDocs.Parser ki tudja bontani a szöveget a beolvasott dokumentumokból?
Igen, a GroupDocs.Parser támogatja az OCR-alapú szövegkivonást a beolvasott dokumentumokhoz.
A GroupDocs.Parser kompatibilis több dokumentumformátummal?
Igen, képes elemezni és kivonatolni a szöveget PDF, DOCX, XLSX, PPTX és más népszerű formátumokból.
A GroupDocs.Parser támogatja a .NET Core-t?
Igen, a GroupDocs.Parser kompatibilis a .NET Core-val és a .NET-keretrendszerrel.
Kivonhatom a metaadatokat a szöveggel együtt a GroupDocs.Parser segítségével?
Igen, a dokumentumokból szöveges tartalmat és metaadatokat is kinyerhet.
Elérhető a GroupDocs.Parser próbaverziója?
Igen, ingyenes próbaverziót kaphat a webhelyenitt.