Szöveg felismerése téglalap alakú területeken
Bevezetés
Ebben az oktatóanyagban megvizsgáljuk, hogyan használható a GroupDocs.Parser for .NET a dokumentumok meghatározott téglalap alakú régióiban lévő szövegek felismerésére. A GroupDocs.Parser egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy szöveget, metaadatokat és egyebeket kinyerjenek különféle fájlformátumokból, beleértve a PDF, Word, Excel és PowerPoint fájlokat.
Előfeltételek
Mielőtt elkezdené, győződjön meg arról, hogy az alábbiakat beállította:
- GroupDocs.Parser for .NET: Töltse le és telepítse a könyvtárat innenitt.
- Fejlesztői környezet: Visual Studio vagy bármely más .NET IDE.
- Mintadokumentum: rendelkezzen egy mintafájllal (pl. PDF, DOCX), amely a felismerendő szöveget tartalmazza.
Névterek importálása
Először is importálnia kell a szükséges névtereket a C# kódjába:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
1. lépés: Inicializálja az elemző beállításait
Kezdje a beállításávalParserSettings
az OCR csatlakozóval. Itt az Aspose OCR helyszíni csatlakozóját fogjuk használni:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
2. lépés: Hozzon létre elemzőpéldányt
Ezután példányosítsa aParser
osztály a korábban meghatározott beállításokkal:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// A kód itt folytatódik
}
Cserélje ki"YourSampleFile.pdf"
a dokumentum elérési útjával.
3. lépés: Határozza meg az OCR-téglalapot
Határozzon meg egy téglalapot a dokumentumon belül, ahol a szövegfelismerés végrehajtásra kerül. Például egy téglalap, amelynek kezdőpontja(0, 0)
szélességgel400
és magasság200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
4. lépés: Konfigurálja a szövegfelismerési beállításokat
TeremtTextOptions
az OCR használatának megadásához a meghatározott téglalappal együtt:
TextOptions options = new TextOptions(false, true, ocrOptions);
5. lépés: Szöveg kibontása az OCR segítségével
Használja aGetText
módszere aParser
példány a konfigurálttalTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Olvassa el a kivont szöveget, vagy kezelje a „nem támogatott” kis- és nagybetűket
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Következtetés
Ebben az oktatóanyagban bemutattuk, hogyan lehet kihasználni a GroupDocs.Parser for .NET-et a dokumentumok meghatározott téglalap alakú régióiból történő szöveg kivonásához az OCR használatával. Ez a folyamat tovább testreszabható és integrálható különféle alkalmazásokba az automatizált szövegkivonási feladatokhoz.
GYIK
A GroupDocs.Parser ki tudja bontani a szöveget a beolvasott dokumentumokból?
Igen, a GroupDocs.Parser támogatja az OCR (optikai karakterfelismerés) funkciót a beolvasott dokumentumok szövegének kinyeréséhez.
Milyen fájlformátumokat támogat a GroupDocs.Parser?
A GroupDocs.Parser a fájlformátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX stb. fájlokat.
Hogyan kezelhetem azokat a dokumentumokat, amelyek nem támogatottak a szövegkivonásban?
Ellenőrizheti, hogy a szövegkivonás támogatott-e a használatávalTextReader
által visszaadott példányparser.GetText(options)
.
Alkalmas-e a GroupDocs.Parser nagyszabású szövegkinyerési feladatokra?
Igen, a GroupDocs.Parser célja a nagyszabású szövegkivonási feladatok hatékony kezelése.
Hol kaphatok támogatást a GroupDocs.Parserrel kapcsolatos problémákhoz?
Támogatásért és megbeszélésekért keresse fel aGroupDocs.Parser fórum.