Szöveg felismerése téglalap alakú területeken

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan használható a GroupDocs.Parser for .NET a dokumentumok meghatározott téglalap alakú régióiban lévő szövegek felismerésére. A GroupDocs.Parser egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy szöveget, metaadatokat és egyebeket kinyerjenek különféle fájlformátumokból, beleértve a PDF, Word, Excel és PowerPoint fájlokat.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy az alábbiakat beállította:

  • GroupDocs.Parser for .NET: Töltse le és telepítse a könyvtárat innenitt.
  • Fejlesztői környezet: Visual Studio vagy bármely más .NET IDE.
  • Mintadokumentum: rendelkezzen egy mintafájllal (pl. PDF, DOCX), amely a felismerendő szöveget tartalmazza.

Névterek importálása

Először is importálnia kell a szükséges névtereket a C# kódjába:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1. lépés: Inicializálja az elemző beállításait

Kezdje a beállításávalParserSettings az OCR csatlakozóval. Itt az Aspose OCR helyszíni csatlakozóját fogjuk használni:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

2. lépés: Hozzon létre elemzőpéldányt

Ezután példányosítsa aParser osztály a korábban meghatározott beállításokkal:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // A kód itt folytatódik
}

Cserélje ki"YourSampleFile.pdf" a dokumentum elérési útjával.

3. lépés: Határozza meg az OCR-téglalapot

Határozzon meg egy téglalapot a dokumentumon belül, ahol a szövegfelismerés végrehajtásra kerül. Például egy téglalap, amelynek kezdőpontja(0, 0) szélességgel400 és magasság200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

4. lépés: Konfigurálja a szövegfelismerési beállításokat

TeremtTextOptions az OCR használatának megadásához a meghatározott téglalappal együtt:

TextOptions options = new TextOptions(false, true, ocrOptions);

5. lépés: Szöveg kibontása az OCR segítségével

Használja aGetText módszere aParser példány a konfigurálttalTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Olvassa el a kivont szöveget, vagy kezelje a „nem támogatott” kis- és nagybetűket
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Következtetés

Ebben az oktatóanyagban bemutattuk, hogyan lehet kihasználni a GroupDocs.Parser for .NET-et a dokumentumok meghatározott téglalap alakú régióiból történő szöveg kivonásához az OCR használatával. Ez a folyamat tovább testreszabható és integrálható különféle alkalmazásokba az automatizált szövegkivonási feladatokhoz.

GYIK

A GroupDocs.Parser ki tudja bontani a szöveget a beolvasott dokumentumokból?

Igen, a GroupDocs.Parser támogatja az OCR (optikai karakterfelismerés) funkciót a beolvasott dokumentumok szövegének kinyeréséhez.

Milyen fájlformátumokat támogat a GroupDocs.Parser?

A GroupDocs.Parser a fájlformátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX stb. fájlokat.

Hogyan kezelhetem azokat a dokumentumokat, amelyek nem támogatottak a szövegkivonásban?

Ellenőrizheti, hogy a szövegkivonás támogatott-e a használatávalTextReader által visszaadott példányparser.GetText(options).

Alkalmas-e a GroupDocs.Parser nagyszabású szövegkinyerési feladatokra?

Igen, a GroupDocs.Parser célja a nagyszabású szövegkivonási feladatok hatékony kezelése.

Hol kaphatok támogatást a GroupDocs.Parserrel kapcsolatos problémákhoz?

Támogatásért és megbeszélésekért keresse fel aGroupDocs.Parser fórum.