Känna igen text i rektangulära områden

Introduktion

I den här handledningen kommer vi att utforska hur du använder GroupDocs.Parser för .NET för att känna igen text inom specifika rektangulära områden i dokument. GroupDocs.Parser är ett kraftfullt bibliotek som låter utvecklare extrahera text, metadata och mer från olika filformat, inklusive PDF, Word, Excel och PowerPoint.

Förutsättningar

Innan vi börjar, se till att du har följande inställning:

  • GroupDocs.Parser för .NET: Ladda ner och installera biblioteket frånhär.
  • Utvecklingsmiljö: Visual Studio eller någon annan .NET IDE.
  • Exempeldokument: Ha en exempelfil (t.ex. PDF, DOCX) som innehåller text som ska kännas igen.

Importera namnområden

Först måste du importera de nödvändiga namnrymden till din C#-kod:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Steg 1: Initiera parserinställningar

Börja med att ställa inParserSettings med OCR-kontakten. Här kommer vi att använda Aspose OCR-kontakten på plats:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Steg 2: Skapa Parser-instans

Nästa, instansieraParser klass med de tidigare definierade inställningarna:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Koden fortsätter här
}

Byta ut"YourSampleFile.pdf" med sökvägen till ditt dokument.

Steg 3: Definiera OCR-rektangel

Definiera en rektangel i dokumentet där textigenkänning ska utföras. Till exempel en rektangel som börjar kl(0, 0) med bredd400 och höjd200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

Steg 4: Konfigurera alternativ för textigenkänning

SkapaTextOptions för att ange OCR-användning tillsammans med den definierade rektangeln:

TextOptions options = new TextOptions(false, true, ocrOptions);

Steg 5: Extrahera text med OCR

AnvändGetText metod förParser instans med den konfigureradeTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Läs utdragen text eller hantera skiftlägen som inte stöds
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Slutsats

den här självstudien har vi demonstrerat hur man använder GroupDocs.Parser för .NET för att extrahera text från specifika rektangulära områden i dokument med OCR. Denna process kan ytterligare anpassas och integreras i olika applikationer för automatiska textextraktionsuppgifter.

FAQ’s

Kan GroupDocs.Parser extrahera text från skannade dokument?

Ja, GroupDocs.Parser stöder OCR (Optical Character Recognition) för att extrahera text från skannade dokument.

Vilka filformat stöder GroupDocs.Parser?

GroupDocs.Parser stöder ett brett utbud av filformat, inklusive PDF, DOCX, XLSX, PPTX och mer.

Hur kan jag hantera dokument som inte stöds för textextraktion?

Du kan kontrollera om textextraktion stöds medTextReader instans returnerad avparser.GetText(options).

Är GroupDocs.Parser lämplig för storskaliga textextraktionsuppgifter?

Ja, GroupDocs.Parser är utformad för att hantera storskaliga textextraktionsuppgifter effektivt.

Var kan jag få support för GroupDocs.Parser-relaterade problem?

För support och diskussioner, besökGroupDocs.Parser-forum.