Känna igen text i specifika områden
Introduktion
I den här handledningen kommer vi att utforska hur man använder GroupDocs.Parser för .NET för att känna igen och extrahera text från specifika områden i ett dokument. GroupDocs.Parser är ett kraftfullt dokumentanalysbibliotek som låter utvecklare arbeta med olika dokumentformat, inklusive PDF, Word, Excel, PowerPoint och mer. Specifikt kommer vi att fokusera på att utnyttja OCR-funktionerna (Optical Character Recognition) i GroupDocs.Parser för att extrahera text från definierade områden i ett dokument.
Förutsättningar
Innan vi börjar, se till att du har ställt in följande förutsättningar:
- Visual Studio IDE: Se till att du har Visual Studio installerat på din maskin.
- GroupDocs.Parser for .NET: Ladda ner och installera GroupDocs.Parser for .NET frånnedladdningslänk.
- Dokumentexempel: Förbered exempelfiler (t.ex. PDF, DOCX) som du vill extrahera text från.
Importera namnområden
För att komma igång, importera de nödvändiga namnområdena till ditt projekt:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Låt oss dela upp processen i detaljerade steg med GroupDocs.Parser för .NET:
Steg 1: Skapa parserinställningar med OCR Connector
Skapa först en instans avParserSettings
klass och initialisera den med en OCR-kontakt, som t.exAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Steg 2: Instantiera Parser med inställningar
Skapa sedan en instans avParser
klass genom att passera den tidigare skapadeParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Kodavsnittet fortsätter...
}
Byta ut"YourSampleFile.pdf"
med sökvägen till ditt måldokument.
Steg 3: Konfigurera textområdesextraktionsalternativ
Skapa en instans avPageTextAreaOptions
för att aktivera OCR-baserad textextraktion:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Uppsättningtrue
för att aktivera OCR för bättre textigenkänning.
Steg 4: Extrahera textområden
Åberopaparser.GetTextAreas(options)
för att extrahera textområden från dokumentet:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Steg 5: Bearbeta extraherade textområden
Iterera över de extraherade textområdena och hämta information om text, position och storlek:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Slutsats
I den här handledningen har vi täckt processen att extrahera text från specifika områden i ett dokument med hjälp av GroupDocs.Parser för .NET med OCR-funktioner. Genom att följa dessa steg kan du effektivt utnyttja analysfunktionerna i GroupDocs.Parser för att hantera textextraktionsuppgifter programmatiskt.
FAQ’s
Kan GroupDocs.Parser extrahera text från skannade dokument?
Ja, GroupDocs.Parser stöder OCR för att extrahera text från skannade bilder i dokument.
Vilka dokumentformat stöds av GroupDocs.Parser?
GroupDocs.Parser stöder ett brett utbud av format, inklusive PDF, DOCX, XLSX, PPTX, TXT och mer.
Är GroupDocs.Parser lämplig för batchbehandling av dokument?
Ja, GroupDocs.Parser kan effektivt hantera batchbearbetningsuppgifter för dokumenttolkning och extrahering.
Kan jag anpassa textextraktionsalternativ med GroupDocs.Parser?
Ja, GroupDocs.Parser erbjuder olika alternativ för att anpassa textextraktion baserat på specifika krav.
Ger GroupDocs.Parser stöd för att extrahera metadata från dokument?
Ja, GroupDocs.Parser tillåter extrahering av metadata som författare, skapelsedatum och mer från dokumentformat som stöds.