Herkennen van tekst in rechthoekige gebieden
Invoering
In deze zelfstudie onderzoeken we hoe u GroupDocs.Parser voor .NET kunt gebruiken om tekst in specifieke rechthoekige gebieden van documenten te herkennen. GroupDocs.Parser is een krachtige bibliotheek waarmee ontwikkelaars tekst, metagegevens en meer kunnen extraheren uit verschillende bestandsindelingen, waaronder PDF, Word, Excel en PowerPoint.
Vereisten
Voordat we beginnen, zorg ervoor dat u het volgende hebt ingesteld:
- GroupDocs.Parser voor .NET: Download en installeer de bibliotheek vanhier.
- Ontwikkelomgeving: Visual Studio of een andere .NET IDE.
- Voorbeelddocument: Zorg voor een voorbeeldbestand (bijvoorbeeld PDF, DOCX) dat tekst bevat die moet worden herkend.
Naamruimten importeren
Eerst moet u de benodigde naamruimten in uw C#-code importeren:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Stap 1: Initialiseer de parserinstellingen
Begin met het instellen van deParserSettings
met de OCR-connector. Hier gebruiken we de Aspose OCR on-premise connector:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Stap 2: Parser-instantie maken
Instantieer vervolgens deParser
klasse met de eerder gedefinieerde instellingen:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Code gaat hier verder
}
Vervangen"YourSampleFile.pdf"
met het pad naar uw document.
Stap 3: Definieer de OCR-rechthoek
Definieer een rechthoek binnen het document waar tekstherkenning zal worden uitgevoerd. Bijvoorbeeld een rechthoek die begint bij(0, 0)
met breedte400
en hoogte200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
Stap 4: Configureer opties voor tekstherkenning
CreërenTextOptions
om het OCR-gebruik samen met de gedefinieerde rechthoek op te geven:
TextOptions options = new TextOptions(false, true, ocrOptions);
Stap 5: Tekst extraheren met OCR
Gebruik deGetText
werkwijze van deParser
exemplaar met de geconfigureerdeTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Lees de geëxtraheerde tekst of handel 'niet ondersteund' geval af
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Conclusie
In deze zelfstudie hebben we gedemonstreerd hoe u GroupDocs.Parser voor .NET kunt gebruiken om tekst uit specifieke rechthoekige gebieden in documenten te extraheren met behulp van OCR. Dit proces kan verder worden aangepast en geïntegreerd in verschillende toepassingen voor geautomatiseerde tekstextractietaken.
Veelgestelde vragen
Kan GroupDocs.Parser tekst extraheren uit gescande documenten?
Ja, GroupDocs.Parser ondersteunt OCR (Optical Character Recognition) voor het extraheren van tekst uit gescande documenten.
Welke bestandsformaten ondersteunt GroupDocs.Parser?
GroupDocs.Parser ondersteunt een breed scala aan bestandsindelingen, waaronder PDF, DOCX, XLSX, PPTX en meer.
Hoe kan ik omgaan met documenten die niet worden ondersteund voor tekstextractie?
U kunt controleren of tekstextractie wordt ondersteund met behulp vanTextReader
exemplaar geretourneerd doorparser.GetText(options)
.
Is GroupDocs.Parser geschikt voor grootschalige tekstextractietaken?
Ja, GroupDocs.Parser is ontworpen om grootschalige tekstextractietaken efficiënt af te handelen.
Waar kan ik ondersteuning krijgen voor problemen met GroupDocs.Parser?
Voor ondersteuning en discussies kunt u terecht op deGroupDocs.Parser-forum.