Tekst herkennen in specifieke gebieden

Invoering

In deze zelfstudie onderzoeken we hoe u GroupDocs.Parser voor .NET kunt gebruiken om tekst uit specifieke gebieden in een document te herkennen en te extraheren. GroupDocs.Parser is een krachtige bibliotheek voor het parseren van documenten waarmee ontwikkelaars met verschillende documentformaten kunnen werken, waaronder PDF, Word, Excel, PowerPoint en meer. We zullen ons specifiek concentreren op het benutten van de OCR-mogelijkheden (Optical Character Recognition) van GroupDocs.Parser om tekst uit gedefinieerde gebieden in een document te extraheren.

Vereisten

Voordat we beginnen, zorg ervoor dat u aan de volgende vereisten voldoet:

  1. Visual Studio IDE: Zorg ervoor dat Visual Studio op uw computer is geïnstalleerd.
  2. GroupDocs.Parser voor .NET: Download en installeer GroupDocs.Parser voor .NET vanaf dedownload link.
  3. Documentvoorbeelden: bereid voorbeeldbestanden voor (bijvoorbeeld PDF, DOCX) waaruit u tekst wilt extraheren.

Naamruimten importeren

Importeer om te beginnen de benodigde naamruimten in uw project:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Laten we het proces opsplitsen in gedetailleerde stappen met behulp van GroupDocs.Parser voor .NET:

Stap 1: Maak parserinstellingen met OCR Connector

Maak eerst een exemplaar vanParserSettingsclass en initialiseer deze met een OCR-connector, zoalsAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Stap 2: Parser instantiëren met instellingen

Maak vervolgens een exemplaar vanParser klasse door de eerder gemaakte te passerenParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Codefragment gaat verder...
}

Vervangen"YourSampleFile.pdf" met het pad naar uw doeldocument.

Stap 3: Configureer opties voor tekstgebiedextractie

Maak een exemplaar vanPageTextAreaOptions om op OCR gebaseerde tekstextractie in te schakelen:

PageTextAreaOptions options = new PageTextAreaOptions(true);

Settrue om OCR in te schakelen voor betere tekstherkenning.

Stap 4: Tekstgebieden extraheren

Aanroepenparser.GetTextAreas(options) om tekstgebieden uit het document te extraheren:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Stap 5: Verwerk geëxtraheerde tekstgebieden

Herhaal de geëxtraheerde tekstgebieden en haal informatie over tekst, positie en grootte op:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Conclusie

In deze zelfstudie hebben we het proces besproken van het extraheren van tekst uit specifieke gebieden binnen een document met behulp van GroupDocs.Parser voor .NET met OCR-mogelijkheden. Door deze stappen te volgen, kunt u effectief gebruik maken van de parseerfunctionaliteiten van GroupDocs.Parser om tekstextractietaken programmatisch af te handelen.

Veelgestelde vragen

Kan GroupDocs.Parser tekst extraheren uit gescande documenten?

Ja, GroupDocs.Parser ondersteunt OCR voor het extraheren van tekst uit gescande afbeeldingen in documenten.

Welke documentformaten worden ondersteund door GroupDocs.Parser?

GroupDocs.Parser ondersteunt een breed scala aan formaten, waaronder PDF, DOCX, XLSX, PPTX, TXT en meer.

Is GroupDocs.Parser geschikt voor batchverwerking van documenten?

Ja, GroupDocs.Parser kan batchverwerkingstaken voor het parseren en extraheren van documenten efficiënt afhandelen.

Kan ik de opties voor tekstextractie aanpassen met GroupDocs.Parser?

Ja, GroupDocs.Parser biedt verschillende opties om tekstextractie aan te passen op basis van specifieke vereisten.

Biedt GroupDocs.Parser ondersteuning voor het extraheren van metagegevens uit documenten?

Ja, GroupDocs.Parser maakt het extraheren van metagegevens zoals auteur, aanmaakdatum en meer mogelijk uit ondersteunde documentformaten.