Reconocer texto en áreas específicas

Introducción

En este tutorial, exploraremos cómo usar GroupDocs.Parser para .NET para reconocer y extraer texto de áreas específicas dentro de un documento. GroupDocs.Parser es una poderosa biblioteca de análisis de documentos que permite a los desarrolladores trabajar con varios formatos de documentos, incluidos PDF, Word, Excel, PowerPoint y más. Específicamente, nos centraremos en aprovechar las capacidades de OCR (reconocimiento óptico de caracteres) de GroupDocs.Parser para extraer texto de áreas definidas dentro de un documento.

Requisitos previos

Antes de comenzar, asegúrese de tener configurados los siguientes requisitos previos:

  1. Visual Studio IDE: asegúrese de tener Visual Studio instalado en su máquina.
  2. GroupDocs.Parser para .NET: descargue e instale GroupDocs.Parser para .NET desdeenlace de descarga.
  3. Muestras de documentos: prepare archivos de muestra (p. ej., PDF, DOCX) de los que desea extraer el texto.

Importar espacios de nombres

Para comenzar, importe los espacios de nombres necesarios a su proyecto:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Dividamos el proceso en pasos detallados usando GroupDocs.Parser para .NET:

Paso 1: cree la configuración del analizador con el conector OCR

Primero, cree una instancia deParserSettingsclase e inicializarla con un conector OCR, comoAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Paso 2: crear una instancia del analizador con configuración

A continuación, cree una instancia deParser clase pasando el previamente creadoParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // El fragmento de código continúa...
}

Reemplazar"YourSampleFile.pdf" con la ruta al documento de destino.

Paso 3: configurar las opciones de extracción del área de texto

Crear una instancia dePageTextAreaOptions para habilitar la extracción de texto basada en OCR:

PageTextAreaOptions options = new PageTextAreaOptions(true);

Colocartrue para habilitar OCR para un mejor reconocimiento de texto.

Paso 4: extraer áreas de texto

Invocarparser.GetTextAreas(options) para extraer áreas de texto del documento:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Paso 5: Procesar áreas de texto extraídas

Itere sobre las áreas de texto extraídas y recupere información de texto, posición y tamaño:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Conclusión

En este tutorial, cubrimos el proceso de extracción de texto de áreas específicas dentro de un documento usando GroupDocs.Parser para .NET con capacidades de OCR. Si sigue estos pasos, podrá aprovechar eficazmente las funcionalidades de análisis de GroupDocs.Parser para manejar tareas de extracción de texto mediante programación.

Preguntas frecuentes

¿Puede GroupDocs.Parser extraer texto de documentos escaneados?

Sí, GroupDocs.Parser admite OCR para extraer texto de imágenes escaneadas dentro de documentos.

¿Qué formatos de documentos son compatibles con GroupDocs.Parser?

GroupDocs.Parser admite una amplia gama de formatos, incluidos PDF, DOCX, XLSX, PPTX, TXT y más.

¿GroupDocs.Parser es adecuado para el procesamiento por lotes de documentos?

Sí, GroupDocs.Parser puede manejar de manera eficiente tareas de procesamiento por lotes para el análisis y extracción de documentos.

¿Puedo personalizar las opciones de extracción de texto con GroupDocs.Parser?

Sí, GroupDocs.Parser ofrece varias opciones para personalizar la extracción de texto según requisitos específicos.

¿GroupDocs.Parser proporciona soporte para extraer metadatos de documentos?

Sí, GroupDocs.Parser permite la extracción de metadatos como autor, fecha de creación y más de formatos de documentos compatibles.