Reconocer texto en regiones rectangulares

Introducción

En este tutorial, exploraremos cómo usar GroupDocs.Parser para .NET para reconocer texto dentro de regiones rectangulares específicas de documentos. GroupDocs.Parser es una potente biblioteca que permite a los desarrolladores extraer texto, metadatos y más de varios formatos de archivos, incluidos PDF, Word, Excel y PowerPoint.

Requisitos previos

Antes de comenzar, asegúrese de tener la siguiente configuración:

  • GroupDocs.Parser para .NET: descargue e instale la biblioteca desdeaquí.
  • Entorno de desarrollo: Visual Studio o cualquier otro .NET IDE.
  • Documento de muestra: tenga un archivo de muestra (por ejemplo, PDF, DOCX) que contenga texto para ser reconocido.

Importar espacios de nombres

Primero, necesitarás importar los espacios de nombres necesarios en tu código C#:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Paso 1: inicializar la configuración del analizador

Comience configurando elParserSettings con el conector OCR. Aquí, usaremos el conector local Aspose OCR:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Paso 2: crear una instancia del analizador

A continuación, cree una instancia delParser clase con la configuración previamente definida:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // El código continúa aquí.
}

Reemplazar"YourSampleFile.pdf" con la ruta a su documento.

Paso 3: definir el rectángulo de OCR

Defina un rectángulo dentro del documento donde se realizará el reconocimiento de texto. Por ejemplo, un rectángulo que comienza en(0, 0) con ancho400 y altura200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

Paso 4: configurar las opciones de reconocimiento de texto

CrearTextOptions para especificar el uso de OCR junto con el rectángulo definido:

TextOptions options = new TextOptions(false, true, ocrOptions);

Paso 5: extraiga texto usando OCR

Utilizar elGetText método de laParser instancia con el configuradoTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Leer texto extraído o manejar el caso "no compatible"
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Conclusión

En este tutorial, hemos demostrado cómo aprovechar GroupDocs.Parser para .NET para extraer texto de regiones rectangulares específicas en documentos usando OCR. Este proceso se puede personalizar e integrar aún más en varias aplicaciones para tareas automatizadas de extracción de texto.

Preguntas frecuentes

¿Puede GroupDocs.Parser extraer texto de documentos escaneados?

Sí, GroupDocs.Parser admite OCR (reconocimiento óptico de caracteres) para extraer texto de documentos escaneados.

¿Qué formatos de archivo admite GroupDocs.Parser?

GroupDocs.Parser admite una amplia gama de formatos de archivo, incluidos PDF, DOCX, XLSX, PPTX y más.

¿Cómo puedo manejar documentos que no son compatibles con la extracción de texto?

Puede verificar si la extracción de texto es compatible usandoTextReader instancia devuelta porparser.GetText(options).

¿GroupDocs.Parser es adecuado para tareas de extracción de texto a gran escala?

Sí, GroupDocs.Parser está diseñado para manejar eficientemente tareas de extracción de texto a gran escala.

¿Dónde puedo obtener soporte para problemas relacionados con GroupDocs.Parser?

Para soporte y debates, visite elForo GroupDocs.Parser.