Reconocer texto en regiones rectangulares
Introducción
En este tutorial, exploraremos cómo usar GroupDocs.Parser para .NET para reconocer texto dentro de regiones rectangulares específicas de documentos. GroupDocs.Parser es una potente biblioteca que permite a los desarrolladores extraer texto, metadatos y más de varios formatos de archivos, incluidos PDF, Word, Excel y PowerPoint.
Requisitos previos
Antes de comenzar, asegúrese de tener la siguiente configuración:
- GroupDocs.Parser para .NET: descargue e instale la biblioteca desdeaquí.
- Entorno de desarrollo: Visual Studio o cualquier otro .NET IDE.
- Documento de muestra: tenga un archivo de muestra (por ejemplo, PDF, DOCX) que contenga texto para ser reconocido.
Importar espacios de nombres
Primero, necesitarás importar los espacios de nombres necesarios en tu código C#:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Paso 1: inicializar la configuración del analizador
Comience configurando elParserSettings
con el conector OCR. Aquí, usaremos el conector local Aspose OCR:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Paso 2: crear una instancia del analizador
A continuación, cree una instancia delParser
clase con la configuración previamente definida:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// El código continúa aquí.
}
Reemplazar"YourSampleFile.pdf"
con la ruta a su documento.
Paso 3: definir el rectángulo de OCR
Defina un rectángulo dentro del documento donde se realizará el reconocimiento de texto. Por ejemplo, un rectángulo que comienza en(0, 0)
con ancho400
y altura200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
Paso 4: configurar las opciones de reconocimiento de texto
CrearTextOptions
para especificar el uso de OCR junto con el rectángulo definido:
TextOptions options = new TextOptions(false, true, ocrOptions);
Paso 5: extraiga texto usando OCR
Utilizar elGetText
método de laParser
instancia con el configuradoTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Leer texto extraído o manejar el caso "no compatible"
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Conclusión
En este tutorial, hemos demostrado cómo aprovechar GroupDocs.Parser para .NET para extraer texto de regiones rectangulares específicas en documentos usando OCR. Este proceso se puede personalizar e integrar aún más en varias aplicaciones para tareas automatizadas de extracción de texto.
Preguntas frecuentes
¿Puede GroupDocs.Parser extraer texto de documentos escaneados?
Sí, GroupDocs.Parser admite OCR (reconocimiento óptico de caracteres) para extraer texto de documentos escaneados.
¿Qué formatos de archivo admite GroupDocs.Parser?
GroupDocs.Parser admite una amplia gama de formatos de archivo, incluidos PDF, DOCX, XLSX, PPTX y más.
¿Cómo puedo manejar documentos que no son compatibles con la extracción de texto?
Puede verificar si la extracción de texto es compatible usandoTextReader
instancia devuelta porparser.GetText(options)
.
¿GroupDocs.Parser es adecuado para tareas de extracción de texto a gran escala?
Sí, GroupDocs.Parser está diseñado para manejar eficientemente tareas de extracción de texto a gran escala.
¿Dónde puedo obtener soporte para problemas relacionados con GroupDocs.Parser?
Para soporte y debates, visite elForo GroupDocs.Parser.