Extraia texto de áreas específicas com opções

Introdução

Neste tutorial, exploraremos como usar GroupDocs.Parser for .NET para extrair texto de áreas específicas de um documento usando opções personalizáveis. GroupDocs.Parser é uma biblioteca poderosa que permite aos desenvolvedores analisar e extrair texto de vários formatos de documentos sem esforço.

Pré-requisitos

Antes de mergulharmos na codificação, certifique-se de ter o seguinte:

Ambiente de desenvolvimento: Instale o Visual Studio ou qualquer outro IDE de desenvolvimento .NET.
Biblioteca GroupDocs.Parser: Baixe e instale GroupDocs.Parser for .NET emaqui.
Arquivo de amostra: prepare um documento de amostra (por exemplo, PDF, DOCX, etc.) para extrair o texto.

Importar namespaces

Primeiro, você precisará importar os namespaces necessários para acessar as classes e métodos GroupDocs.Parser.

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Etapa 1: crie uma instância da classe analisador

Inicialize uma instância doParser class fornecendo o caminho para seu arquivo de amostra.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // O código para extração de área de texto irá aqui
}

Etapa 2: definir opções de extração de área de texto

CriarPageTextAreaOptions para especificar os critérios para extração de texto.

PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));

Neste exemplo:

"\\s[a-z]{2}\\s" é um padrão de expressão regular para corresponder a áreas de texto contendo apenas letras minúsculas.
new Rectangle(new Point(0, 0), new Size(300, 100)) define o retângulo (posição e tamanho) na página da qual o texto será extraído.

Etapa 3: extrair áreas de texto

Use as opções definidas para extrair áreas de texto que atendam aos critérios especificados.

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Etapa 4: verificar e iterar nas áreas de texto extraídas

Verifique se a extração de área de texto é suportada e, em seguida, itere sobre as áreas extraídas.

if (areas == null)
{
    Console.WriteLine("Page text areas extraction isn't supported");
    return;
}
foreach (PageTextArea a in areas)
{
    Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}

Conclusão

Neste tutorial, abordamos como extrair texto de áreas específicas de um documento usando GroupDocs.Parser for .NET. Esta biblioteca oferece amplos recursos para analisar vários formatos de documentos, tornando-a uma ferramenta valiosa para tarefas de extração de texto.

Perguntas frequentes

O GroupDocs.Parser pode extrair texto de documentos digitalizados?

Sim, GroupDocs.Parser oferece suporte à extração de texto baseada em OCR para documentos digitalizados.

O GroupDocs.Parser é compatível com vários formatos de documentos?

Sim, ele pode analisar e extrair texto de PDF, DOCX, XLSX, PPTX e outros formatos populares.

O GroupDocs.Parser fornece suporte para .NET Core?

Sim, GroupDocs.Parser é compatível com .NET Core e também com .NET Framework.

Posso extrair metadados junto com texto usando GroupDocs.Parser?

Sim, você pode extrair conteúdo textual e metadados de documentos.

Existe uma versão de teste disponível para GroupDocs.Parser?

Sim, você pode obter um teste gratuito emaqui.

Extraia texto de áreas específicas de uma página Extrair texto por item do índice (TOC)