Extraia texto da página no modo Raw

Introdução

Neste tutorial, você aprenderá como usar Groupdocs.Parser for .NET para extrair texto de páginas de documentos em modo bruto. Esta biblioteca fornece ferramentas eficientes para analisar e extrair conteúdo de vários formatos de arquivo, permitindo que os desenvolvedores incorporem a extração de texto de documentos em seus aplicativos .NET.

Pré-requisitos

Antes de começar, certifique-se de ter os seguintes pré-requisitos:

Conhecimento básico de programação C# e .NET
Visual Studio instalado em sua máquina
Acesso à biblioteca Groupdocs.Parser para .NET
Exemplo de arquivo de documento para teste

Importar namespaces

Comece incluindo os namespaces necessários em seu projeto C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Etapa 1: inicializar o analisador

Primeiro, crie uma instância doParser class fornecendo o caminho para seu arquivo de documento de amostra.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Seu código aqui
}

Etapa 2: recuperar informações do documento

Recuperar informações sobre o documento usandoGetDocumentInfo() método.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Etapa 3: iterar nas páginas e extrair texto

Itere em cada página do documento e extraia o conteúdo do texto.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Extraia o texto da página
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusão

Agora você aprendeu como usar Groupdocs.Parser for .NET para extrair texto de páginas de documentos em modo bruto. Este pode ser um recurso poderoso para aplicativos que precisam analisar ou processar conteúdo de texto de vários formatos de arquivo.

Perguntas frequentes

O Groupdocs.Parser for .NET é compatível com todos os formatos de arquivo?

Groupdocs.Parser oferece suporte a uma ampla variedade de formatos de arquivo, incluindo PDF, DOCX, XLSX, PPTX, EPUB e muito mais.

Posso extrair metadados junto com texto usando esta biblioteca?

Sim, Groupdocs.Parser permite extrair texto e metadados de documentos.

Existe uma versão de teste disponível para teste?

Sim, você pode baixar uma versão de avaliação gratuita emaqui.

Como posso obter suporte técnico para Groupdocs.Parser?

Para assistência técnica, visite oFórum Groupdocs.Parser.

Onde posso adquirir uma licença do Groupdocs.Parser for .NET?

Você pode comprar uma licençaaqui.

Extraia texto da página no modo preciso Extraia texto em modo preciso