Extraia texto da página em PDF no modo Raw

Introdução

Neste tutorial, exploraremos como usar GroupDocs.Parser for .NET para extrair texto de páginas em documentos PDF usando o modo bruto. GroupDocs.Parser é uma ferramenta poderosa que permite aos desenvolvedores trabalhar com vários formatos de documentos de forma programática.

Pré-requisitos

Antes de iniciar este tutorial, certifique-se de ter o seguinte:

  • Visual Studio instalado em sua máquina.
  • Conhecimento básico de programação C#.
  • Biblioteca GroupDocs.Parser for .NET, que você podebaixe aqui.
  • Um arquivo PDF de amostra para fins de teste.

Importar namespaces

Primeiro, certifique-se de importar os namespaces necessários em seu projeto C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Etapa 1: crie uma instância da classe analisador

Para começar, instancie oParserclass fornecendo o caminho para seu arquivo PDF de amostra.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Seu código vai aqui
}

Etapa 2: obter informações do documento e iterar nas páginas

Em seguida, recupere as informações do documento e repita cada página para extrair o texto.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Seu código para extração de texto vai aqui
}

Etapa 3: Extraia o texto de cada página

Dentro do loop, use oGetText método para extrair texto de cada página e imprimi-lo.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Conclusão

Neste tutorial, aprendemos como extrair texto de páginas PDF em modo bruto usando GroupDocs.Parser for .NET. Este processo envolve a criação de umParser por exemplo, obter informações do documento, iterar cada página e extrair texto usando oGetText método.

Perguntas frequentes

O que é GroupDocs.Parser para .NET?

GroupDocs.Parser for .NET é uma API de análise de documentos que permite aos desenvolvedores extrair texto, metadados e outras informações de vários formatos de arquivo de forma programática.

Como faço o download do GroupDocs.Parser para .NET?

Você pode baixar a biblioteca doSite GroupDocs.

Existe um teste gratuito disponível?

Sim, você pode acessar uma avaliação gratuita do GroupDocs.Parser for .NET emaqui.

Onde posso encontrar suporte para GroupDocs.Parser for .NET?

Para assistência técnica e apoio comunitário, visite oFórum GroupDocs.

Como posso adquirir uma licença do GroupDocs.Parser for .NET?

Você pode comprar uma licença nopágina de compra ou adquirir uma licença temporáriaaqui.