以原始模式从 PDF 页面中提取文本

介绍

在本教程中,我们将探讨如何使用 GroupDocs.Parser for .NET 使用原始模式从 PDF 文档中的页面中提取文本。GroupDocs.Parser 是一个功能强大的工具,使开发人员能够以编程方式处理各种文档格式。

先决条件

在开始本教程之前,请确保您已具备以下条件:

  • 您的机器上安装了 Visual Studio。
  • C# 编程的基本知识。
  • GroupDocs.Parser for .NET 库,您可以在这里下载.
  • 用于测试目的的示例 PDF 文件。

导入命名空间

首先,确保在 C# 项目中导入必要的命名空间:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

步骤 1:创建解析器类的实例

首先,实例化Parser通过提供示例 PDF 文件的路径来类。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //您的代码在此处
}

步骤 2:获取文档信息并迭代页面

接下来,检索文档信息并遍历每一页以提取文本。

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    //您的文本提取代码放在此处
}

步骤 3:从每个页面提取文本

在循环内,使用GetText方法从每一页提取文本并打印。

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

结论

在本教程中,我们学习了如何使用 GroupDocs.Parser for .NET 从原始模式下的 PDF 页面中提取文本。此过程涉及创建Parser实例,获取文档信息,遍历每一页,并使用GetText方法。

常见问题解答

什么是适用于 .NET 的 GroupDocs.Parser?

GroupDocs.Parser for .NET 是一个文档解析 API,允许开发人员以编程方式从各种文件格式中提取文本、元数据和其他信息。

如何下载适用于 .NET 的 GroupDocs.Parser?

您可以从GroupDocs 网站.

有免费试用吗?

是的,您可以从以下网址免费试用 GroupDocs.Parser for .NET这里.

在哪里可以找到对 .NET 的 GroupDocs.Parser 的支持?

如需技术协助和社区支持,请访问GroupDocs 论坛.

如何购买 GroupDocs.Parser for .NET 许可证?

您可以从购买页面或获取临时执照这里.