以原始模式从页面提取文本

介绍

在本教程中,您将学习如何使用 Groupdocs.Parser for .NET 以原始模式从文档页面中提取文本。此库提供了有效的工具来解析和提取各种文件格式的内容,使开发人员能够将文档文本提取合并到他们的 .NET 应用程序中。

先决条件

开始之前,请确保您满足以下先决条件:

  • 具备 C# 和 .NET 编程基础知识
  • 您的机器上安装了 Visual Studio
  • 访问 Groupdocs.Parser for .NET 库
  • 用于测试的示例文档文件

导入命名空间

首先在 C# 项目中包含必要的命名空间:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

步骤 1:初始化解析器

首先,创建一个实例Parser通过提供示例文档文件的路径来类。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //您的代码在这里
}

第 2 步:检索文档信息

使用以下方法检索有关文档的信息GetDocumentInfo()方法。

IDocumentInfo documentInfo = parser.GetDocumentInfo();

步骤 3:遍历页面并提取文本

遍历文档的每一页并提取文本内容。

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    //从页面中提取文本
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

结论

您现在已经了解了如何使用 Groupdocs.Parser for .NET 以原始模式从文档页面中提取文本。对于需要分析或处理各种文件格式的文本内容的应用程序来说,这可能是一项强大的功能。

常见问题解答

Groupdocs.Parser for .NET 是否兼容所有文件格式?

Groupdocs.Parser 支持多种文件格式,包括 PDF、DOCX、XLSX、PPTX、EPUB 等。

我可以使用该库提取元数据和文本吗?

是的,Groupdocs.Parser 允许您从文档中提取文本和元数据。

是否有可供测试的试用版?

是的,你可以从以下网站下载免费试用版这里.

如何获得 Groupdocs.Parser 的技术支持?

如需技术帮助,请访问Groupdocs.Parser 论坛.

我可以在哪里购买 Groupdocs.Parser for .NET 的许可证?

您可以购买许可证这里.