识别矩形区域中的文本

介绍

在本教程中,我们将探索如何使用 GroupDocs.Parser for .NET 识别文档特定矩形区域内的文本。GroupDocs.Parser 是一个功能强大的库,允许开发人员从各种文件格式(包括 PDF、Word、Excel 和 PowerPoint)中提取文本、元数据等。

先决条件

在开始之前,请确保您已进行以下设置:

  • GroupDocs.Parser for .NET:从以下网址下载并安装该库这里.
  • 开发环境:Visual Studio 或任何其他.NET IDE。
  • 示例文档:有一个包含要识别的文本的示例文件(例如 PDF、DOCX)。

导入命名空间

首先,您需要将必要的命名空间导入到您的 C# 代码中:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

步骤 1:初始化解析器设置

首先设置ParserSettings使用 OCR 连接器。在这里,我们将使用 Aspose OCR 本地连接器:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

第 2 步:创建解析器实例

接下来,实例化Parser具有先前定义的设置的类:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    //代码在这里继续
}

代替"YourSampleFile.pdf"以及您的文档的路径。

步骤 3:定义 OCR 矩形

在文档中定义一个矩形,用于执行文本识别。例如,从(0, 0)与宽度400和身高200

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

步骤 4:配置文本识别选项

创造TextOptions指定 OCR 使用情况以及定义的矩形:

TextOptions options = new TextOptions(false, true, ocrOptions);

步骤 5:使用 OCR 提取文本

使用GetText方法Parser已配置的实例TextOptions

using (TextReader reader = parser.GetText(options))
{
    //读取提取的文本或处理“不支持”的情况
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

结论

在本教程中,我们演示了如何利用 GroupDocs.Parser for .NET 使用 OCR 从文档中的特定矩形区域提取文本。此过程可以进一步定制并集成到各种应用程序中,以自动执行文本提取任务。

常见问题解答

GroupDocs.Parser 可以从扫描的文档中提取文本吗?

是的,GroupDocs.Parser 支持 OCR(光学字符识别)从扫描文档中提取文本。

GroupDocs.Parser 支持哪些文件格式?

GroupDocs.Parser 支持多种文件格式,包括 PDF、DOCX、XLSX、PPTX 等。

如何处理不支持文本提取的文档?

您可以使用以下方式检查是否支持文本提取TextReader返回的实例parser.GetText(options).

GroupDocs.Parser 是否适合大规模文本提取任务?

是的,GroupDocs.Parser 旨在有效地处理大规模文本提取任务。

我可以在哪里获得与 GroupDocs.Parser 相关问题的支持?

如需支持和讨论,请访问GroupDocs.Parser 论坛.