辨識矩形區域中的文字

介紹

在本教學中,我們將探討如何使用 GroupDocs.Parser for .NET 識別文件特定矩形區域內的文字。 GroupDocs.Parser 是一個功能強大的程式庫,可讓開發人員從各種文件格式(包括 PDF、Word、Excel 和 PowerPoint)中提取文字、元資料等。

先決條件

在開始之前,請確保您已進行以下設定:

  • GroupDocs.Parser for .NET:從以下位置下載並安裝該程式庫這裡.
  • 開發環境:Visual Studio 或任何其他 .NET IDE。
  • 範例文件:擁有包含要識別的文字的範例文件(例如 PDF、DOCX)。

導入命名空間

首先,您需要將必要的命名空間匯入到 C# 程式碼中:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

第 1 步:初始化解析器設定

首先設定ParserSettings與 OCR 連接器。在這裡,我們將使用 Aspose OCR 本機連接器:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

步驟2:建立解析器實例

接下來,實例化Parser具有先前定義的設定的類別:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    //代碼在這裡繼續
}

代替"YourSampleFile.pdf"以及您的文件的路徑。

第 3 步:定義 OCR 矩形

在文件中定義一個將執行文字辨識的矩形。例如,一個矩形從(0, 0)與寬度400和身高200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

步驟 4:設定文字辨識選項

創造TextOptions指定 OCR 用法以及定義的矩形:

TextOptions options = new TextOptions(false, true, ocrOptions);

第 5 步:使用 OCR 提取文本

使用GetText的方法Parser已配置的實例TextOptions:

using (TextReader reader = parser.GetText(options))
{
    //讀取提取的文字或處理“不支援”的情況
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

結論

在本教學中,我們示範如何利用 GroupDocs.Parser for .NET 使用 OCR 從文件中的特定矩形區域提取文字。該過程可以進一步自訂並整合到各種應用程式中,以執行自動文字擷取任務。

常見問題解答

GroupDocs.Parser 可以從掃描文件中提取文字嗎?

是的,GroupDocs.Parser 支援 OCR(光學字元辨識)從掃描文件中提取文字。

GroupDocs.Parser 支援哪些文件格式?

GroupDocs.Parser 支援多種文件格式,包括 PDF、DOCX、XLSX、PPTX 等。

如何處理不支援文字擷取的文件?

您可以使用檢查是否支援文字擷取TextReader傳回的實例parser.GetText(options).

GroupDocs.Parser適合大規模文字擷取任務嗎?

是的,GroupDocs.Parser 旨在高效處理大規模文字擷取任務。

在哪裡可以獲得 GroupDocs.Parser 相關問題的支援?

如需支援和討論,請訪問GroupDocs.Parser 論壇.