辨識文字
內容
[
隱藏
]介紹
在 .NET 開發領域,從各種文件格式中高效提取文字至關重要。 GroupDocs.Parser for .NET 提供了一個強大的解決方案來無縫提取文字。在本教程中,我們將逐步深入研究如何使用 GroupDocs.Parser 從文件中識別和提取文字。
先決條件
在我們深入使用 GroupDocs.Parser 之前,請確保您符合以下先決條件:
- 對 C# 程式設計有基本了解
- 您的電腦上安裝了 Visual Studio
- 訪問互聯網以下載軟體包和參考文檔
導入命名空間
首先匯入必要的命名空間以利用 GroupDocs.Parser 功能:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
第1步:安裝GroupDocs.Parser
首先,下載並安裝 GroupDocs.Parser 函式庫。您可以從下載連結.
第 2 步:取得臨時許可證
若要使用 GroupDocs.Parser,請從以下位置取得臨時許可證這裡.
第 3 步:初始化 ParserSettings
建立一個實例ParserSettings
類別來配置文字擷取設置,包括 OCR 連接器(如果需要)。
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
第 4 步:使用解析器提取文本
現在,建立一個實例Parser
具有配置設定的類別。
using (Parser parser = new Parser("YourSampleFile.docx", settings))
{
//配置 OCR 使用的 TextOptions
TextOptions options = new TextOptions(false, true);
//使用 OCR 提取文本
using (TextReader reader = parser.GetText(options))
{
//顯示擷取的文字或「不支援」訊息
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
在這個片段中:
- 代替
"YourSampleFile.docx"
與目標文檔的路徑。 TextOptions
配置為啟用 OCR 並優化文字擷取。
結論
恭喜!您已經了解如何將 GroupDocs.Parser for .NET 整合到您的專案中以有效地提取文字。探索廣泛文件用於高級功能和優化。
常見問題解答
GroupDocs.Parser 適合從 PDF 文件中提取文字嗎?
是的,GroupDocs.Parser 支援從各種格式(包括 PDF)中提取文字。
我可以將 GroupDocs.Parser 整合到我的 ASP.NET 應用程式中嗎?
當然,GroupDocs.Parser 可以無縫整合到 ASP.NET 應用程式中。
GroupDocs.Parser 是否需要商業用途許可證?
是的,商業用途需要許可證。獲得臨時許可證這裡.
GroupDocs.Parser 支援哪些文件格式?
GroupDocs.Parser 支援多種格式,包括 DOCX、PDF、XLSX 等。
我該如何尋求與 GroupDocs.Parser 相關的支援或提出問題?
參觀GroupDocs.Parser 論壇以尋求支持和討論。