使用選項從特定區域提取文本

介紹

在本教學中，我們將探討如何使用 GroupDocs.Parser for .NET 使用可自訂選項從文件中的特定區域擷取文字。 GroupDocs.Parser 是一個功能強大的程式庫，可讓開發人員輕鬆地從各種文件格式解析和擷取文字。

先決條件

在我們深入編碼之前，請確保您具備以下條件：

開發環境：安裝 Visual Studio 或任何其他 .NET 開發 IDE。
GroupDocs.Parser 函式庫：從下列位置下載並安裝適用於 .NET 的 GroupDocs.Parser這裡.
範例文件：準備一個範例文件（例如 PDF、DOCX 等）以從中提取文字。

導入命名空間

首先，您需要匯入必要的命名空間來存取 GroupDocs.Parser 類別和方法。

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

第 1 步：建立 Parser 類別的實例

初始化一個實例Parser類別透過提供範例文件的路徑。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //文字區域提取的程式碼將放在此處
}

第 2 步：定義文字區域擷取選項

創造PageTextAreaOptions指定文字擷取的標準。

PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));

在這個例子中：

"\\s[a-z]{2}\\s"是一個正規表示式模式，用於匹配僅包含小寫字母的文字區域。
new Rectangle(new Point(0, 0), new Size(300, 100))定義頁面上從中提取文字的矩形（位置和大小）。

第 3 步：提取文字區域

使用定義的選項提取符合指定條件的文字區域。

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

第 4 步：檢查並迭代提取的文字區域

檢查是否支援文字區域提取，然後迭代提取的區域。

if (areas == null)
{
    Console.WriteLine("Page text areas extraction isn't supported");
    return;
}
foreach (PageTextArea a in areas)
{
    Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}

結論

在本教學中，我們介紹如何使用 GroupDocs.Parser for .NET 從文件中的特定區域擷取文字。該程式庫提供了解析各種文件格式的廣泛功能，使其成為文字擷取任務的寶貴工具。

常見問題解答

GroupDocs.Parser 可以從掃描文件中提取文字嗎？

是的，GroupDocs.Parser 支援對掃描文件進行基於 OCR 的文字擷取。

GroupDocs.Parser 是否相容於多種文件格式？

是的，它可以從 PDF、DOCX、XLSX、PPTX 和其他流行格式中解析和提取文字。

GroupDocs.Parser 是否提供對 .NET Core 的支援？

是的，GroupDocs.Parser 與 .NET Core 以及 .NET Framework 相容。

我可以使用 GroupDocs.Parser 提取元資料和文字嗎？

是的，您可以從文件中提取文字內容和元資料。

GroupDocs.Parser 是否有試用版？

是的，您可以從以下位置獲得免費試用這裡.

從頁面上的特定區域提取文本按目錄 (TOC) 項目提取文本