從 PDF 中的特定頁面提取文本

介紹

在本教學中，您將學習如何使用 GroupDocs.Parser for .NET 從 PDF 文件中的特定頁面提取文字。 GroupDocs.Parser 是一個功能強大的程式庫，可讓開發人員處理各種文件格式，包括 PDF、Microsoft Word、Excel 等。請依照以下步驟將文字擷取整合到您的 .NET 應用程式中。

先決條件

在開始之前，請確保您具備以下條件：

Visual Studio：用於 .NET 開發的整合開發環境 (IDE)。
GroupDocs.Parser for .NET：從下列位置下載程式庫這裡.
C# 知識：對 C# 程式語言的基本了解。
範例 PDF 檔案：要從中提取文字的 PDF 文件。

導入命名空間

首先將必要的命名空間匯入到您的 C# 程式碼：

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

第 1 步：建立 Parser 類別的實例

實例化Parser類，透過提供範例 PDF 文件的路徑。

//建立 Parser 類別的實例
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //你的程式碼在這裡
}

步驟2：取得文件資訊

使用檢索有關 PDF 文件的信息GetDocumentInfo()方法。

//取得文件資訊
IDocumentInfo documentInfo = parser.GetDocumentInfo();

第 3 步：迭代頁面

循環瀏覽文件的每一頁以選擇特定頁面進行文字擷取。

//迭代頁面
for (int p = 0; p < documentInfo.PageCount; p++)
{
    //你的程式碼在這裡
}

第 4 步：從頁面中提取文本

使用以下命令從所需頁面中提取文本GetText(int pageIndex)方法。

//將文字擷取到閱讀器中
using (TextReader reader = parser.GetText(pageIndex))
{
    //你的程式碼在這裡
    string extractedText = reader.ReadToEnd();
    Console.WriteLine(extractedText); //輸出提取的文本
}

結論

現在您已經了解如何使用 GroupDocs.Parser for .NET 從 PDF 文件中的特定頁面提取文字。此過程涉及初始化解析器、檢索文件資訊、迭代頁面以及從所需頁面提取文字。將這些步驟合併到您的 .NET 應用程式中，以有效處理 PDF 文字擷取。

常見問題解答

GroupDocs.Parser for .NET 是否與所有版本的 .NET Framework 相容？

是的，GroupDocs.Parser for .NET 支援 .NET Framework 版本 4.5 及更高版本。

GroupDocs.Parser 可以從加密的 PDF 檔案中提取文字嗎？

不，GroupDocs.Parser 不支援從加密或受密碼保護的 PDF 文件中提取文字。

GroupDocs.Parser 是否可以處理 PDF 以外的其他文件格式？

是的，GroupDocs.Parser 支援多種格式，包括 Microsoft Word、Excel、PowerPoint 等。

GroupDocs.Parser 是否有試用版？

是的，您可以存取 GroupDocs.Parser 的免費試用版這裡.

在哪裡可以獲得 GroupDocs.Parser 的技術支援？

您可以在以下位置找到技術支援並與社區互動集團文檔論壇.

從 PDF 提取文本在原始模式下從 PDF 頁面中提取文本