在原始模式下從 PDF 頁面中提取文本

介紹

在本教學中，我們將探討如何使用 GroupDocs.Parser for .NET 使用原始模式從 PDF 文件的頁面中擷取文字。 GroupDocs.Parser 是一個功能強大的工具，使開發人員能夠以程式設計方式處理各種文件格式。

先決條件

在開始本教學之前，請確保您具備以下條件：

Visual Studio 安裝在您的電腦上。
C# 程式設計基礎知識。
GroupDocs.Parser for .NET 函式庫，您可以在這裡下載.
用於測試目的的範例 PDF 檔案。

導入命名空間

首先，確保在 C# 專案中導入必要的命名空間：

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

第 1 步：建立 Parser 類別的實例

首先，實例化Parser類，透過提供範例 PDF 文件的路徑。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //你的程式碼放在這裡
}

第 2 步：取得文件資訊並迭代頁面

接下來，檢索文件資訊並迭代每個頁面以提取文字。

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    //您的文字擷取程式碼位於此處
}

第 3 步：從每個頁面中提取文本

在循環內，使用GetText方法從每個頁面提取文字並列印它。

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

結論

在本教學中，我們學習如何使用 GroupDocs.Parser for .NET 以原始模式從 PDF 頁面中擷取文字。這個過程涉及創建一個Parser例如，獲取文件信息，迭代每個頁面，並使用GetText方法。

常見問題解答

什麼是 .NET 的 GroupDocs.Parser？

GroupDocs.Parser for .NET 是一個文件解析 API，允許開發人員以程式設計方式從各種文件格式中提取文字、元資料和其他資訊。

如何下載 .NET 版 GroupDocs.Parser？

您可以從以下位置下載該程式庫集團文件網站.

有免費試用嗎？

是的，您可以存取 GroupDocs.Parser for .NET 的免費試用版：這裡.

在哪裡可以找到對 GroupDocs.Parser for .NET 的支援？

如需技術援助和社區支持，請訪問集團文檔論壇.

如何購買 GroupDocs.Parser for .NET 的授權？

您可以從以下位置購買許可證購買頁面或獲得臨時許可證這裡.

從 PDF 中的特定頁面提取文本解析 PDF 文件中的數據