從 PDF 提取文本

介紹

在本教學中，我們將探討如何使用 GroupDocs.Parser for .NET 從 PDF 文件中擷取文字。 GroupDocs.Parser 是一個功能強大的 API，可讓開發人員從各種文件格式（包括 PDF、Microsoft Office 等）中提取文字、元資料和結構化資料。

在開始之前，請確保您具備以下條件：

首先，首先在 C# 程式碼中匯入必要的命名空間：

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;

實例化Parser類，透過提供範例 PDF 文件的路徑：

//建立 Parser 類別的實例
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //你的程式碼放在這裡
}

內Parser實例，使用GetText()從PDF中提取文字的方法：

//將文字擷取到閱讀器中
using (TextReader reader = parser.GetText())
{
    //你的程式碼放在這裡
}

現在，閱讀從TextReader並列印它：

//列印提取的文本
Console.WriteLine(reader.ReadToEnd());

在本教程中，我們介紹了使用 GroupDocs.Parser for .NET 從 PDF 文件中提取文字的基礎知識。您學習如何初始化Parser類，提取文本，並列印提取的內容。該 API 提供了一種以程式設計方式處理 PDF 和其他文件格式的簡單方法。

是的，GroupDocs.Parser 支援多種格式，包括 DOCX、XLSX、PPTX 等。

是的，您可以獲得免費試用版這裡.

提供詳細文檔這裡.

您可以在支援論壇上尋求協助這裡.

可以獲得臨時許可證這裡.