在原始模式下提取文本

介紹

在本教程中，我們將探索如何利用 GroupDocs.Parser for .NET 從各種文件格式中高效提取文字。 GroupDocs.Parser 是一個功能強大的程式庫，可讓開發人員從 PDF、Word、Excel、PowerPoint 等文件中提取文字和元數據，從而簡化 .NET 應用程式中的文字擷取任務。

先決條件

在深入學習本教學之前，請確保您已設定以下先決條件：

您電腦上安裝的 Visual Studio 或任何其他 .NET 開發環境。
C# 程式語言的基礎知識。
存取 .NET 程式庫的 GroupDocs.Parser。

導入命名空間

首先，請確保在 C# 專案中匯入 GroupDocs.Parser 所需的命名空間：

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

步驟1：初始化GroupDocs.Parser

若要開始文字擷取，請建立一個實例Parser類，傳遞範例文檔的路徑：

using (Parser parser = new Parser("YourSampleFile"))
{
    //在這裡繼續進行文字提取
}

第 2 步：提取原始文本

內using塊，使用GetText方法與TextOptions從文件中提取原始文字：

using (TextReader reader = parser.GetText(new TextOptions(true)))
{
    //繼續閱讀文件中的文本
}

第 3 步：從文件中讀取文本

現在，利用TextReader物件從文件中讀取提取的文字：

string extractedText = reader.ReadToEnd();
Console.WriteLine(extractedText);

結論

透過執行這些步驟，您可以使用 GroupDocs.Parser for .NET 從文件中有效地提取原始文字。本教程提供了在 .NET 應用程式中利用此程式庫進行無縫文字擷取的基礎指南。

常見問題解答

GroupDocs.Parser 支援哪些文件格式？

GroupDocs.Parser 支援多種文件格式，包括 PDF、Microsoft Word、Excel、PowerPoint 等。

我可以使用 GroupDocs.Parser 提取元資料和文字嗎？

是的，GroupDocs.Parser 允許從支援的文件格式中提取文字和元資料。

GroupDocs.Parser 與 .NET Core 相容嗎？

是的，GroupDocs.Parser 與 .NET Core 以及傳統的 .NET Framework 相容。

GroupDocs.Parser 是否處理受密碼保護的文件？

是的，如果提供正確的密碼，GroupDocs.Parser 可以處理受密碼保護的文件。

我可以將 GroupDocs.Parser 整合到我的 Web 應用程式中嗎？

當然，GroupDocs.Parser 可以無縫整合到使用 .NET 技術開發的 Web 應用程式中。

以準確模式擷取文本提取文字結構