從 Word 文件中提取文字為 HTML

介紹

GroupDocs.Parser for .NET 是一個功能強大的文件解析庫,使開發人員能夠從各種文件格式中無縫提取文字和元資料。在本教程中,我們將重點介紹如何利用 GroupDocs.Parser 從 Word 文件中提取文字並將其另存為 HTML。此過程對於內容分析、索引或將文件轉換為網路友善格式等任務至關重要。閱讀本指南後,您將清楚地了解如何在 .NET 應用程式中有效地使用 GroupDocs.Parser。

先決條件

在深入學習本教程之前,請確保您具備以下先決條件:

  • C# 程式設計基礎知識。
  • Visual Studio 安裝在您的開發電腦上。
  • 用於 .NET 函式庫的 GroupDocs.Parser。您可以從以下位置下載:這裡.
  • 出於測試目的存取範例 Word 文件。

導入命名空間

首先,您需要將必要的命名空間匯入到您的 C# 專案中:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

請依照以下詳細步驟,使用 GroupDocs.Parser for .NET 從 Word 文件中擷取文字並將其儲存為 HTML:

第 1 步:建立 Parser 類別的實例

首先,建立一個實例Parser類,透過提供範例 Word 文件的路徑:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //繼續步驟 2...
}

代替"YourSampleFile.docx"以及您的 Word 文件的路徑。

步驟 2:將格式化文字提取為 HTML

接下來,使用GetFormattedText方法連同FormattedTextOptions提取 HTML 格式的文字:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //將格式化文字擷取到閱讀器中
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        //繼續步驟 3...
    }
}

步驟 3:讀取並輸出擷取的 HTML

最後,讀取擷取的HTML內容TextReader並將其列印到控制台:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //將格式化文字擷取到閱讀器中
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        //將格式化文字列印為 HTML
        Console.WriteLine(reader.ReadToEnd());
    }
}

結論

在本教學中,我們探討如何使用 GroupDocs.Parser for .NET 從 Word 文件中提取文字並將其儲存為 HTML。該程式庫提供了一種簡單而有效的方法來解析文件內容,使其成為 .NET 應用程式中文件處理任務的寶貴工具。

常見問題解答

如何獲得 GroupDocs.Parser 的臨時許可證?

您可以向以下機構申請臨時許可證這裡.

在哪裡可以找到有關 GroupDocs.Parser 的更多文件?

提供詳細文檔這裡.

GroupDocs.Parser 是否有免費試用版?

是的,您可以存取免費試用版這裡.

如何獲得對 GroupDocs.Parser 的支援?

造訪支援論壇這裡.

GroupDocs.Parser 支援哪些類型的文件?

GroupDocs.Parser 支援多種文件格式,包括 Word、PDF、Excel、PowerPoint 等。