提取 HTML 內容

介紹

在本教學中，我們將探討如何使用 GroupDocs.Parser for .NET 從各種文件格式中擷取 HTML 內容。 GroupDocs.Parser 是一個功能強大的程式庫，可讓開發人員無縫地從文件中解析和提取文字。無論您使用的是 Word 文件、PDF 或其他格式，GroupDocs.Parser 都可以簡化提取結構化內容的過程。

先決條件

在深入研究程式碼範例之前，請確保您滿足以下先決條件：

Visual Studio：確保您的系統上安裝了 Visual Studio。
GroupDocs.Parser for .NET：下載並安裝 GroupDocs.Parser 函式庫這裡.
範例文件：準備一個範例文件（例如，Word 文件或PDF），您將使用它來提取HTML 內容。

導入命名空間

首先，匯入必要的命名空間以存取 .NET 專案中的 GroupDocs.Parser 功能：

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

第 1 步：建立 Parser 類別的實例

初始化一個Parser透過提供範例文件的路徑來物件：

//建立 Parser 類別的實例
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //提取內容的程式碼將位於此處
}

第 2 步：提取 HTML 內容

現在，在using塊，利用GetFormattedText將格式化文字提取為 HTML 的方法：

//將格式化文字擷取到閱讀器中
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
    //列印文件中的格式化文字
    //如果不支援格式化文字擷取，則 reader 為 null
    Console.WriteLine(reader == null ? "Formatted text extraction isn't supported" : reader.ReadToEnd());
}

結論

透過執行這些步驟，您可以有效地使用 GroupDocs.Parser for .NET 從各種文件格式中提取 HTML 內容，從而為您的應用程式提供高級文字擷取功能。

常見問題解答

GroupDocs.Parser 可以從掃描文件中提取 HTML 嗎？

GroupDocs.Parser 主要用於從數位文件中提取文字。對於掃描文檔，請考慮使用 OCR（光學字元辨識）解決方案。

GroupDocs.Parser是否支援提取表格和圖像？

是的，GroupDocs.Parser 可以從支援的文件格式中提取表格、圖像和其他結構化內容。

如何處理文檔解析過程中的異常？

您可以使用標準 try-catch 區塊圍繞解析程式碼實現錯誤處理，以優雅地管理異常。

GroupDocs.Parser 與 .NET Core 應用程式相容嗎？

是的，GroupDocs.Parser 支援 .NET Core，讓您可以將文字擷取功能整合到現代跨平台應用程式中。

我可以自訂文字擷取選項嗎？

是的，GroupDocs.Parser 提供了用於自訂文字擷取的各種選項，包括格式化模式和特定內容擷取設定。

從文件頁面中提取格式化文本擷取 Markdown 內容