HTML コンテンツを抽出する

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用してさまざまなドキュメント形式から HTML コンテンツを抽出する方法について説明します。GroupDocs.Parser は、開発者がドキュメントからテキストをシームレスに解析および抽出できるようにする強力なライブラリです。Word ドキュメント、PDF、またはその他の形式のいずれを扱う場合でも、GroupDocs.Parser を使用すると、構造化コンテンツの抽出プロセスが簡素化されます。

前提条件

コード例に進む前に、次の前提条件が満たされていることを確認してください。

  • Visual Studio: システムに Visual Studio がインストールされていることを確認してください。
  • GroupDocs.Parser for .NET: GroupDocs.Parserライブラリを以下からダウンロードしてインストールします。ここ.
  • サンプル ドキュメント: HTML コンテンツの抽出に使用するサンプル ドキュメント (Word ドキュメントや PDF など) を準備します。

名前空間のインポート

まず、.NET プロジェクトで GroupDocs.Parser 機能にアクセスするために必要な名前空間をインポートします。

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

ステップ1: パーサークラスのインスタンスを作成する

初期化するParserサンプル ドキュメントへのパスを指定してオブジェクトを作成します。

//Parserクラスのインスタンスを作成する
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //コンテンツを抽出するコードはここに記述します
}

ステップ2: HTMLコンテンツを抽出する

さて、usingブロック、活用するGetFormattedTextフォーマットされたテキストを HTML として抽出する方法:

//フォーマットされたテキストをリーダーに抽出する
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
    //文書から書式設定されたテキストを印刷する
    //フォーマットされたテキストの抽出がサポートされていない場合、リーダーはnullになります
    Console.WriteLine(reader == null ? "Formatted text extraction isn't supported" : reader.ReadToEnd());
}

結論

これらの手順に従うことで、GroupDocs.Parser for .NET を効果的に使用してさまざまなドキュメント形式から HTML コンテンツを抽出し、高度なテキスト抽出機能をアプリケーションに提供できるようになります。

よくある質問

GroupDocs.Parser はスキャンされたドキュメントから HTML を抽出できますか?

GroupDocs.Parser は、主にデジタル ドキュメントからテキストを抽出するために設計されています。スキャンされたドキュメントの場合は、OCR (光学式文字認識) ソリューションの使用を検討してください。

GroupDocs.Parser はテーブルと画像の抽出をサポートしていますか?

はい、GroupDocs.Parser は、サポートされているドキュメント形式から表、画像、その他の構造化コンテンツを抽出できます。

ドキュメント解析中に例外を処理するにはどうすればよいですか?

標準の try-catch ブロックを使用して解析コードの周囲にエラー処理を実装し、例外を適切に管理できます。

GroupDocs.Parser は .NET Core アプリケーションと互換性がありますか?

はい、GroupDocs.Parser は .NET Core をサポートしているため、テキスト抽出機能を最新のクロスプラットフォーム アプリケーションに統合できます。

テキスト抽出オプションをカスタマイズできますか?

はい、GroupDocs.Parser には、書式設定モードや特定のコンテンツ抽出設定など、テキスト抽出をカスタマイズするためのさまざまなオプションが用意されています。