目次 (TOC) 項目によるテキストの抽出

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用して、ドキュメントから目次 (TOC) 項目に基づいてテキストを抽出する方法について説明します。GroupDocs.Parser は、効率的なドキュメントの解析と抽出を可能にする強力なツールです。

前提条件

このチュートリアルを進める前に、次の前提条件を満たしていることを確認してください。

Visual Studio: システムに Visual Studio IDE をインストールします。
GroupDocs.Parser for .NET: GroupDocs.Parser for .NETをダウンロードしてインストールします。ここ.
TOC を含むサンプルドキュメント: 目次を含むドキュメント (PDF、DOCX など) を準備します。

名前空間のインポート

まず、C# プロジェクトに必要な名前空間を含めます。

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;

ステップ1: パーサークラスのインスタンスを作成する

インスタンス化するParserサンプルドキュメントへのパスを含むクラス:

using (Parser parser = new Parser("YourSampleFileWithToc"))
{
    //ここで次の手順に進みます...
}

ステップ2: 目次(TOC)を抽出する

ドキュメントから目次 (TOC) 項目を取得します。

IEnumerable<TocItem> tocItems = parser.GetToc();
if (tocItems == null)
{
    Console.WriteLine("Table of contents extraction isn't supported");
    return;
}

ステップ3: TOC項目を反復処理してテキストを抽出する

各 TOC 項目を反復処理し、対応するテキストを抽出します。

foreach (TocItem tocItem in tocItems)
{
    using (TextReader reader = tocItem.ExtractText())
    {
        Console.WriteLine("----");
        Console.WriteLine(reader.ReadToEnd());
    }
}

結論

このチュートリアルでは、GroupDocs.Parser for .NET を使用して、目次 (TOC) 項目に基づいてドキュメントからテキストを抽出する方法を説明しました。概要の手順に従うことで、プログラムによってドキュメントから特定のコンテンツを効率的に解析して抽出できます。

よくある質問

GroupDocs.Parser はどのようなファイル形式をサポートしていますか?

GroupDocs.Parser は、PDF、Microsoft Word (DOC/DOCX)、Excel (XLS/XLSX)、PowerPoint (PPT/PPTX) など、幅広いドキュメント形式をサポートしています。

GroupDocs.Parser を使用して、表や画像などの構造化データを抽出できますか?

はい、GroupDocs.Parser は、さまざまなドキュメントタイプからテーブル、画像、メタデータなどの構造化データを抽出するための API を提供します。

GroupDocs.Parser は大きなドキュメントに適していますか?

GroupDocs.Parser は、大規模なドキュメントを効率的に処理するように最適化されており、大規模なファイルからコンテンツをシームレスに抽出できます。

GroupDocs.Parser のテクニカルサポートを受けるにはどうすればよいですか?

技術サポートを求めたり、コミュニティと交流したりすることができます。GroupDocs.Parser フォーラム.

GroupDocs は評価用の無料トライアルを提供していますか?

はい、GroupDocs.Parserの無料試用版をこちらからダウンロードできます。ここ.

オプションを使用して特定の領域からテキストを抽出する正確なモードでページからテキストを抽出する