ページ上の特定の領域からテキストを抽出する

導入

このチュートリアルでは、GroupDocs.Parser for .NET ライブラリを使用して、ページ上の特定の領域からテキストを抽出する方法について説明します。GroupDocs.Parser は、ドキュメントからのテキスト抽出を簡素化し、開発者がドキュメント内の特定の関心領域をターゲットにしてテキストを抽出できるようにします。これは、さらに処理または分析を行うために正確なテキスト抽出が必要な複雑なドキュメントを扱う場合に特に役立ちます。

前提条件

始める前に、以下のものを用意してください。

  • マシンに Visual Studio がインストールされています。
  • C# プログラミングの基本的な理解。
  • GroupDocs.Parser for .NETライブラリがインストールされています。ダウンロードはこちらからここ.
  • テキスト抽出をテストするためのサンプル ドキュメント ファイル。

名前空間のインポート

まず、GroupDocs.Parser 機能にアクセスするために必要な名前空間を C# コード ファイルに追加します。

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

ステップ1: パーサークラスのインスタンスを作成する

文書からテキストを抽出するには、Parserサンプル ドキュメント ファイルへのパスを指定してクラスを作成します。

//Parserクラスのインスタンスを作成する
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //テキスト抽出を続行します...
}

交換する"YourSampleFile.docx"実際のドキュメント ファイルへのパスを入力します。

ステップ2: テキスト領域の抽出サポートを確認する

テキスト抽出を進める前に、ドキュメントがテキスト領域の抽出をサポートしているかどうかを確認してください。Featuresの財産Parserクラス:

//ドキュメントがテキスト領域の抽出をサポートしているかどうかを確認する
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

この手順により、ドキュメントを処理してテキスト領域を抽出できるようになります。

ステップ3: ドキュメント情報を取得する

ドキュメントに関する基本情報を取得するには、GetDocumentInfo()方法:

//ドキュメント情報を取得する
IDocumentInfo documentInfo = parser.GetDocumentInfo();

この情報には、ページ数やドキュメントに関するその他のメタデータが含まれます。

ステップ4: ドキュメントページを反復処理する

ドキュメントの各ページを反復処理して、特定の領域からテキストを抽出します。

//文書にページがあるかどうかを確認する
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
//ページを反復処理する
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    //現在のページ番号を印刷
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    //領域からのテキスト抽出を続行します...
}

このループはドキュメントの各ページを順番に処理します。

ステップ5: 特定の領域からテキストを抽出する

ページ反復ループ内で、特定の関心領域からテキストを取得します。GetTextAreas()方法:

//ページのテキスト領域を反復処理する
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    //長方形の座標とテキスト領域の値を印刷する
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

このステップでは、ページ上の各定義領域 (境界の四角形など) からテキストを抽出し、抽出されたテキストを表示します。

結論

このチュートリアルでは、GroupDocs.Parser for .NET を使用してページ上の特定の領域からテキストを抽出する方法を学習しました。このライブラリの機能を活用することで、開発者はさまざまなアプリケーションのドキュメント内の対象領域からテキストを正確に取得できます。

よくある質問

GroupDocs.Parser for .NET を使用してスキャンした画像からテキストを抽出できますか?

はい、GroupDocs.Parser は、OCR (光学式文字認識) 機能を使用してスキャンされた画像からのテキスト抽出をサポートしています。

GroupDocs.Parser はさまざまなドキュメント形式と互換性がありますか?

はい、GroupDocs.Parser は PDF、Microsoft Office ドキュメントなど、幅広いドキュメント形式をサポートしています。

ネストされた要素を含む複雑なドキュメント構造をどのように処理すればよいでしょうか?

GroupDocs.Parser は、複雑なドキュメント構造をナビゲートし、定義された基準に基づいてテキストを選択的に抽出する機能を提供します。

GroupDocs.Parser はテキスト抽出中に書式を保持しますか?

GroupDocs.Parser は生のテキスト コンテンツの抽出に重点を置いていますが、必要に応じてアプリケーション内で追加の書式設定ロジックを統合できます。

GroupDocs.Parser はドキュメントのバッチ処理に使用できますか?

はい、GroupDocs.Parser をバッチ処理ワークフローに統合して、複数のドキュメントを効率的に処理できます。