フィールドを反復処理する

導入

GroupDocs.Parser for .NET は、開発者が PDF、Microsoft Word、Excel、PowerPoint などのさまざまなドキュメント形式からデータを抽出できるようにする強力なライブラリです。このチュートリアルでは、GroupDocs.Parser を使用してドキュメント フィールドを反復処理し、テンプレートを使用して特定のデータを抽出するプロセスについて説明します。このチュートリアルを完了すると、.NET アプリケーションのドキュメントから構造化データを効率的に抽出できるようになります。

前提条件

始める前に、次の前提条件が設定されていることを確認してください。

  • C# プログラミングの基礎知識。
  • マシンに Visual Studio がインストールされています。
  • GroupDocs.Parser for .NET ライブラリがプロジェクトにインストールされ、参照されます。

名前空間のインポート

まず、必要な名前空間を C# ファイルに追加します。

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

プロセスをステップごとの手順に分解してみましょう。

ステップ1: テンプレートフィールドを定義する

まず、正規表現を使用してドキュメントから抽出するフィールドを定義します。

// 「価格」フィールドを定義する
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
//「メール」フィールドを定義する
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
//定義されたフィールドを持つテンプレートを作成する
Template template = new Template(new TemplateItem[] { priceField, emailField });

このステップでは、価格を抽出するためのフィールド (ドル記号と数字で識別) と電子メール アドレスを抽出するためのフィールドの 2 つを定義しました。

ステップ2: ドキュメントを解析する

次に、Parser定義されたテンプレートを使用してドキュメントを解析するクラス。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //テンプレートに従ってドキュメントを解析する
    DocumentData data = parser.ParseByTemplate(template);
    //抽出されたデータを反復処理する
    for (int i = 0; i < data.Count; i++)
    {
        //フィールド名を印刷
        Console.Write(data[i].Name + ": ");
        //抽出された領域がテキストであるかどうかを確認する
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

ここで、Parserサンプル ドキュメントへのパスを入力し、定義されたテンプレートを使用してドキュメントを解析します。次に、抽出されたデータを反復処理し、抽出されたテキストとともにフィールド名を出力します。

結論

このチュートリアルでは、テンプレートを使用してドキュメントから特定のデータを抽出する GroupDocs.Parser for .NET の使用方法について説明しました。正規表現とテンプレートを活用することで、さまざまなドキュメント形式から構造化された情報を効率的に抽出できます。特定の抽出ニーズに合わせて、さまざまなテンプレートとドキュメント タイプを試してください。

よくある質問

GroupDocs.Parser はスキャンされたドキュメントからデータを抽出できますか?

はい、GroupDocs.Parser はスキャンされた PDF ドキュメントと検索可能な PDF ドキュメントの両方からテキストとメタデータを抽出できます。

GroupDocs.Parser は .NET Core アプリケーションと互換性がありますか?

はい、GroupDocs.Parser は .NET Framework とともに .NET Core をサポートしています。

GroupDocs.Parser はどのようなドキュメント形式をサポートしていますか?

GroupDocs.Parser は、PDF、Microsoft Word、Excel、PowerPoint など、幅広い形式をサポートしています。

GroupDocs.Parser で大きなドキュメントを処理するにはどうすればよいですか?

GroupDocs.Parser は、大規模なドキュメントの特定のページまたはセクションからデータを抽出し、効率的な処理を保証するオプションを提供します。

GroupDocs.Parser をテキスト抽出のみに使用できますか?

はい、複雑な書式設定を必要とせずに、GroupDocs.Parser を使用してドキュメントからプレーンテキスト コンテンツを抽出できます。