テキストの認識
導入
.NET 開発の分野では、さまざまなドキュメント形式から効率的にテキストを抽出することが最も重要です。GroupDocs.Parser for .NET は、テキストをシームレスに抽出するための堅牢なソリューションを提供します。このチュートリアルでは、GroupDocs.Parser を使用してドキュメントからテキストを認識して抽出する手順を段階的に説明します。
前提条件
GroupDocs.Parser の使用を開始する前に、次の前提条件を満たしていることを確認してください。
- C#プログラミングの基礎知識
- マシンに Visual Studio がインストールされている
- パッケージのダウンロードやドキュメントの参照のためのインターネットへのアクセス
名前空間のインポート
まず、GroupDocs.Parser 機能を活用するために必要な名前空間をインポートします。
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
ステップ1: GroupDocs.Parserをインストールする
まず、GroupDocs.Parserライブラリをダウンロードしてインストールします。ダウンロードリンク.
ステップ2: 一時ライセンスを取得する
GroupDocs.Parserを使用するには、一時ライセンスを取得してください。ここ.
ステップ3: ParserSettingsの初期化
インスタンスを作成するParserSettings
必要に応じて OCR コネクタを含むテキスト抽出設定を構成するクラス。
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
ステップ4: パーサーを使用してテキストを抽出する
さて、インスタンスを作成しますParser
構成された設定を持つクラス。
using (Parser parser = new Parser("YourSampleFile.docx", settings))
{
// OCR 使用のための TextOptions の設定
TextOptions options = new TextOptions(false, true);
//OCRを使用してテキストを抽出する
using (TextReader reader = parser.GetText(options))
{
//抽出されたテキストまたは「サポートされていません」というメッセージを表示する
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
このスニペットでは:
- 交換する
"YourSampleFile.docx"
対象ドキュメントへのパスを入力します。 TextOptions
OCR を有効にしてテキスト抽出を最適化するように構成されています。
結論
おめでとうございます!GroupDocs.Parser for .NETをプロジェクトに統合してテキストを効率的に抽出する方法を学びました。ドキュメンテーション高度な機能と最適化を実現します。
よくある質問
GroupDocs.Parser は PDF ファイルからテキストを抽出するのに適していますか?
はい、GroupDocs.Parser は PDF を含むさまざまな形式からのテキスト抽出をサポートしています。
GroupDocs.Parser を ASP.NET アプリケーションに統合できますか?
はい、GroupDocs.Parser は ASP.NET アプリケーションにシームレスに統合できます。
GroupDocs.Parser を商用利用する場合、ライセンスは必要ですか?
はい、商用利用にはライセンスが必要です。一時ライセンスを取得してくださいここ.
GroupDocs.Parser ではどのようなドキュメント形式がサポートされていますか?
GroupDocs.Parser は、DOCX、PDF、XLSX など、幅広い形式をサポートしています。
GroupDocs.Parser に関するサポートを求めたり、質問したりするにはどうすればよいですか?
訪問GroupDocs.Parser フォーラムサポートとディスカッションのため。