OCRの処理

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用して光学式文字認識 (OCR) タスクを効率的に処理する方法について説明します。このライブラリは、ドキュメントからテキストを抽出するための強力なツールを提供します。OCR を使用すると、画像やスキャンしたドキュメントからでもテキストを抽出できます。プロセスをステップごとに見ていきましょう。

前提条件

始める前に、次の設定がされていることを確認してください。

  • GroupDocs.Parser for .NETライブラリ: ライブラリをここからダウンロードしてくださいここ.
  • サンプル ファイル: テキストを抽出するサンプル ファイル (ドキュメントまたは画像) を準備します。
  • C# および .NET 環境に関する基本的な知識。

名前空間のインポート

まず、.NET アプリケーションで GroupDocs.Parser 機能を使用するために必要な名前空間をインポートする必要があります。

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

ステップ1: OCRコネクタを使用してパーサー設定を作成する

初期化するParserSettingsOCR コネクタを備えたクラス。たとえば、オンプレミスの Aspose OCR を使用します。

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

ステップ2: OCRオプションを構成する

設定するOcrEventHandlerOCR 処理中の警告を処理します。

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

ステップ3: テキスト抽出オプションを構成する

作成するTextOptionsOCR ベースのテキスト抽出を有効にします。

TextOptions options = new TextOptions(false, true, ocrOptions);

ステップ4: OCRを使用してテキストを抽出する

インスタンス化するParser設定を使用してクラスを作成し、OCR を使用してテキストを抽出します。

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

結論

これらの手順に従うことで、GroupDocs.Parser for .NET を活用して、アプリケーション内で OCR タスクを効率的に処理できます。このライブラリが提供する強力な機能により、画像やスキャンしたドキュメントからのテキストの抽出がシームレスになります。

よくある質問

GroupDocs.Parser for .NET はさまざまなファイル形式と互換性がありますか?

はい、GroupDocs.Parser は、PDF、DOCX、PPTX、XLSX、画像 (JPEG、PNG、TIFF) など、幅広いファイル形式をサポートしています。

GroupDocs.Parser for .NET を商用プロジェクトで使用できますか?

はい、ライセンスを購入すれば、GroupDocs.Parser for .NET を商用アプリケーションに統合できます。

GroupDocs.Parser は暗号化されたファイルやパスワードで保護されたファイルを処理できますか?

GroupDocs.Parser は、パスワードで保護された PDF ドキュメントからテキストを解析して抽出できます。

GroupDocs.Parser for .NET の試用版はありますか?

はい、無料試用版は以下からダウンロードできます。ここ.

GroupDocs.Parser for .NET に関するサポートや質問はどこで受けられますか?

訪問することができますGroupDocs.Parser フォーラムサポートに関する質問やディスカッションについては、