正確モードでテキストを抽出する

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用して、さまざまなドキュメント形式からテキストを正確に抽出する方法について説明します。GroupDocs.Parser は、PDF、DOCX、PPTX、XLSX などのドキュメントからテキストを抽出できる強力なライブラリであり、データ処理アプリケーションにとって貴重なツールとなります。

前提条件

始める前に、以下のものを用意してください。

Visual Studio: マシンにインストールされています。
GroupDocs.Parser for .NET: ダウンロードされ、プロジェクトで参照されます。ダウンロードできます。ここ.

名前空間のインポート

開始するには、必要な名前空間をインポートする必要があります。

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;

ステップ1: パーサークラスのインスタンスを作成する

まず、Parserクラスに、サンプルファイルへのパスを引数として渡します。

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //テキスト抽出を続行します...
}

ステップ 2: テキストを TextReader に抽出する

次に、文書からテキストを抽出し、TextReader物体。

using (TextReader reader = parser.GetText())
{
    //テキスト処理を続行します...
}

ステップ3: 抽出したテキストにアクセスする

これで、文書から抽出したテキストにアクセスして処理することができます。TextReader.

string extractedText = reader == null ? "Text extraction isn't supported" : reader.ReadToEnd();
Console.WriteLine(extractedText);

結論

これらの手順に従うことで、GroupDocs.Parser for .NET を使用してさまざまなドキュメント形式からテキストを効率的に抽出できます。このライブラリは正確なテキスト抽出機能を提供し、データ分析、検索インデックス作成などのために .NET アプリケーションに統合できます。

よくある質問

GroupDocs.Parser は暗号化された PDF からテキストを抽出できますか?

はい、GroupDocs.Parser は適切な資格情報を使用してパスワードで保護された PDF からテキストを抽出することをサポートしています。

GroupDocs.Parser は画像ベースの PDF を処理しますか?

いいえ、GroupDocs.Parser は PDF、DOCX、XLSX などのテキストベースのドキュメントからテキストを抽出することに重点を置いています。画像ベースの PDF はサポートされていません。

GroupDocs.Parser は大規模なテキスト抽出タスクに適していますか?

はい、GroupDocs.Parser は、大きなドキュメントでも効率的にテキストを抽出できるように最適化されています。

GroupDocs.Parser を .NET Core アプリケーションに統合できますか?

はい、GroupDocs.Parser は、従来の .NET Framework プロジェクトに加えて、.NET Core アプリケーションとも互換性があります。

GroupDocs.Parser はテキスト抽出中に書式を保持しますか?

いいえ、GroupDocs.Parser はテキスト抽出のみに焦点を当てており、ドキュメントの書式は保持しません。

ページからテキストをRawモードで抽出する生モードでテキストを抽出