PDFからテキストを抽出する

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用して PDF ドキュメントからテキストを抽出する方法について説明します。GroupDocs.Parser は、開発者が PDF、Microsoft Office などのさまざまなドキュメント形式からテキスト、メタデータ、構造化データを抽出できるようにする強力な API です。

前提条件

始める前に、次のものがあることを確認してください。

マシンに Visual Studio がインストールされています。
GroupDocs.Parser for .NETがインストールされています。ダウンロードできます。ここ.
C# プログラミングの基礎知識。

名前空間のインポート

まず、C# コードに必要な名前空間をインポートすることから始めます。

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;

ステップ1: パーサークラスのインスタンスを作成する

インスタンス化するParserサンプル PDF ファイルへのパスを指定してクラスを作成します。

//Parserクラスのインスタンスを作成する
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //ここにコードを入力してください
}

ステップ2: PDFからテキストを抽出する

以内Parserたとえば、GetText()PDF からテキストを抽出する方法:

//テキストをリーダーに抽出する
using (TextReader reader = parser.GetText())
{
    //ここにコードを入力してください
}

ステップ3: 抽出したテキストを読んで印刷する

さて、抽出したテキストを読んでみましょうTextReaderそしてそれを印刷します:

//抽出したテキストを印刷する
Console.WriteLine(reader.ReadToEnd());

結論

このチュートリアルでは、GroupDocs.Parser for .NETを使用してPDF文書からテキストを抽出する基本について説明しました。Parserクラスを使用してテキストを抽出し、抽出したコンテンツを印刷します。この API は、PDF やその他のドキュメント形式をプログラムで処理するための簡単な方法を提供します。

よくある質問

GroupDocs.Parser は PDF 以外のドキュメント形式と互換性がありますか?

はい、GroupDocs.Parser は DOCX、XLSX、PPTX など、幅広い形式をサポートしています。

ライセンスを購入する前に GroupDocs.Parser を試すことはできますか?

はい、無料試用版を入手できますここ.

GroupDocs.Parser のドキュメントはどこにありますか?

詳細なドキュメントが利用可能ここ.

GroupDocs.Parser のテクニカルサポートを受けるにはどうすればよいですか?

サポートフォーラムで助けを求めることができますここ.

GroupDocs.Parser の一時ライセンスを取得するにはどうすればよいですか?

一時ライセンスを取得できるここ.

PDFからメタデータを抽出する PDFの特定のページからテキストを抽出する