PDFからテキストを抽出する
導入
このチュートリアルでは、GroupDocs.Parser for .NET を使用して PDF ドキュメントからテキストを抽出する方法について説明します。GroupDocs.Parser は、開発者が PDF、Microsoft Office などのさまざまなドキュメント形式からテキスト、メタデータ、構造化データを抽出できるようにする強力な API です。
前提条件
始める前に、次のものがあることを確認してください。
- マシンに Visual Studio がインストールされています。
- GroupDocs.Parser for .NETがインストールされています。ダウンロードできます。ここ.
- C# プログラミングの基礎知識。
名前空間のインポート
まず、C# コードに必要な名前空間をインポートすることから始めます。
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
ステップ1: パーサークラスのインスタンスを作成する
インスタンス化するParser
サンプル PDF ファイルへのパスを指定してクラスを作成します。
//Parserクラスのインスタンスを作成する
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
//ここにコードを入力してください
}
ステップ2: PDFからテキストを抽出する
以内Parser
たとえば、GetText()
PDF からテキストを抽出する方法:
//テキストをリーダーに抽出する
using (TextReader reader = parser.GetText())
{
//ここにコードを入力してください
}
ステップ3: 抽出したテキストを読んで印刷する
さて、抽出したテキストを読んでみましょうTextReader
そしてそれを印刷します:
//抽出したテキストを印刷する
Console.WriteLine(reader.ReadToEnd());
結論
このチュートリアルでは、GroupDocs.Parser for .NETを使用してPDF文書からテキストを抽出する基本について説明しました。Parser
クラスを使用してテキストを抽出し、抽出したコンテンツを印刷します。この API は、PDF やその他のドキュメント形式をプログラムで処理するための簡単な方法を提供します。
よくある質問
GroupDocs.Parser は PDF 以外のドキュメント形式と互換性がありますか?
はい、GroupDocs.Parser は DOCX、XLSX、PPTX など、幅広い形式をサポートしています。
ライセンスを購入する前に GroupDocs.Parser を試すことはできますか?
はい、無料試用版を入手できますここ.
GroupDocs.Parser のドキュメントはどこにありますか?
詳細なドキュメントが利用可能ここ.
GroupDocs.Parser のテクニカル サポートを受けるにはどうすればよいですか?
サポートフォーラムで助けを求めることができますここ.
GroupDocs.Parser の一時ライセンスを取得するにはどうすればよいですか?
一時ライセンスを取得できるここ.