ローカルディスクからドキュメントを読み込む

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用してドキュメントからテキストを抽出する方法について説明します。GroupDocs.Parser は、開発者がさまざまなドキュメント形式を解析し、プログラムでテキストコンテンツを抽出できるようにする強力なライブラリです。このライブラリを使用してテキスト抽出を開始するために必要な手順について説明します。

前提条件

始める前に、次の前提条件がインストールされていることを確認してください。

Visual Studio がシステムにインストールされています。
C# プログラミング言語に関する基本的な知識。
GroupDocs.Parser for .NETライブラリがインストールされている（ダウンロードここ）。

名前空間のインポート

まず、必要な名前空間を C# プロジェクトにインポートする必要があります。

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;

ステップ1: ローカルディスクからドキュメントを読み込む

まず、ローカルディスクからドキュメントを読み込み、"Your Sample File"対象ドキュメントへのパスを入力します。

//ファイルパスを設定する
string filePath = "Your Sample File";
//filePathを使用してParserクラスのインスタンスを作成する
using (Parser parser = new Parser(filePath))
{
    //テキストをリーダーに抽出する
    using (TextReader reader = parser.GetText())
    {
        //文書から抽出したテキストを印刷する
        //テキスト抽出がサポートされていない場合、リーダーはnullになります
        Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
    }
}

手順の説明

ファイルパスの設定: テキストを抽出したいドキュメントへのパスを指定します（filePath変数）。
パーサーインスタンスの作成:Parserクラスに合格してfilePath.
テキストの抽出:GetText()方法のParserインスタンスを取得するTextReaderドキュメントから抽出されたテキストを含むオブジェクト。
抽出されたテキストの読み取り:ReadToEnd()方法のTextReaderドキュメントから抽出されたテキストコンテンツ全体を取得します。
サポートされていない形式の処理: ドキュメント形式がテキスト抽出をサポートしていない場合、readerオブジェクトはnull、このシナリオに応じて対処することができます。

結論

このチュートリアルでは、GroupDocs.Parser for .NET を使用してドキュメントからテキストを抽出するための最初の手順について説明しました。このライブラリはドキュメント解析のための広範な機能を提供しており、開発者はアプリケーション内でさまざまなファイル形式を効率的に操作できます。

よくある質問

GroupDocs.Parser はすべてのドキュメント形式と互換性がありますか?

GroupDocs.Parser は、PDF、Microsoft Office ドキュメント (Word、Excel、PowerPoint) など、幅広い形式をサポートしています。

GroupDocs.Parser を使用してテキストとともにメタデータを抽出できますか?

はい、GroupDocs.Parser では、サポートされているドキュメント形式からテキストコンテンツとメタデータの両方を抽出できます。

GroupDocs.Parser に関するその他のリソースやサポートはどこで見つかりますか?

訪問GroupDocs.Parser ドキュメント詳細なAPIリファレンスについては、GroupDocs フォーラムコミュニティサポートのため。

GroupDocs.Parser の一時ライセンスを取得するにはどうすればよいですか?

リクエストすることができます一時ライセンス評価およびテストの目的で。

GroupDocs.Parser の無料トライアルはありますか?

はい、ダウンロードできます無料トライアルGroupDocs.Parser のバージョン。

外部リソースの読み込みの処理ストリームからドキュメントを読み込む