Word文書からテキストを抽出する

導入

このチュートリアルでは、GroupDocs.Parser for .NET を使用して Word 文書からテキストを抽出する方法について説明します。GroupDocs.Parser は、開発者が Word 文書、PDF など、さまざまな文書形式を操作できるようにする強力な .NET ライブラリです。このガイドを読み終えると、簡単な C# コードを使用して Word ファイルからテキストを効率的に抽出できるようになります。

前提条件

始める前に、次の前提条件が満たされていることを確認してください。

  • Visual Studio (または任意の C# 開発環境)
  • GroupDocs.Parser for .NETライブラリがインストールされている(ダウンロードここ
  • C#プログラミングの基礎知識

名前空間のインポート

まず、GroupDocs.Parser 機能にアクセスするために、C# プロジェクトに必要な名前空間をインポートする必要があります。

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;

ステップ1: パーサークラスのインスタンスを作成する

まず、Parserクラスは、Word 文書へのパスを提供します。

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    //テキスト抽出のコードはここに記入します
}

交換する"YourSampleFile.docx"実際の Word 文書へのパスを入力します。

ステップ 2: テキストを TextReader に抽出する

以内usingブロックのParserたとえば、GetText()テキストコンテンツを抽出する方法TextReader.

using (TextReader reader = parser.GetText())
{
    //テキスト処理コードはここに記入します
}

ステップ3: 抽出したテキストを読み取って表示する

さて、TextReaderブロックを使用すると、Word 文書から抽出したテキストを読み取って印刷できます。

using (TextReader reader = parser.GetText())
{
    //抽出したテキストを読んで印刷する
    Console.WriteLine(reader.ReadToEnd());
}

結論

おめでとうございます! GroupDocs.Parser for .NET を使用して Word 文書からテキストを抽出する方法を学習しました。このシンプルでありながら強力なライブラリを使用すると、テキスト抽出機能を .NET アプリケーションに効率的に統合できます。

よくある質問

GroupDocs.Parser は .NET のすべてのバージョンと互換性がありますか?

はい、GroupDocs.Parser for .NET は .NET Framework 4.6.1 以降のバージョンと互換性があります。

暗号化またはパスワードで保護された Word 文書からテキストを抽出できますか?

GroupDocs.Parser は、パスワードで保護された Word 文書からのテキストの抽出をサポートしています。

GroupDocs.Parser は Word 文書以外の文書形式もサポートしていますか?

はい、GroupDocs.Parser は PDF、Excel、PowerPoint など、幅広いドキュメント形式をサポートしています。

GroupDocs.Parser の一時ライセンスを取得するにはどうすればよいですか?

GroupDocs.Parserの一時ライセンスをリクエストできますここ.

GroupDocs.Parser に関する追加サポートや質問はどこで受けられますか?

GroupDocs.Parserフォーラムにアクセスしてくださいここサポートとディスカッションのため。