Wyodrębnij tekst z dokumentu Word jako HTML

Wstęp

GroupDocs.Parser dla .NET to potężna biblioteka do analizowania dokumentów, która umożliwia programistom bezproblemowe wyodrębnianie tekstu i metadanych z różnych formatów plików. W tym samouczku skupimy się na wykorzystaniu narzędzia GroupDocs.Parser do wyodrębniania tekstu z dokumentów programu Word i zapisywania go w formacie HTML. Proces ten jest niezbędny w przypadku zadań takich jak analiza treści, indeksowanie lub konwertowanie dokumentów do formatów przyjaznych dla Internetu. Pod koniec tego przewodnika będziesz już w pełni świadomy, jak efektywnie używać GroupDocs.Parser w aplikacjach .NET.

Warunki wstępne

Zanim zagłębisz się w ten samouczek, upewnij się, że spełniasz następujące wymagania wstępne:

  • Podstawowa znajomość programowania w języku C#.
  • Program Visual Studio zainstalowany na komputerze programistycznym.
  • Biblioteka GroupDocs.Parser dla .NET. Można go pobrać zTutaj.
  • Dostęp do przykładowego dokumentu Word w celach testowych.

Importuj przestrzenie nazw

Aby rozpocząć, musisz zaimportować niezbędne przestrzenie nazw do swojego projektu C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Wykonaj poniższe szczegółowe kroki, aby wyodrębnić tekst z dokumentu programu Word i zapisać go w formacie HTML przy użyciu GroupDocs.Parser dla .NET:

Krok 1: Utwórz instancję klasy analizatora składni

Najpierw utwórz instancjęParser class, podając ścieżkę do przykładowego dokumentu programu Word:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Przejdź do kroku 2...
}

Zastępować"YourSampleFile.docx"ze ścieżką do dokumentu programu Word.

Krok 2: Wyodrębnij sformatowany tekst jako HTML

Następnie użyjGetFormattedText metoda wraz zFormattedTextOptionsaby wyodrębnić tekst w formacie HTML:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Wyodrębnij sformatowany tekst do czytnika
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Przejdź do kroku 3...
    }
}

Krok 3: Przeczytaj i wyślij wyodrębniony kod HTML

Na koniec przeczytaj wyodrębnioną treść HTML z plikuTextReader i wydrukuj go na konsoli:

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Wyodrębnij sformatowany tekst do czytnika
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Wydrukuj sformatowany tekst jako HTML
        Console.WriteLine(reader.ReadToEnd());
    }
}

Wniosek

W tym samouczku omówiliśmy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania tekstu z dokumentu programu Word i zapisywania go w formacie HTML. Biblioteka ta oferuje prosty i wydajny sposób analizowania treści dokumentów, co czyni ją nieocenionym narzędziem do zadań związanych z przetwarzaniem dokumentów w aplikacjach .NET.

Często zadawane pytania

Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?

Możesz poprosić o licencję tymczasową odTutaj.

Gdzie mogę znaleźć więcej dokumentacji dla GroupDocs.Parser?

Dostępna jest szczegółowa dokumentacjaTutaj.

Czy dostępna jest bezpłatna wersja próbna programu GroupDocs.Parser?

Tak, możesz uzyskać dostęp do bezpłatnej wersji próbnejTutaj.

Jak uzyskać pomoc dotyczącą GroupDocs.Parser?

Odwiedź forum pomocyTutaj.

Jakie typy dokumentów obsługuje GroupDocs.Parser?

GroupDocs.Parser obsługuje różne formaty dokumentów, w tym Word, PDF, Excel, PowerPoint i inne.