Wyodrębnij tekst w trybie surowym

Wstęp

W tym samouczku pokażemy, jak wykorzystać GroupDocs.Parser dla .NET do wydajnego wyodrębniania tekstu z różnych formatów dokumentów. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom wyodrębnianie tekstu i metadanych z dokumentów takich jak PDF, Word, Excel, PowerPoint i innych, upraszczając zadania wyodrębniania tekstu w aplikacjach .NET.

Warunki wstępne

Zanim zagłębisz się w ten samouczek, upewnij się, że masz skonfigurowane następujące wymagania wstępne:

  • Visual Studio lub inne środowisko programistyczne .NET zainstalowane na Twoim komputerze.
  • Podstawowa znajomość języka programowania C#.
  • Dostęp do biblioteki GroupDocs.Parser for .NET.

Importuj przestrzenie nazw

Najpierw pamiętaj o zaimportowaniu wymaganych przestrzeni nazw dla GroupDocs.Parser w projekcie C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Krok 1: Zainicjuj GroupDocs.Parser

Aby rozpocząć wyodrębnianie tekstu, utwórz instancję plikuParserclass, przekazując ścieżkę do przykładowego dokumentu:

using (Parser parser = new Parser("YourSampleFile"))
{
    // Kontynuuj wyodrębnianie tekstu tutaj
}

Krok 2: Wyodrębnij surowy tekst

W ramachusing blokuj, użyjGetText metoda zTextOptions aby wyodrębnić surowy tekst z dokumentu:

using (TextReader reader = parser.GetText(new TextOptions(true)))
{
    // Kontynuuj czytanie tekstu z dokumentu
}

Krok 3: Przeczytaj tekst z dokumentu

Teraz skorzystaj zTextReader obiekt, aby przeczytać wyodrębniony tekst z dokumentu:

string extractedText = reader.ReadToEnd();
Console.WriteLine(extractedText);

Wniosek

Wykonując poniższe kroki, możesz skutecznie wyodrębnić nieprzetworzony tekst z dokumentów za pomocą GroupDocs.Parser dla .NET. Ten samouczek zawiera podstawowy przewodnik dotyczący wykorzystania tej biblioteki w aplikacjach .NET w celu płynnego wyodrębniania tekstu.

Często zadawane pytania

Jakie formaty plików obsługuje GroupDocs.Parser?

GroupDocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, Microsoft Word, Excel, PowerPoint i inne.

Czy mogę wyodrębnić metadane wraz z tekstem za pomocą GroupDocs.Parser?

Tak, GroupDocs.Parser umożliwia wyodrębnianie tekstu i metadanych z obsługiwanych formatów dokumentów.

Czy GroupDocs.Parser jest zgodny z platformą .NET Core?

Tak, GroupDocs.Parser jest kompatybilny z .NET Core wraz z tradycyjnym .NET Framework.

Czy GroupDocs.Parser obsługuje dokumenty chronione hasłem?

Tak, GroupDocs.Parser może przetwarzać dokumenty chronione hasłem, jeśli zostanie podane prawidłowe hasło.

Czy mogę zintegrować GroupDocs.Parser z moimi aplikacjami internetowymi?

Z pewnością GroupDocs.Parser można bezproblemowo zintegrować z aplikacjami internetowymi tworzonymi przy użyciu technologii .NET.