Wyodrębnij sformatowany tekst z dokumentu

Wstęp

W tym samouczku omówimy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania sformatowanego tekstu z różnych typów dokumentów. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom pracę z dokumentami w uproszczony i wydajny sposób. Po przeczytaniu tego przewodnika będziesz w stanie bezproblemowo zintegrować funkcje wyodrębniania tekstu z aplikacjami .NET.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz następujące elementy:

  • Visual Studio: Upewnij się, że masz zainstalowany program Visual Studio w swoim systemie.
  • GroupDocs.Parser dla .NET: Pobierz i zainstaluj bibliotekę GroupDocs.Parser zTutaj.
  • Próbki dokumentów: Przygotuj przykładowe dokumenty (np. PDF, DOCX) do wyodrębnienia tekstu.

Importuj przestrzenie nazw

Najpierw uwzględnij niezbędne przestrzenie nazw w kodzie C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Krok 1: Utwórz instancję klasy analizatora składni

Rozpocznij od inicjalizacji aParser obiekt ścieżką do przykładowego dokumentu.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Tutaj znajduje się kod wyodrębniania tekstu
}

Zastępować"YourSampleFile.pdf" ze ścieżką do pliku dokumentu.

Krok 2: Wyodrębnij sformatowany tekst

W ramachusing blokuj, użyjGetFormattedText metoda wyodrębniania sformatowanego tekstu z dokumentu. Określ żądany format wyjściowy (np. HTML) za pomocąFormattedTextOptions.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Wyodrębnij sformatowany tekst do czytnika
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Sprawdź, czy ekstrakcja jest obsługiwana
        if (reader == null)
        {
            Console.WriteLine("Formatted text extraction isn't supported.");
        }
        else
        {
            // Przeczytaj i wyświetl wyodrębniony tekst
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

Wniosek

Gratulacje! Nauczyłeś się, jak wyodrębniać sformatowany tekst z dokumentów za pomocą GroupDocs.Parser dla .NET. Ta wszechstronna biblioteka otwiera możliwości przetwarzania i analizy tekstu w aplikacjach.

Często zadawane pytania

P: Czy GroupDocs.Parser może wyodrębnić tekst z dokumentów chronionych hasłem?

O: Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu z dokumentów chronionych hasłem.

P: Jakie formaty dokumentów są obsługiwane przez GroupDocs.Parser?

Odp.: GroupDocs.Parser obsługuje szeroką gamę formatów, w tym PDF, DOCX, XLSX, PPTX i inne.

P: Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?

Odpowiedź: Możesz uzyskać tymczasową licencję odTutaj.

P: Czy GroupDocs.Parser zapewnia obsługę wyodrębniania obrazów z dokumentów?

O: Tak, GroupDocs.Parser obsługuje wyodrębnianie obrazów wraz z wyodrębnianiem tekstu.

P: Gdzie mogę znaleźć dodatkową pomoc lub zadać pytania dotyczące GroupDocs.Parser?

O: OdwiedźForum GroupDocs.Parserza wsparcie i dyskusje.