Wyodrębnij sformatowany tekst z dokumentu
Wstęp
W tym samouczku omówimy, jak używać programu GroupDocs.Parser dla platformy .NET do wyodrębniania sformatowanego tekstu z różnych typów dokumentów. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom pracę z dokumentami w uproszczony i wydajny sposób. Po przeczytaniu tego przewodnika będziesz w stanie bezproblemowo zintegrować funkcje wyodrębniania tekstu z aplikacjami .NET.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następujące elementy:
- Visual Studio: Upewnij się, że masz zainstalowany program Visual Studio w swoim systemie.
- GroupDocs.Parser dla .NET: Pobierz i zainstaluj bibliotekę GroupDocs.Parser zTutaj.
- Próbki dokumentów: Przygotuj przykładowe dokumenty (np. PDF, DOCX) do wyodrębnienia tekstu.
Importuj przestrzenie nazw
Najpierw uwzględnij niezbędne przestrzenie nazw w kodzie C#:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
Krok 1: Utwórz instancję klasy analizatora składni
Rozpocznij od inicjalizacji aParser
obiekt ścieżką do przykładowego dokumentu.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Tutaj znajduje się kod wyodrębniania tekstu
}
Zastępować"YourSampleFile.pdf"
ze ścieżką do pliku dokumentu.
Krok 2: Wyodrębnij sformatowany tekst
W ramachusing
blokuj, użyjGetFormattedText
metoda wyodrębniania sformatowanego tekstu z dokumentu. Określ żądany format wyjściowy (np. HTML) za pomocąFormattedTextOptions
.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Wyodrębnij sformatowany tekst do czytnika
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
// Sprawdź, czy ekstrakcja jest obsługiwana
if (reader == null)
{
Console.WriteLine("Formatted text extraction isn't supported.");
}
else
{
// Przeczytaj i wyświetl wyodrębniony tekst
Console.WriteLine(reader.ReadToEnd());
}
}
}
Wniosek
Gratulacje! Nauczyłeś się, jak wyodrębniać sformatowany tekst z dokumentów za pomocą GroupDocs.Parser dla .NET. Ta wszechstronna biblioteka otwiera możliwości przetwarzania i analizy tekstu w aplikacjach.
Często zadawane pytania
P: Czy GroupDocs.Parser może wyodrębnić tekst z dokumentów chronionych hasłem?
O: Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu z dokumentów chronionych hasłem.
P: Jakie formaty dokumentów są obsługiwane przez GroupDocs.Parser?
Odp.: GroupDocs.Parser obsługuje szeroką gamę formatów, w tym PDF, DOCX, XLSX, PPTX i inne.
P: Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?
Odpowiedź: Możesz uzyskać tymczasową licencję odTutaj.
P: Czy GroupDocs.Parser zapewnia obsługę wyodrębniania obrazów z dokumentów?
O: Tak, GroupDocs.Parser obsługuje wyodrębnianie obrazów wraz z wyodrębnianiem tekstu.
P: Gdzie mogę znaleźć dodatkową pomoc lub zadać pytania dotyczące GroupDocs.Parser?
O: OdwiedźForum GroupDocs.Parserza wsparcie i dyskusje.