Wyodrębnij sformatowany tekst ze strony dokumentu
Wstęp
W tym samouczku przeprowadzimy Cię przez proces wyodrębniania sformatowanego tekstu ze stron dokumentu za pomocą GroupDocs.Parser dla .NET. Ta biblioteka umożliwia wydajne analizowanie i wyodrębnianie tekstu z różnych formatów dokumentów, takich jak PDF, Word, Excel i innych.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następujące elementy:
- Program Visual Studio zainstalowany w systemie.
- Podstawowa znajomość programowania w języku C#.
- Biblioteka GroupDocs.Parser dla .NET. Możesz go pobraćTutaj.
Importuj przestrzenie nazw
Najpierw zacznij od zaimportowania niezbędnych przestrzeni nazw do projektu C#.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
Krok 1: Utwórz instancję klasy analizatora składni
Rozpocznij od utworzenia instancjiParser
class, podając ścieżkę do przykładowego pliku.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Kod trafi tutaj
}
Krok 2: Sprawdź, czy obsługiwana jest ekstrakcja sformatowanego tekstu
Przed przystąpieniem do wyodrębniania tekstu sprawdź, czy dokument obsługuje wyodrębnianie tekstu w formacie.
if (!parser.Features.FormattedText)
{
Console.WriteLine("Document does not support formatted text extraction.");
return;
}
Krok 3: Uzyskaj informacje o dokumencie
Pobierz informacje o dokumencie, takie jak liczba stron.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
Krok 4: Iteruj po stronach dokumentu i wyodrębnij sformatowany tekst
Iteruj po każdej stronie dokumentu i wyodrębnij sformatowany tekst, korzystając z określonych opcji (np. format Markdown).
for (int p = 0; p < documentInfo.PageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Wniosek
Teraz wiesz, jak wyodrębnić sformatowany tekst ze stron dokumentu za pomocą GroupDocs.Parser dla .NET. Ta biblioteka zapewnia wydajne i łatwe w użyciu rozwiązanie do wyodrębniania tekstu z różnych formatów plików.
Często zadawane pytania
Czy GroupDocs.Parser obsługuje różne formaty plików?
Tak, GroupDocs.Parser obsługuje szeroką gamę formatów dokumentów, w tym PDF, DOCX, XLSX, PPTX i inne.
Czy GroupDocs.Parser jest zgodny z platformą .NET Core?
Tak, GroupDocs.Parser obsługuje .NET Core i .NET Framework.
Czy GroupDocs.Parser zachowuje formatowanie tekstu podczas wyodrębniania?
Tak, GroupDocs.Parser może podczas wyodrębniania tekstu zachować formatowanie, takie jak style i czcionki.
Czy mogę wyodrębnić obrazy i metadane za pomocą GroupDocs.Parser?
Tak, GroupDocs.Parser umożliwia wyodrębnianie obrazów, metadanych i tekstu z dokumentów.
Jak mogę uzyskać pomoc dotyczącą GroupDocs.Parser?
Możesz uzyskać wsparcie odForum GroupDocs.Parser.