Wyodrębnij tekst ze strony w trybie surowym

Wstęp

W tym samouczku dowiesz się, jak używać Groupdocs.Parser dla .NET do wyodrębniania tekstu ze stron dokumentów w trybie nieprzetworzonym. Ta biblioteka zapewnia wydajne narzędzia do analizowania i wyodrębniania zawartości z różnych formatów plików, umożliwiając programistom włączenie wyodrębniania tekstu dokumentu do swoich aplikacji .NET.

Warunki wstępne

Zanim zaczniesz, upewnij się, że masz następujące wymagania wstępne:

  • Podstawowa znajomość programowania w C# i .NET
  • Program Visual Studio zainstalowany na Twoim komputerze
  • Dostęp do biblioteki Groupdocs.Parser for .NET
  • Przykładowy plik dokumentu do testów

Importuj przestrzenie nazw

Zacznij od uwzględnienia niezbędnych przestrzeni nazw w projekcie C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Zainicjuj analizator składni

Najpierw utwórz instancjęParser class, podając ścieżkę do przykładowego pliku dokumentu.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Twój kod tutaj
}

Krok 2: Pobierz informacje o dokumencie

Pobierz informacje o dokumencie za pomocąGetDocumentInfo() metoda.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Krok 3: Iteruj po stronach i wyodrębnij tekst

Iteruj po każdej stronie dokumentu i wyodrębnij treść tekstową.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Wyodrębnij tekst ze strony
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Wniosek

Nauczyłeś się już, jak używać programu Groupdocs.Parser dla platformy .NET do wyodrębniania tekstu ze stron dokumentów w trybie nieprzetworzonym. Może to być zaawansowana funkcja w przypadku aplikacji, które muszą analizować lub przetwarzać treść tekstową z różnych formatów plików.

Często zadawane pytania

Czy Groupdocs.Parser dla .NET jest kompatybilny ze wszystkimi formatami plików?

Groupdocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, DOCX, XLSX, PPTX, EPUB i inne.

Czy za pomocą tej biblioteki mogę wyodrębnić metadane wraz z tekstem?

Tak, Groupdocs.Parser umożliwia wyodrębnianie tekstu i metadanych z dokumentów.

Czy dostępna jest wersja próbna do przetestowania?

Tak, możesz pobrać bezpłatną wersję próbną ze stronyTutaj.

Jak mogę uzyskać pomoc techniczną dla Groupdocs.Parser?

Aby uzyskać pomoc techniczną, odwiedź stronęForum Groupdocs.Parser.

Gdzie mogę kupić licencję na Groupdocs.Parser dla .NET?

Możesz kupić licencjęTutaj.