Załaduj dokument z dysku lokalnego
Wstęp
W tym samouczku omówimy, jak używać GroupDocs.Parser dla .NET do wyodrębniania tekstu z dokumentów. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom analizowanie różnych formatów dokumentów i programowe wyodrębnianie zawartości tekstowej. Omówimy kroki niezbędne do rozpoczęcia ekstrakcji tekstu przy użyciu tej biblioteki.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz zainstalowane następujące wymagania wstępne:
- Program Visual Studio zainstalowany w systemie.
- Podstawowa znajomość języka programowania C#.
- Zainstalowana biblioteka GroupDocs.Parser for .NET (pobierzTutaj).
Importuj przestrzenie nazw
Najpierw musisz zaimportować niezbędne przestrzenie nazw do swojego projektu C#:
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
Krok 1: Załaduj dokument z dysku lokalnego
Rozpocznij od załadowania dokumentu z dysku lokalnego. Zastępować"Your Sample File"
ze ścieżką do dokumentu docelowego.
// Ustaw ścieżkę pliku
string filePath = "Your Sample File";
// Utwórz instancję klasy Parser z filePath
using (Parser parser = new Parser(filePath))
{
// Wyodrębnij tekst do czytnika
using (TextReader reader = parser.GetText())
{
//Wydrukuj wyodrębniony tekst z dokumentu
// Jeśli wyodrębnianie tekstu nie jest obsługiwane, czytnik będzie miał wartość null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
Wyjaśnienie kroków
- Ustawianie ścieżki pliku: Rozpocznij od określenia ścieżki do dokumentu, z którego chcesz wyodrębnić tekst (
filePath
zmienny). - Tworzenie instancji analizatora składni: Utwórz instancję
Parser
klasę, przechodzącfilePath
. - Wyodrębnianie tekstu: Użyj
GetText()
metodaParser
przykład, aby uzyskaćTextReader
obiekt zawierający wyodrębniony tekst z dokumentu. - Czytanie wyodrębnionego tekstu: Wykorzystaj
ReadToEnd()
metodaTextReader
aby pobrać całą zawartość tekstową wyodrębnioną z dokumentu. - Obsługa nieobsługiwanych formatów: Jeśli format dokumentu nie obsługuje wyodrębniania tekstu, plik
reader
obiekt będzienull
i możesz odpowiednio obsłużyć ten scenariusz.
Wniosek
tym samouczku omówiliśmy początkowe kroki wyodrębniania tekstu z dokumentu przy użyciu programu GroupDocs.Parser dla platformy .NET. Biblioteka ta oferuje rozbudowane funkcje analizowania dokumentów, umożliwiając programistom wydajną pracę z różnymi formatami plików w ich aplikacjach.
Często zadawane pytania
Czy GroupDocs.Parser jest kompatybilny ze wszystkimi formatami dokumentów?
GroupDocs.Parser obsługuje szeroką gamę formatów, w tym PDF, dokumenty Microsoft Office (Word, Excel, PowerPoint) i inne.
Czy mogę wyodrębnić metadane wraz z tekstem za pomocą GroupDocs.Parser?
Tak, GroupDocs.Parser umożliwia wyodrębnianie zarówno treści tekstowych, jak i metadanych z obsługiwanych formatów dokumentów.
Gdzie mogę znaleźć więcej zasobów i wsparcia dla GroupDocs.Parser?
OdwiedzićDokumentacja GroupDocs.Parser aby uzyskać szczegółowe informacje o interfejsie API i zapoznać się zForum GroupDocs za wsparcie społeczności.
Jak mogę uzyskać tymczasową licencję na GroupDocs.Parser?
Możesz poprosić olicencja tymczasowa do celów oceny i testowania.
Czy dostępna jest bezpłatna wersja próbna programu GroupDocs.Parser?
Tak, możesz pobrać plikbezpłatna wersja próbna wersja GroupDocs.Parser.