Wyodrębnij tekst z określonych obszarów na stronie
Wstęp
W tym samouczku przyjrzymy się, jak wyodrębnić tekst z określonych obszarów strony za pomocą biblioteki GroupDocs.Parser for .NET. GroupDocs.Parser upraszcza wyodrębnianie tekstu z dokumentów, umożliwiając programistom wyodrębnianie tekstu z określonych obszarów zainteresowania w dokumencie. Może to być szczególnie przydatne w przypadku złożonych dokumentów, w których wymagana jest precyzyjna ekstrakcja tekstu do dalszego przetwarzania lub analizy.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następujące elementy:
- Program Visual Studio zainstalowany na Twoim komputerze.
- Podstawowa znajomość programowania w języku C#.
- Zainstalowana biblioteka GroupDocs.Parser for .NET. Można go pobrać zTutaj.
- Przykładowe pliki dokumentów do testowania ekstrakcji tekstu.
Importuj przestrzenie nazw
Najpierw uwzględnij niezbędne przestrzenie nazw w pliku kodu C#, aby uzyskać dostęp do funkcjonalności GroupDocs.Parser:
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Utwórz instancję klasy analizatora składni
Aby rozpocząć wyodrębnianie tekstu z dokumentu, utwórz instancję plikuParser
class, podając ścieżkę do przykładowego pliku dokumentu:
// Utwórz instancję klasy Parser
using (Parser parser = new Parser("YourSampleFile.docx"))
{
// Kontynuuj wyodrębnianie tekstu...
}
Zastępować"YourSampleFile.docx"
ze ścieżką do rzeczywistego pliku dokumentu.
Krok 2: Sprawdź obsługę wyodrębniania obszarów tekstowych
Przed przystąpieniem do wyodrębniania tekstu sprawdź, czy dokument obsługuje wyodrębnianie obszarów tekstowych za pomocąFeatures
własnośćParser
klasa:
// Sprawdź, czy dokument obsługuje wyodrębnianie obszarów tekstowych
if (!parser.Features.TextAreas)
{
Console.WriteLine("Document doesn't support text areas extraction.");
return;
}
Ten krok gwarantuje, że dokument będzie mógł zostać przetworzony w celu wyodrębnienia obszarów tekstowych.
Krok 3: Uzyskaj informacje o dokumencie
Uzyskaj podstawowe informacje o dokumencie za pomocąGetDocumentInfo()
metoda:
// Uzyskaj informacje o dokumencie
IDocumentInfo documentInfo = parser.GetDocumentInfo();
Informacje te obejmują liczbę stron i inne metadane dotyczące dokumentu.
Krok 4: Iteruj po stronach dokumentu
Iteruj po każdej stronie dokumentu, aby wyodrębnić tekst z określonych obszarów:
// Sprawdź, czy dokument ma strony
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document doesn't have any pages.");
return;
}
// Iteruj po stronach
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
// Wydrukuj numer bieżącej strony
Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
// Kontynuuj wyodrębnianie tekstu z obszarów...
}
Ta pętla przetwarza każdą stronę dokumentu sekwencyjnie.
Krok 5: Wyodrębnij tekst z określonych obszarów
pętli iteracji strony pobierz tekst z określonych obszarów zainteresowania za pomocąGetTextAreas()
metoda:
// Iteruj po obszarach tekstowych strony
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
// Wydrukuj współrzędne prostokąta i wartość obszaru tekstowego
Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}
Ten krok powoduje wyodrębnienie tekstu z każdego zdefiniowanego obszaru (takiego jak prostokąty ograniczające) na stronie i wyświetlenie wyodrębnionego tekstu.
Wniosek
W tym samouczku nauczyliśmy się, jak wyodrębniać tekst z określonych obszarów strony za pomocą programu GroupDocs.Parser dla platformy .NET. Wykorzystując możliwości tej biblioteki, programiści mogą dokładnie pobierać tekst z docelowych regionów w dokumentach dla różnych zastosowań.
Często zadawane pytania
Czy mogę wyodrębnić tekst ze zeskanowanych obrazów za pomocą GroupDocs.Parser dla .NET?
Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu ze zeskanowanych obrazów za pomocą funkcji OCR (optycznego rozpoznawania znaków).
Czy GroupDocs.Parser jest kompatybilny z różnymi formatami dokumentów?
Tak, GroupDocs.Parser obsługuje szeroką gamę formatów dokumentów, w tym PDF, dokumenty Microsoft Office i inne.
Jak radzić sobie ze złożonymi strukturami dokumentów z elementami zagnieżdżonymi?
GroupDocs.Parser udostępnia funkcje umożliwiające poruszanie się po złożonych strukturach dokumentów i selektywne wyodrębnianie tekstu w oparciu o zdefiniowane kryteria.
Czy GroupDocs.Parser zachowuje formatowanie podczas wyodrębniania tekstu?
GroupDocs.Parser koncentruje się na wyodrębnianiu surowej zawartości tekstowej; można jednak w razie potrzeby zintegrować w aplikacji dodatkową logikę formatowania.
Czy można używać GroupDocs.Parser do wsadowego przetwarzania dokumentów?
Tak, GroupDocs.Parser można zintegrować z przepływami pracy przetwarzania wsadowego, aby efektywnie obsługiwać wiele dokumentów.