Wyodrębnij tekst z określonych obszarów na stronie

Wstęp

W tym samouczku przyjrzymy się, jak wyodrębnić tekst z określonych obszarów strony za pomocą biblioteki GroupDocs.Parser for .NET. GroupDocs.Parser upraszcza wyodrębnianie tekstu z dokumentów, umożliwiając programistom wyodrębnianie tekstu z określonych obszarów zainteresowania w dokumencie. Może to być szczególnie przydatne w przypadku złożonych dokumentów, w których wymagana jest precyzyjna ekstrakcja tekstu do dalszego przetwarzania lub analizy.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz następujące elementy:

  • Program Visual Studio zainstalowany na Twoim komputerze.
  • Podstawowa znajomość programowania w języku C#.
  • Zainstalowana biblioteka GroupDocs.Parser for .NET. Można go pobrać zTutaj.
  • Przykładowe pliki dokumentów do testowania ekstrakcji tekstu.

Importuj przestrzenie nazw

Najpierw uwzględnij niezbędne przestrzenie nazw w pliku kodu C#, aby uzyskać dostęp do funkcjonalności GroupDocs.Parser:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Utwórz instancję klasy analizatora składni

Aby rozpocząć wyodrębnianie tekstu z dokumentu, utwórz instancję plikuParserclass, podając ścieżkę do przykładowego pliku dokumentu:

// Utwórz instancję klasy Parser
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Kontynuuj wyodrębnianie tekstu...
}

Zastępować"YourSampleFile.docx" ze ścieżką do rzeczywistego pliku dokumentu.

Krok 2: Sprawdź obsługę wyodrębniania obszarów tekstowych

Przed przystąpieniem do wyodrębniania tekstu sprawdź, czy dokument obsługuje wyodrębnianie obszarów tekstowych za pomocąFeatures własnośćParser klasa:

// Sprawdź, czy dokument obsługuje wyodrębnianie obszarów tekstowych
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

Ten krok gwarantuje, że dokument będzie mógł zostać przetworzony w celu wyodrębnienia obszarów tekstowych.

Krok 3: Uzyskaj informacje o dokumencie

Uzyskaj podstawowe informacje o dokumencie za pomocąGetDocumentInfo() metoda:

// Uzyskaj informacje o dokumencie
IDocumentInfo documentInfo = parser.GetDocumentInfo();

Informacje te obejmują liczbę stron i inne metadane dotyczące dokumentu.

Krok 4: Iteruj po stronach dokumentu

Iteruj po każdej stronie dokumentu, aby wyodrębnić tekst z określonych obszarów:

// Sprawdź, czy dokument ma strony
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// Iteruj po stronach
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // Wydrukuj numer bieżącej strony
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Kontynuuj wyodrębnianie tekstu z obszarów...
}

Ta pętla przetwarza każdą stronę dokumentu sekwencyjnie.

Krok 5: Wyodrębnij tekst z określonych obszarów

pętli iteracji strony pobierz tekst z określonych obszarów zainteresowania za pomocąGetTextAreas() metoda:

// Iteruj po obszarach tekstowych strony
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // Wydrukuj współrzędne prostokąta i wartość obszaru tekstowego
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

Ten krok powoduje wyodrębnienie tekstu z każdego zdefiniowanego obszaru (takiego jak prostokąty ograniczające) na stronie i wyświetlenie wyodrębnionego tekstu.

Wniosek

W tym samouczku nauczyliśmy się, jak wyodrębniać tekst z określonych obszarów strony za pomocą programu GroupDocs.Parser dla platformy .NET. Wykorzystując możliwości tej biblioteki, programiści mogą dokładnie pobierać tekst z docelowych regionów w dokumentach dla różnych zastosowań.

Często zadawane pytania

Czy mogę wyodrębnić tekst ze zeskanowanych obrazów za pomocą GroupDocs.Parser dla .NET?

Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu ze zeskanowanych obrazów za pomocą funkcji OCR (optycznego rozpoznawania znaków).

Czy GroupDocs.Parser jest kompatybilny z różnymi formatami dokumentów?

Tak, GroupDocs.Parser obsługuje szeroką gamę formatów dokumentów, w tym PDF, dokumenty Microsoft Office i inne.

Jak radzić sobie ze złożonymi strukturami dokumentów z elementami zagnieżdżonymi?

GroupDocs.Parser udostępnia funkcje umożliwiające poruszanie się po złożonych strukturach dokumentów i selektywne wyodrębnianie tekstu w oparciu o zdefiniowane kryteria.

Czy GroupDocs.Parser zachowuje formatowanie podczas wyodrębniania tekstu?

GroupDocs.Parser koncentruje się na wyodrębnianiu surowej zawartości tekstowej; można jednak w razie potrzeby zintegrować w aplikacji dodatkową logikę formatowania.

Czy można używać GroupDocs.Parser do wsadowego przetwarzania dokumentów?

Tak, GroupDocs.Parser można zintegrować z przepływami pracy przetwarzania wsadowego, aby efektywnie obsługiwać wiele dokumentów.