Wyszukaj tekst według wyrażenia regularnego (Regex)

Wstęp

W tym samouczku omówimy użycie narzędzia GroupDocs.Parser dla platformy .NET do wyszukiwania tekstu za pomocą wyrażeń regularnych (Regex) w dokumentach. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom wyodrębnianie tekstu i metadanych z różnych formatów plików, takich jak PDF, DOCX, XLSX i innych. Wyszukiwanie tekstu za pomocą wyrażeń regularnych jest szczególnie przydatne do skutecznego wyszukiwania wzorców lub określonej treści w dokumentach.

Warunki wstępne

Zanim zagłębisz się w ten samouczek, upewnij się, że posiadasz następujące elementy:

  1. Visual Studio: Zainstaluj Visual Studio IDE do programowania .NET.
  2. GroupDocs.Parser dla .NET: Pobierz i zainstaluj GroupDocs.Parser dla .NET zTutaj.
  3. Przykładowy plik: Przygotuj przykładowy dokument (PDF, DOCX itp.) w celu przetestowania funkcji wyszukiwania.

Importuj przestrzenie nazw

Najpierw zacznij od dołączenia niezbędnych przestrzeni nazw do kodu C#:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Utwórz instancję klasy analizatora składni

Utwórz instancjęParser class, podając ścieżkę do przykładowego pliku:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kod trafia tutaj
}

Zastępować"YourSampleFile.pdf" ze ścieżką do rzeczywistego pliku.

Krok 2: Wyszukaj przy użyciu wyrażeń regularnych

Zdefiniuj i wykonaj wyszukiwanie przy użyciu wzorca wyrażenia regularnego. Na przykład, aby znaleźć ciągi liczbowe (np. liczby całkowite) w dokumencie:

IEnumerable<SearchResult> searchResults = parser.Search("[0-9]+", new SearchOptions(true, false, true));

W tym przykładzie[0-9]+ to wzorzec wyrażenia regularnego, który dopasowuje jedną lub więcej cyfr.

Krok 3: Sprawdź wsparcie wyszukiwania

Sprawdź, czy operacja wyszukiwania jest obsługiwana dla typu dokumentu:

if (searchResults == null)
{
    Console.WriteLine("Search isn't supported");
    return;
}

Krok 4: Iteruj po wynikach wyszukiwania

Iteruj po wynikach wyszukiwania i przetwarzaj każde dopasowanie:

foreach (SearchResult result in searchResults)
{
    Console.WriteLine($"At {result.Position}: {result.Text}");
}

Ta pętla wydrukuje pozycję i pasujący tekst znaleziony w dokumencie.

Wniosek

Podsumowując, wykorzystanie GroupDocs.Parser dla .NET umożliwia wydajne wyszukiwanie tekstu przy użyciu wyrażeń regularnych w różnych formatach dokumentów. Postępując zgodnie z tym przewodnikiem, programiści mogą bezproblemowo zintegrować analizowanie dokumentów i wyodrębnianie tekstu w oparciu o wyrażenia regularne ze swoimi aplikacjami .NET.

Często zadawane pytania

Czy GroupDocs.Parser może wyszukiwać w zaszyfrowanych dokumentach?

Nie, GroupDocs.Parser nie może przeszukiwać dokumentów zaszyfrowanych lub chronionych hasłem.

Czy GroupDocs.Parser obsługuje OCR (optyczne rozpoznawanie znaków)?

Nie, GroupDocs.Parser nie wykonuje OCR. Polega na ekstrakcji tekstu z wewnętrznej struktury dokumentu.

Czy mogę wyszukiwać złożone wzorce za pomocą wyrażeń regularnych?

Tak, GroupDocs.Parser obsługuje w pełni rozwinięte wyrażenia regularne, umożliwiając złożone dopasowywanie wzorców w dokumentach.

Jakie formaty dokumentów są obsługiwane przy wyodrębnianiu tekstu?

GroupDocs.Parser obsługuje szeroką gamę formatów, w tym PDF, DOCX, XLSX, PPTX i inne.

Czy GroupDocs.Parser jest zgodny z platformą .NET Core?

Tak, GroupDocs.Parser jest kompatybilny z .NET Core do programowania na wielu platformach.