Rozpoznawanie tekstu w obszarach prostokątnych
Wstęp
W tym samouczku omówimy, jak używać programu GroupDocs.Parser dla platformy .NET do rozpoznawania tekstu w określonych prostokątnych obszarach dokumentów. GroupDocs.Parser to potężna biblioteka, która umożliwia programistom wyodrębnianie tekstu, metadanych i innych danych z różnych formatów plików, w tym PDF, Word, Excel i PowerPoint.
Warunki wstępne
Zanim zaczniemy, upewnij się, że masz następującą konfigurację:
- GroupDocs.Parser dla .NET: Pobierz i zainstaluj bibliotekę zTutaj.
- Środowisko programistyczne: Visual Studio lub dowolne inne środowisko .NET IDE.
- Przykładowy dokument: Przygotuj przykładowy plik (np. PDF, DOCX) zawierający tekst do rozpoznania.
Importuj przestrzenie nazw
Najpierw musisz zaimportować niezbędne przestrzenie nazw do swojego kodu C#:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Zainicjuj ustawienia analizatora składni
Rozpocznij od skonfigurowaniaParserSettings
ze złączem OCR. Tutaj użyjemy lokalnego łącznika Aspose OCR:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Krok 2: Utwórz instancję analizatora składni
Następnie utwórz instancjęParser
class z wcześniej zdefiniowanymi ustawieniami:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Kod jest kontynuowany tutaj
}
Zastępować"YourSampleFile.pdf"
ze ścieżką do dokumentu.
Krok 3: Zdefiniuj prostokąt OCR
Zdefiniuj prostokąt w dokumencie, w którym będzie wykonywane rozpoznawanie tekstu. Na przykład prostokąt zaczynający się od(0, 0)
z szerokością400
i wysokość200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
Krok 4: Skonfiguruj opcje rozpoznawania tekstu
TworzyćTextOptions
aby określić użycie OCR wraz ze zdefiniowanym prostokątem:
TextOptions options = new TextOptions(false, true, ocrOptions);
Krok 5: Wyodrębnij tekst za pomocą OCR
UżyjGetText
metodaParser
instancja ze skonfigurowanymTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Przeczytaj wyodrębniony tekst lub obsłuż przypadek „nieobsługiwany”.
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Wniosek
tym samouczku zademonstrowaliśmy, jak wykorzystać GroupDocs.Parser dla .NET do wyodrębnienia tekstu z określonych prostokątnych regionów w dokumentach przy użyciu OCR. Proces ten można dodatkowo dostosować i zintegrować z różnymi aplikacjami w celu zautomatyzowanego wyodrębniania tekstu.
Często zadawane pytania
Czy GroupDocs.Parser może wyodrębnić tekst ze zeskanowanych dokumentów?
Tak, GroupDocs.Parser obsługuje OCR (optyczne rozpoznawanie znaków) w celu wyodrębniania tekstu z zeskanowanych dokumentów.
Jakie formaty plików obsługuje GroupDocs.Parser?
GroupDocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, DOCX, XLSX, PPTX i inne.
Jak mogę obsługiwać dokumenty, które nie są obsługiwane w przypadku wyodrębniania tekstu?
Możesz sprawdzić, czy ekstrakcja tekstu jest obsługiwana za pomocąTextReader
instancja zwrócona przezparser.GetText(options)
.
Czy GroupDocs.Parser nadaje się do zadań wyodrębniania tekstu na dużą skalę?
Tak, GroupDocs.Parser został zaprojektowany do wydajnej obsługi zadań wyodrębniania tekstu na dużą skalę.
Gdzie mogę uzyskać pomoc dotyczącą problemów związanych z GroupDocs.Parser?
Aby uzyskać wsparcie i dyskusje, odwiedź stronęForum GroupDocs.Parser.