Obsługa OCR

Wstęp

W tym samouczku omówimy, jak używać GroupDocs.Parser dla .NET do wydajnej obsługi zadań optycznego rozpoznawania znaków (OCR). Ta biblioteka zapewnia zaawansowane narzędzia do wyodrębniania tekstu z dokumentów, a dzięki OCR możesz wyodrębniać tekst nawet z obrazów lub zeskanowanych dokumentów. Zagłębmy się w ten proces krok po kroku.

Warunki wstępne

Zanim zaczniemy, upewnij się, że masz następującą konfigurację:

  • Biblioteka GroupDocs.Parser dla .NET: Pobierz bibliotekę zTutaj.
  • Twój przykładowy plik: Przygotuj przykładowy plik (dokument lub obraz), z którego chcesz wyodrębnić tekst.
  • Podstawowa znajomość środowiska C# i .NET.

Importuj przestrzenie nazw

Najpierw musisz zaimportować niezbędne przestrzenie nazw, aby móc korzystać z funkcjonalności GroupDocs.Parser w aplikacji .NET.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Utwórz ustawienia analizatora składni za pomocą złącza OCR

ZainicjujParserSettings class ze złączem OCR. Na przykład, używając Aspose OCR lokalnie.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Krok 2: Skonfiguruj opcje OCR

SkonfigurujOcrEventHandler do obsługi ostrzeżeń podczas przetwarzania OCR.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

Krok 3: Skonfiguruj opcje wyodrębniania tekstu

TworzyćTextOptions aby umożliwić wyodrębnianie tekstu w oparciu o OCR.

TextOptions options = new TextOptions(false, true, ocrOptions);

Krok 4: Wyodrębnij tekst za pomocą OCR

Utwórz instancjęParser class z ustawieniami i wyodrębnij tekst za pomocą OCR.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

Wniosek

Wykonując poniższe kroki, możesz wykorzystać GroupDocs.Parser for .NET do efektywnej obsługi zadań OCR w swoich aplikacjach. Wyodrębnianie tekstu z obrazów lub zeskanowanych dokumentów staje się płynne dzięki potężnym możliwościom oferowanym przez tę bibliotekę.

Często zadawane pytania

Czy GroupDocs.Parser dla .NET jest kompatybilny z różnymi formatami plików?

Tak, GroupDocs.Parser obsługuje szeroką gamę formatów plików, w tym PDF, DOCX, PPTX, XLSX, obrazy (JPEG, PNG, TIFF) i inne.

Czy mogę używać GroupDocs.Parser for .NET w moich projektach komercyjnych?

Tak, po zakupie licencji możesz zintegrować GroupDocs.Parser for .NET z aplikacjami komercyjnymi.

Czy GroupDocs.Parser obsługuje pliki zaszyfrowane lub chronione hasłem?

GroupDocs.Parser może analizować i wyodrębniać tekst z dokumentów PDF chronionych hasłem.

Czy dostępna jest wersja próbna programu GroupDocs.Parser dla platformy .NET?

Tak, możesz pobrać bezpłatną wersję próbną ze stronyTutaj.

Gdzie mogę znaleźć pomoc lub zadać pytania dotyczące GroupDocs.Parser dla .NET?

Możesz odwiedzićForum GroupDocs.Parser w przypadku jakichkolwiek zapytań lub dyskusji dotyczących wsparcia.