Manipulace s OCR

Úvod

V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k efektivnímu zpracování úloh optického rozpoznávání znaků (OCR). Tato knihovna poskytuje výkonné nástroje pro extrahování textu z dokumentů as OCR můžete extrahovat text dokonce i z obrázků nebo naskenovaných dokumentů. Pojďme se ponořit do procesu krok za krokem.

Předpoklady

Než začneme, ujistěte se, že máte následující nastavení:

  • GroupDocs.Parser for .NET Library: Stáhněte si knihovnu ztady.
  • Váš vzorový soubor: Připravte si vzorový soubor (dokument nebo obrázek), ze kterého chcete extrahovat text.
  • Základní znalost prostředí C# a .NET.

Import jmenných prostorů

Nejprve musíte importovat potřebné jmenné prostory, abyste mohli používat funkce GroupDocs.Parser ve vaší aplikaci .NET.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Vytvořte nastavení analyzátoru pomocí konektoru OCR

InicializujteParserSettings třídy s konektorem OCR. Například pomocí on-premise Aspose OCR.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Krok 2: Nakonfigurujte možnosti OCR

NastavitOcrEventHandler pro zpracování varování během zpracování OCR.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

Krok 3: Nakonfigurujte možnosti extrakce textu

VytvořitTextOptions k povolení extrakce textu na základě OCR.

TextOptions options = new TextOptions(false, true, ocrOptions);

Krok 4: Extrahujte text pomocí OCR

Vytvořte instanciParser třídy s nastavením a extrahujte text pomocí OCR.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

Závěr

Pomocí těchto kroků můžete využít GroupDocs.Parser for .NET k efektivnímu zpracování úloh OCR ve vašich aplikacích. Extrahování textu z obrázků nebo naskenovaných dokumentů je díky výkonným možnostem, které tato knihovna nabízí, bezproblémové.

FAQ

Je GroupDocs.Parser for .NET kompatibilní s různými formáty souborů?

Ano, GroupDocs.Parser podporuje širokou škálu formátů souborů včetně PDF, DOCX, PPTX, XLSX, obrázků (JPEG, PNG, TIFF) a dalších.

Mohu použít GroupDocs.Parser for .NET ve svých komerčních projektech?

Ano, GroupDocs.Parser for .NET můžete integrovat do svých komerčních aplikací po zakoupení licence.

Zpracovává GroupDocs.Parser šifrované soubory nebo soubory chráněné heslem?

GroupDocs.Parser umí analyzovat a extrahovat text z dokumentů PDF chráněných heslem.

Je k dispozici zkušební verze pro GroupDocs.Parser pro .NET?

Ano, můžete si stáhnout bezplatnou zkušební verzi ztady.

Kde mohu najít podporu nebo se zeptat na otázky týkající se GroupDocs.Parser for .NET?

Můžete navštívitFórum GroupDocs.Parser pro jakékoli dotazy na podporu nebo diskuse.