OCR 처리

소개

이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 OCR(광학 문자 인식) 작업을 효율적으로 처리하는 방법을 살펴보겠습니다. 이 라이브러리는 문서에서 텍스트를 추출하는 강력한 도구를 제공하며, OCR을 사용하면 이미지나 스캔한 문서에서도 텍스트를 추출할 수 있습니다. 프로세스를 단계별로 살펴보겠습니다.

전제 조건

시작하기 전에 다음이 설정되어 있는지 확인하세요.

  • .NET 라이브러리용 GroupDocs.Parser: 다음에서 라이브러리를 다운로드하세요.여기.
  • 샘플 파일: 텍스트를 추출하려는 샘플 파일(문서 또는 이미지)을 준비합니다.
  • C# 및 .NET 환경에 대한 기본 지식.

네임스페이스 가져오기

먼저 .NET 애플리케이션에서 GroupDocs.Parser 기능을 사용하려면 필요한 네임스페이스를 가져와야 합니다.

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1단계: OCR 커넥터를 사용하여 파서 설정 만들기

초기화ParserSettings OCR 커넥터를 사용한 클래스입니다. 예를 들어 온프레미스에서 Aspose OCR을 사용합니다.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

2단계: OCR 옵션 구성

설정OcrEventHandler OCR 처리 중 경고를 처리합니다.

OcrEventHandler handler = new OcrEventHandler();
OcrOptions ocrOptions = new OcrOptions(handler);

3단계: 텍스트 추출 옵션 구성

만들다TextOptions OCR 기반 텍스트 추출을 활성화합니다.

TextOptions options = new TextOptions(false, true, ocrOptions);

4단계: OCR을 사용하여 텍스트 추출

인스턴스화Parser 설정으로 클래스를 지정하고 OCR을 사용하여 텍스트를 추출합니다.

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    using (TextReader reader = parser.GetText(options))
    {
        if (reader == null)
        {
            Console.WriteLine("Text extraction isn't supported.");
        }
        else
        {
            Console.WriteLine(reader.ReadToEnd());
        }
    }
    if (handler.HasWarnings)
    {
        Console.WriteLine("The following warnings occurred during text recognition:");
        foreach (string w in handler.Warnings)
        {
            Console.WriteLine("\t* " + w);
        }
    }
    else
    {
        Console.WriteLine("Text recognition was performed without any warnings.");
    }
}

결론

다음 단계를 수행하면 .NET용 GroupDocs.Parser를 활용하여 응용 프로그램 내에서 OCR 작업을 효과적으로 처리할 수 있습니다. 이 라이브러리가 제공하는 강력한 기능을 사용하면 이미지나 스캔한 문서에서 텍스트를 원활하게 추출할 수 있습니다.

FAQ

.NET용 GroupDocs.Parser는 다른 파일 형식과 호환됩니까?

예, GroupDocs.Parser는 PDF, DOCX, PPTX, XLSX, 이미지(JPEG, PNG, TIFF) 등을 포함한 광범위한 파일 형식을 지원합니다.

상업용 프로젝트에서 .NET용 GroupDocs.Parser를 사용할 수 있습니까?

예, 라이센스를 구매한 후 .NET용 GroupDocs.Parser를 상용 응용 프로그램에 통합할 수 있습니다.

GroupDocs.Parser는 암호화되거나 암호로 보호된 파일을 처리합니까?

GroupDocs.Parser는 암호로 보호된 PDF 문서에서 텍스트를 구문 분석하고 추출할 수 있습니다.

.NET용 GroupDocs.Parser에 사용할 수 있는 평가판이 있습니까?

예, 다음에서 무료 평가판을 다운로드할 수 있습니다.여기.

.NET용 GroupDocs.Parser와 관련된 지원을 찾거나 질문을 할 수 있는 곳은 어디입니까?

당신은 방문 할 수 있습니다GroupDocs.Parser 포럼 지원 문의나 토론을 위해.