특정 영역의 텍스트 인식
소개
이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 문서 내의 특정 영역에서 텍스트를 인식하고 추출하는 방법을 살펴보겠습니다. GroupDocs.Parser는 개발자가 PDF, Word, Excel, PowerPoint 등을 포함한 다양한 문서 형식으로 작업할 수 있는 강력한 문서 구문 분석 라이브러리입니다. 특히 GroupDocs.Parser의 OCR(광학 문자 인식) 기능을 활용하여 문서 내의 정의된 영역에서 텍스트를 추출하는 데 중점을 둘 것입니다.
전제 조건
시작하기 전에 다음 전제 조건이 설정되어 있는지 확인하세요.
- Visual Studio IDE: 컴퓨터에 Visual Studio가 설치되어 있는지 확인하세요.
- .NET용 GroupDocs.Parser: 다음에서 .NET용 GroupDocs.Parser를 다운로드하고 설치합니다.다운로드 링크.
- 문서 샘플: 텍스트를 추출하려는 샘플 파일(예: PDF, DOCX)을 준비합니다.
네임스페이스 가져오기
시작하려면 필요한 네임스페이스를 프로젝트로 가져옵니다.
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
.NET용 GroupDocs.Parser를 사용하여 프로세스를 세부 단계로 나누어 보겠습니다.
1단계: OCR 커넥터를 사용하여 파서 설정 만들기
먼저 인스턴스를 생성합니다.ParserSettings
클래스를 생성하고 다음과 같은 OCR 커넥터로 초기화합니다.AsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
2단계: 설정을 사용하여 파서 인스턴스화
다음으로 인스턴스를 생성합니다.Parser
이전에 생성된 클래스를 전달하여 클래스ParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// 코드 조각이 계속됩니다...
}
바꾸다"YourSampleFile.pdf"
대상 문서의 경로와 함께.
3단계: 텍스트 영역 추출 옵션 구성
인스턴스 만들기PageTextAreaOptions
OCR 기반 텍스트 추출을 활성화하려면:
PageTextAreaOptions options = new PageTextAreaOptions(true);
세트true
더 나은 텍스트 인식을 위해 OCR을 활성화합니다.
4단계: 텍스트 영역 추출
부르다parser.GetTextAreas(options)
문서에서 텍스트 영역을 추출하려면:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
5단계: 추출된 텍스트 영역 처리
추출된 텍스트 영역을 반복하고 텍스트, 위치 및 크기 정보를 검색합니다.
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
결론
이 자습서에서는 OCR 기능이 있는 .NET용 GroupDocs.Parser를 사용하여 문서 내의 특정 영역에서 텍스트를 추출하는 프로세스를 다루었습니다. 다음 단계를 수행하면 GroupDocs.Parser의 구문 분석 기능을 효과적으로 활용하여 프로그래밍 방식으로 텍스트 추출 작업을 처리할 수 있습니다.
FAQ
GroupDocs.Parser는 스캔한 문서에서 텍스트를 추출할 수 있습니까?
예, GroupDocs.Parser는 문서 내에서 스캔한 이미지에서 텍스트를 추출하기 위해 OCR을 지원합니다.
GroupDocs.Parser는 어떤 문서 형식을 지원합니까?
GroupDocs.Parser는 PDF, DOCX, XLSX, PPTX, TXT 등을 포함한 광범위한 형식을 지원합니다.
GroupDocs.Parser는 문서 일괄 처리에 적합합니까?
예, GroupDocs.Parser는 문서 구문 분석 및 추출을 위한 일괄 처리 작업을 효율적으로 처리할 수 있습니다.
GroupDocs.Parser를 사용하여 텍스트 추출 옵션을 사용자 정의할 수 있습니까?
예, GroupDocs.Parser는 특정 요구 사항에 따라 텍스트 추출을 사용자 정의할 수 있는 다양한 옵션을 제공합니다.
GroupDocs.Parser는 문서에서 메타데이터 추출을 지원합니까?
예, GroupDocs.Parser를 사용하면 지원되는 문서 형식에서 작성자, 생성 날짜 등과 같은 메타데이터를 추출할 수 있습니다.