페이지의 특정 영역에서 텍스트 추출

소개

이 자습서에서는 .NET용 GroupDocs.Parser 라이브러리를 사용하여 페이지의 특정 영역에서 텍스트를 추출하는 방법을 살펴보겠습니다. GroupDocs.Parser는 문서에서 텍스트 추출을 단순화하여 개발자가 텍스트 추출을 위해 문서 내 특정 관심 영역을 대상으로 지정할 수 있도록 합니다. 이는 추가 처리 또는 분석을 위해 정확한 텍스트 추출이 필요한 복잡한 문서를 처리할 때 특히 유용할 수 있습니다.

전제 조건

시작하기 전에 다음 사항이 있는지 확인하세요.

  • 컴퓨터에 Visual Studio가 설치되어 있습니다.
  • C# 프로그래밍에 대한 기본 이해.
  • .NET 라이브러리용 GroupDocs.Parser가 설치되었습니다. 다음에서 다운로드할 수 있습니다.여기.
  • 텍스트 추출을 테스트하기 위한 샘플 문서 파일입니다.

네임스페이스 가져오기

먼저 C# 코드 파일에 필요한 네임스페이스를 포함하여 GroupDocs.Parser 기능에 액세스합니다.

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1단계: 파서 클래스 인스턴스화

문서에서 텍스트 추출을 시작하려면Parser샘플 문서 파일의 경로를 제공하여 클래스를 지정합니다.

// Parser 클래스의 인스턴스 생성
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // 텍스트 추출을 계속합니다...
}

바꾸다"YourSampleFile.docx" 실제 문서 파일의 경로와 함께.

2단계: 텍스트 영역 추출 지원 확인

텍스트 추출을 진행하기 전에 해당 문서가 텍스트 영역 추출을 지원하는지 확인하세요.Features 의 재산Parser 수업:

// 문서가 텍스트 영역 추출을 지원하는지 확인하세요.
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

이 단계를 통해 텍스트 영역 추출을 위해 문서를 처리할 수 있습니다.

3단계: 문서 정보 가져오기

다음을 사용하여 문서에 대한 기본 정보를 검색합니다.GetDocumentInfo() 방법:

// 문서 정보 가져오기
IDocumentInfo documentInfo = parser.GetDocumentInfo();

이 정보에는 페이지 수와 문서에 대한 기타 메타데이터가 포함됩니다.

4단계: 문서 페이지 반복

문서의 각 페이지를 반복하여 특정 영역에서 텍스트를 추출합니다.

// 문서에 페이지가 있는지 확인
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// 페이지 반복
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // 현재 페이지 번호 인쇄
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // 영역에서 텍스트 추출을 계속합니다...
}

이 루프는 문서의 각 페이지를 순차적으로 처리합니다.

5단계: 특정 영역에서 텍스트 추출

페이지 반복 루프 내에서 다음을 사용하여 특정 관심 영역에서 텍스트를 검색합니다.GetTextAreas() 방법:

// 페이지 텍스트 영역 반복
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // 직사각형 좌표 및 텍스트 영역 값 인쇄
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

이 단계에서는 페이지의 정의된 각 영역(예: 경계 직사각형)에서 텍스트를 추출하고 추출된 텍스트를 표시합니다.

결론

이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 페이지의 특정 영역에서 텍스트를 추출하는 방법을 배웠습니다. 이 라이브러리의 기능을 활용하여 개발자는 다양한 애플리케이션에 대한 문서 내의 대상 영역에서 텍스트를 정확하게 검색할 수 있습니다.

FAQ

.NET용 GroupDocs.Parser를 사용하여 스캔한 이미지에서 텍스트를 추출할 수 있습니까?

예, GroupDocs.Parser는 OCR(광학 문자 인식) 기능을 통해 스캔한 이미지에서 텍스트 추출을 지원합니다.

GroupDocs.Parser는 다양한 문서 형식과 호환됩니까?

예, GroupDocs.Parser는 PDF, Microsoft Office 문서 등을 포함한 광범위한 문서 형식을 지원합니다.

중첩된 요소가 있는 복잡한 문서 구조를 어떻게 처리할 수 있나요?

GroupDocs.Parser는 복잡한 문서 구조를 탐색하고 정의된 기준에 따라 선택적으로 텍스트를 추출하는 기능을 제공합니다.

GroupDocs.Parser는 텍스트 추출 중에 서식을 유지합니까?

GroupDocs.Parser는 원시 텍스트 콘텐츠 추출에 중점을 둡니다. 그러나 필요에 따라 애플리케이션 내에서 추가 형식 지정 논리를 통합할 수 있습니다.

GroupDocs.Parser를 문서 일괄 처리에 사용할 수 있습니까?

예, GroupDocs.Parser는 일괄 처리 작업 흐름에 통합되어 여러 문서를 효율적으로 처리할 수 있습니다.