문서 페이지에서 테이블 추출

소개

이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 문서 페이지에서 테이블을 추출하는 방법을 살펴보겠습니다. GroupDocs.Parser는 개발자가 PDF, DOCX, XLSX 등과 같은 다양한 문서 형식으로 작업할 수 있는 강력한 라이브러리입니다. 해당 기능을 활용하면 이러한 문서에서 테이블과 같은 구조화된 데이터를 효율적으로 추출할 수 있으며 이를 통해 정보를 프로그래밍 방식으로 조작하고 분석할 수 있습니다.

전제 조건

시작하기 전에 다음 사항을 확인하세요.

컴퓨터에 Visual Studio가 설치되어 있습니다.
C# 및 .NET 개발에 대한 기본 이해.
.NET 라이브러리용 GroupDocs.Parser. 다음에서 다운로드할 수 있습니다.여기.
추출용 테이블이 포함된 샘플 문서(PDF, DOCX 등)에 액세스합니다.

네임스페이스 가져오기

먼저 C# 프로젝트에서 필요한 네임스페이스를 가져오는 것부터 시작합니다.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

1단계: 파서 클래스 인스턴스 생성

인스턴스화Parser 샘플 문서에 대한 경로를 제공하여 클래스를 제공합니다.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //귀하의 코드는 여기에 계속됩니다 ...
}

2단계: 문서 테이블 추출 지원 확인

계속하기 전에 문서가 테이블 추출을 지원하는지 확인하세요.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document does not support table extraction.");
    return;
}

3단계: 테이블 레이아웃 정의

문서에서 추출할 테이블의 레이아웃을 정의합니다. 문서 구조에 따라 열 너비와 행 높이를 지정합니다.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },  // 열 너비
    new double[] { 325, 340, 365, 395 });         // 행 높이

4단계: 테이블 추출 옵션 구성

지정된 레이아웃을 사용하여 테이블 추출을 위한 옵션을 만듭니다.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

5단계: 문서 정보 검색

페이지 수를 포함하여 문서에 대한 정보를 가져옵니다.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

6단계: 문서 페이지 반복

문서의 각 페이지를 반복하여 테이블을 추출합니다.

for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // 현재 페이지에서 테이블 추출
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex, options);
    // 추출된 테이블 반복
    foreach (PageTableArea table in tables)
    {
        // 테이블의 행을 반복합니다.
        for (int row = 0; row < table.RowCount; row++)
        {
            // 테이블의 열을 반복합니다.
            for (int column = 0; column < table.ColumnCount; column++)
            {
                // 테이블 셀 가져오기
                PageTableAreaCell cell = table[row, column];
                if (cell != null)
                {
                    // 테이블 셀의 텍스트를 인쇄합니다.
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

결론

이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 문서 페이지에서 테이블을 추출하는 프로세스를 다루었습니다. 제공된 단계를 따르면 테이블 추출 기능을 .NET 애플리케이션에 원활하게 통합하여 문서 내의 구조화된 데이터를 효율적으로 처리하고 조작할 수 있습니다.

FAQ

GroupDocs.Parser는 모든 유형의 문서에서 테이블을 추출할 수 있습니까?

GroupDocs.Parser는 PDF, DOCX, XLSX 등과 같은 다양한 문서 형식을 지원하므로 호환 가능한 파일 형식에서 테이블을 추출할 수 있습니다.

.NET용 GroupDocs.Parser는 대규모 문서 처리에 적합합니까?

예, GroupDocs.Parser는 대용량 문서를 효율적으로 처리하도록 설계되어 광범위한 데이터 세트를 처리하는 데 적합합니다.

GroupDocs.Parser는 테이블 추출 중에 서식을 유지합니까?

예, GroupDocs.Parser는 테이블 추출 중에 셀 테두리, 텍스트 스타일, 정렬과 같은 서식 세부 정보를 유지합니다.

콘텐츠 기준에 따라 특정 테이블을 추출할 수 있나요?

GroupDocs.Parser는 레이아웃 템플릿이나 추출을 위한 콘텐츠 조건을 기반으로 특정 테이블을 대상으로 하는 유연한 옵션을 제공합니다.

GroupDocs.Parser는 .NET Core와 호환되나요?

예, GroupDocs.Parser는 .NET Framework 및 .NET Core 환경 모두와 호환됩니다.

문서에서 테이블 추출