使用提取資料中的表

介紹

在本教學中,我們將探討如何使用 GroupDocs.Parser for .NET 從文件中的表格中擷取資料。 GroupDocs.Parser 是一款功能強大的工具,可讓開發人員從 PDF、DOCX、XLSX 等各種文件格式中解析和提取文字、元資料和結構化內容。具體來說,我們將重點放在使用預定義模板有效地提取表資料。

先決條件

在開始之前,請確保您已具備以下條件:

  • Visual Studio 安裝在您的電腦上。
  • 對 C# 和 .NET 架構有基本了解。
  • GroupDocs.Parser 函式庫透過 NuGet 套件管理器安裝。

導入命名空間

首先匯入使用 GroupDocs.Parser 和相關功能所需的命名空間。

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

第 1 步:建立表格模板

要從表中提取數據,首先定義一個模板來表示要提取的表的結構。指定表格在文件中的位置和尺寸。

//定義表參數(位置和大小)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
//建立帶有參數的表模板
TemplateTable table = new TemplateTable(parameters, "Details", null);

第 2 步:定義模板

建立一個包含您定義的表格範本的範本。此範本將指導解析器在提取表格資料時要查找的內容。

//使用表格建立模板
Template template = new Template(new TemplateItem[] { table });

第三步:解析文件並提取表數據

利用 GroupDocs.Parser 中的 Parser 類,使用您定義的範本來解析特定文件。

//指定範例檔案的路徑
string filePath = "YourSampleFile.pdf";
//建立 Parser 類別的實例
using (Parser parser = new Parser(filePath))
{
    //透過模板解析文檔
    DocumentData data = parser.ParseByTemplate(template);
    //迭代所有提取的數據
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        //檢查提取的欄位是否為表
        PageTableArea area = data[i].PageArea as PageTableArea;
        if (area == null)
        {
            continue;
        }
        //迭代表行
        for (int row = 0; row < area.RowCount; row++)
        {
            //迭代表列
            for (int column = 0; column < area.ColumnCount; column++)
            {
                //取得儲存格值
                PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
                //列印儲存格值(如果為空則列印空字串)
                Console.Write(cellValue == null ? "" : cellValue.Text);
                //列印列之間的製表符空格
                if (column > 0)
                {
                    Console.Write("\t");
                }
            }
            //列印每一行後移至下一行
            Console.WriteLine();
        }
    }
}

結論

在本教學中,我們探討如何使用 GroupDocs.Parser for .NET 從文件中擷取表格資料。透過定義模板並利用解析方法,開發人員可以有效地從各種文件格式中提取結構化數據,例如表格。

常見問題解答

GroupDocs.Parser 是否與所有文件格式相容?

是的,GroupDocs.Parser 支援多種文件格式,包括 PDF、DOCX、XLSX、PPTX 等。

我可以從文件中的特定區域提取資料嗎?

當然,您可以定義針對文件中特定區域(例如表格)進行提取的範本。

GroupDocs.Parser 適合大型文件嗎?

是的,GroupDocs.Parser 經過最佳化,可有效處理大型文檔,使開發人員能夠無縫提取資料。

GroupDocs.Parser 是否支援文字擷取以及結構化資料?

是的,除了結構化資料提取(如表格)之外,GroupDocs.Parser 還可以從文件中提取純文字和元資料。

如何獲得有關 GroupDocs.Parser 整合的支援或協助?

如需支援和討論,請造訪 GroupDocs 社群論壇這裡.