使用提取資料中的表
內容
[
隱藏
]介紹
在本教學中,我們將探討如何使用 GroupDocs.Parser for .NET 從文件中的表格中擷取資料。 GroupDocs.Parser 是一款功能強大的工具,可讓開發人員從 PDF、DOCX、XLSX 等各種文件格式中解析和提取文字、元資料和結構化內容。具體來說,我們將重點放在使用預定義模板有效地提取表資料。
先決條件
在開始之前,請確保您已具備以下條件:
- Visual Studio 安裝在您的電腦上。
- 對 C# 和 .NET 架構有基本了解。
- GroupDocs.Parser 函式庫透過 NuGet 套件管理器安裝。
導入命名空間
首先匯入使用 GroupDocs.Parser 和相關功能所需的命名空間。
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
第 1 步:建立表格模板
要從表中提取數據,首先定義一個模板來表示要提取的表的結構。指定表格在文件中的位置和尺寸。
//定義表參數(位置和大小)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
//建立帶有參數的表模板
TemplateTable table = new TemplateTable(parameters, "Details", null);
第 2 步:定義模板
建立一個包含您定義的表格範本的範本。此範本將指導解析器在提取表格資料時要查找的內容。
//使用表格建立模板
Template template = new Template(new TemplateItem[] { table });
第三步:解析文件並提取表數據
利用 GroupDocs.Parser 中的 Parser 類,使用您定義的範本來解析特定文件。
//指定範例檔案的路徑
string filePath = "YourSampleFile.pdf";
//建立 Parser 類別的實例
using (Parser parser = new Parser(filePath))
{
//透過模板解析文檔
DocumentData data = parser.ParseByTemplate(template);
//迭代所有提取的數據
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
//檢查提取的欄位是否為表
PageTableArea area = data[i].PageArea as PageTableArea;
if (area == null)
{
continue;
}
//迭代表行
for (int row = 0; row < area.RowCount; row++)
{
//迭代表列
for (int column = 0; column < area.ColumnCount; column++)
{
//取得儲存格值
PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
//列印儲存格值(如果為空則列印空字串)
Console.Write(cellValue == null ? "" : cellValue.Text);
//列印列之間的製表符空格
if (column > 0)
{
Console.Write("\t");
}
}
//列印每一行後移至下一行
Console.WriteLine();
}
}
}
結論
在本教學中,我們探討如何使用 GroupDocs.Parser for .NET 從文件中擷取表格資料。透過定義模板並利用解析方法,開發人員可以有效地從各種文件格式中提取結構化數據,例如表格。
常見問題解答
GroupDocs.Parser 是否與所有文件格式相容?
是的,GroupDocs.Parser 支援多種文件格式,包括 PDF、DOCX、XLSX、PPTX 等。
我可以從文件中的特定區域提取資料嗎?
當然,您可以定義針對文件中特定區域(例如表格)進行提取的範本。
GroupDocs.Parser 適合大型文件嗎?
是的,GroupDocs.Parser 經過最佳化,可有效處理大型文檔,使開發人員能夠無縫提取資料。
GroupDocs.Parser 是否支援文字擷取以及結構化資料?
是的,除了結構化資料提取(如表格)之外,GroupDocs.Parser 還可以從文件中提取純文字和元資料。
如何獲得有關 GroupDocs.Parser 整合的支援或協助?
如需支援和討論,請造訪 GroupDocs 社群論壇這裡.