ทำซ้ำผ่านฟิลด์
การแนะนำ
GroupDocs.Parser สำหรับ .NET เป็นไลบรารีที่มีประสิทธิภาพซึ่งช่วยให้นักพัฒนาสามารถดึงข้อมูลจากรูปแบบเอกสารต่างๆ เช่น PDF, Microsoft Word, Excel และ PowerPoint บทช่วยสอนนี้จะแนะนำคุณตลอดกระบวนการใช้ GroupDocs.Parser เพื่อวนซ้ำช่องเอกสารและแยกข้อมูลเฉพาะโดยใช้เทมเพลต เมื่อสิ้นสุดบทช่วยสอนนี้ คุณจะสามารถดึงข้อมูลที่มีโครงสร้างจากเอกสารในแอปพลิเคชัน .NET ของคุณได้อย่างมีประสิทธิภาพ
ข้อกำหนดเบื้องต้น
ก่อนที่เราจะเริ่มต้น ตรวจสอบให้แน่ใจว่าคุณได้ตั้งค่าข้อกำหนดเบื้องต้นต่อไปนี้:
- ความรู้พื้นฐานเกี่ยวกับการเขียนโปรแกรม C#
- ติดตั้ง Visual Studio บนเครื่องของคุณแล้ว
- GroupDocs.Parser สำหรับไลบรารี .NET ติดตั้งและอ้างอิงในโครงการของคุณ
นำเข้าเนมสเปซ
ในการเริ่มต้น ให้เพิ่มเนมสเปซที่จำเป็นลงในไฟล์ C# ของคุณ:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
มาแบ่งกระบวนการออกเป็นคำแนะนำทีละขั้นตอน
ขั้นตอนที่ 1: กำหนดฟิลด์เทมเพลต
ขั้นแรก กำหนดฟิลด์ที่คุณต้องการแยกออกจากเอกสารโดยใช้นิพจน์ทั่วไป
// กำหนดฟิลด์ "ราคา"
TemplateField priceField = new TemplateField(
new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
"Price");
// กำหนดฟิลด์ "อีเมล"
TemplateField emailField = new TemplateField(
new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
"Email");
// สร้างเทมเพลตที่มีฟิลด์ที่กำหนดไว้
Template template = new Template(new TemplateItem[] { priceField, emailField });
ในขั้นตอนนี้ เราได้กำหนดสองฟิลด์: ฟิลด์หนึ่งสำหรับแยกราคา (ระบุด้วยเครื่องหมายดอลลาร์และตัวเลข) และอีกฟิลด์หนึ่งสำหรับแยกที่อยู่อีเมล
ขั้นตอนที่ 2: แยกวิเคราะห์เอกสาร
ต่อไปให้ใช้Parser
คลาสเพื่อแยกวิเคราะห์เอกสารโดยใช้เทมเพลตที่กำหนดไว้
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// แยกวิเคราะห์เอกสารตามเทมเพลต
DocumentData data = parser.ParseByTemplate(template);
// ทำซ้ำผ่านข้อมูลที่แยกออกมา
for (int i = 0; i < data.Count; i++)
{
// พิมพ์ชื่อฟิลด์
Console.Write(data[i].Name + ": ");
// ตรวจสอบว่าพื้นที่ที่แยกออกมาเป็นข้อความหรือไม่
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
ที่นี่เราเริ่มต้นParser
ด้วยเส้นทางไปยังเอกสารตัวอย่างของคุณ จากนั้นแยกวิเคราะห์เอกสารโดยใช้เทมเพลตที่กำหนดไว้ จากนั้นเราจะวนซ้ำข้อมูลที่แยกออกมาและพิมพ์ชื่อฟิลด์พร้อมกับข้อความที่แยกออกมา
บทสรุป
ในบทช่วยสอนนี้ เราได้สำรวจวิธีใช้ GroupDocs.Parser สำหรับ .NET เพื่อแยกข้อมูลเฉพาะจากเอกสารโดยใช้เทมเพลต ด้วยการใช้ประโยชน์จากนิพจน์ทั่วไปและเทมเพลต คุณสามารถดึงข้อมูลที่มีโครงสร้างจากรูปแบบเอกสารต่างๆ ได้อย่างมีประสิทธิภาพ ทดลองใช้เทมเพลตและประเภทเอกสารต่างๆ เพื่อให้เหมาะกับความต้องการในการแยกข้อมูลเฉพาะของคุณ
คำถามที่พบบ่อย
GroupDocs.Parser สามารถดึงข้อมูลจากเอกสารที่สแกนได้หรือไม่
ใช่ GroupDocs.Parser สามารถแยกข้อความและข้อมูลเมตาจากเอกสาร PDF ที่สแกนและค้นหาได้
GroupDocs.Parser เข้ากันได้กับแอปพลิเคชัน .NET Core หรือไม่
ใช่ GroupDocs.Parser รองรับ .NET Core พร้อมกับ .NET Framework
GroupDocs.Parser รองรับรูปแบบเอกสารใดบ้าง
GroupDocs.Parser รองรับรูปแบบที่หลากหลาย รวมถึง PDF, Microsoft Word, Excel, PowerPoint และอื่นๆ
ฉันจะจัดการเอกสารขนาดใหญ่ด้วย GroupDocs.Parser ได้อย่างไร
GroupDocs.Parser มีตัวเลือกในการดึงข้อมูลจากหน้าหรือส่วนเฉพาะของเอกสารขนาดใหญ่ เพื่อให้มั่นใจถึงการประมวลผลที่มีประสิทธิภาพ
ฉันสามารถใช้ GroupDocs.Parser เพื่อแยกข้อความเท่านั้นได้หรือไม่
ได้ คุณสามารถแยกเนื้อหาข้อความธรรมดาออกจากเอกสารโดยใช้ GroupDocs.Parser ได้โดยไม่จำเป็นต้องจัดรูปแบบที่ซับซ้อน