फ़ील्ड के माध्यम से पुनरावृति करें

परिचय

.NET के लिए GroupDocs.Parser एक शक्तिशाली लाइब्रेरी है जो डेवलपर्स को PDF, Microsoft Word, Excel और PowerPoint जैसे विभिन्न दस्तावेज़ प्रारूपों से डेटा निकालने की अनुमति देती है। यह ट्यूटोरियल आपको दस्तावेज़ फ़ील्ड के माध्यम से पुनरावृति करने और टेम्प्लेट का उपयोग करके विशिष्ट डेटा निकालने के लिए GroupDocs.Parser का उपयोग करने की प्रक्रिया के माध्यम से मार्गदर्शन करेगा। इस ट्यूटोरियल के अंत तक, आप अपने .NET अनुप्रयोगों में दस्तावेज़ों से संरचित डेटा को कुशलतापूर्वक निकालने में सक्षम होंगे।

आवश्यक शर्तें

शुरू करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित पूर्वापेक्षाएँ निर्धारित हैं:

  • C# प्रोग्रामिंग का बुनियादी ज्ञान.
  • आपके मशीन पर Visual Studio स्थापित है.
  • GroupDocs.Parser for .NET लाइब्रेरी स्थापित और आपके प्रोजेक्ट में संदर्भित है।

नामस्थान आयात करें

आरंभ करने के लिए, अपनी C# फ़ाइल में आवश्यक नामस्थान जोड़ें:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

आइये इस प्रक्रिया को चरण-दर-चरण निर्देशों में विभाजित करें।

चरण 1: टेम्पलेट फ़ील्ड परिभाषित करें

सबसे पहले, नियमित अभिव्यक्तियों का उपयोग करके उन फ़ील्ड्स को परिभाषित करें जिन्हें आप दस्तावेज़ से निकालना चाहते हैं।

// "मूल्य" फ़ील्ड परिभाषित करें
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// "ईमेल" फ़ील्ड परिभाषित करें
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// परिभाषित फ़ील्ड के साथ एक टेम्पलेट बनाएँ
Template template = new Template(new TemplateItem[] { priceField, emailField });

इस चरण में, हमने दो फ़ील्ड परिभाषित किए हैं: एक कीमतें निकालने के लिए (डॉलर चिह्न और अंकों द्वारा पहचाने जाने वाले) और दूसरा ईमेल पते निकालने के लिए।

चरण 2: दस्तावेज़ को पार्स करें

इसके बाद, का उपयोग करेंParser परिभाषित टेम्पलेट का उपयोग करके दस्तावेज़ को पार्स करने के लिए क्लास का उपयोग करें।

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // टेम्पलेट द्वारा दस्तावेज़ को पार्स करें
    DocumentData data = parser.ParseByTemplate(template);
    // निकाले गए डेटा के माध्यम से पुनरावृत्ति करें
    for (int i = 0; i < data.Count; i++)
    {
        // फ़ील्ड नाम प्रिंट करें
        Console.Write(data[i].Name + ": ");
        // जाँचें कि निकाला गया क्षेत्र पाठ है या नहीं
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

यहाँ, हम आरंभ करते हैंParser अपने सैंपल डॉक्यूमेंट के पथ के साथ और फिर परिभाषित टेम्पलेट का उपयोग करके डॉक्यूमेंट को पार्स करें। फिर हम निकाले गए डेटा के माध्यम से पुनरावृति करते हैं और निकाले गए टेक्स्ट के साथ फ़ील्ड नामों को प्रिंट करते हैं।

निष्कर्ष

इस ट्यूटोरियल में, हमने यह पता लगाया है कि टेम्प्लेट का उपयोग करके दस्तावेज़ों से विशिष्ट डेटा निकालने के लिए .NET के लिए GroupDocs.Parser का उपयोग कैसे करें। नियमित अभिव्यक्तियों और टेम्प्लेट का लाभ उठाकर, आप विभिन्न दस्तावेज़ प्रारूपों से संरचित जानकारी को कुशलतापूर्वक निकाल सकते हैं। अपनी विशिष्ट निष्कर्षण आवश्यकताओं के अनुरूप विभिन्न टेम्प्लेट और दस्तावेज़ प्रकारों के साथ प्रयोग करें।

अक्सर पूछे जाने वाले प्रश्न

क्या GroupDocs.Parser स्कैन किए गए दस्तावेज़ों से डेटा निकाल सकता है?

हां, GroupDocs.Parser स्कैन किए गए और खोजे जा सकने वाले PDF दस्तावेज़ों से पाठ और मेटाडेटा निकाल सकता है।

क्या GroupDocs.Parser .NET कोर अनुप्रयोगों के साथ संगत है?

हां, GroupDocs.Parser .NET फ्रेमवर्क के साथ .NET कोर का समर्थन करता है।

GroupDocs.Parser किस दस्तावेज़ स्वरूप का समर्थन करता है?

GroupDocs.Parser पीडीएफ, माइक्रोसॉफ्ट वर्ड, एक्सेल, पावरपॉइंट और अन्य सहित कई प्रारूपों का समर्थन करता है।

मैं GroupDocs.Parser के साथ बड़े दस्तावेज़ों को कैसे संभाल सकता हूँ?

GroupDocs.Parser बड़े दस्तावेज़ों के विशिष्ट पृष्ठों या अनुभागों से डेटा निकालने के विकल्प प्रदान करता है, जिससे कुशल प्रसंस्करण सुनिश्चित होता है।

क्या मैं केवल पाठ निष्कर्षण के लिए GroupDocs.Parser का उपयोग कर सकता हूं?

हां, आप जटिल स्वरूपण की आवश्यकता के बिना GroupDocs.Parser का उपयोग करके दस्तावेज़ों से सादा पाठ सामग्री निकाल सकते हैं।