पृष्ठ पर विशिष्ट क्षेत्रों से पाठ निकालें

परिचय

इस ट्यूटोरियल में, हम .NET लाइब्रेरी के लिए GroupDocs.Parser का उपयोग करके पृष्ठ पर विशिष्ट क्षेत्रों से टेक्स्ट निकालने का तरीका जानेंगे। GroupDocs.Parser दस्तावेज़ों से टेक्स्ट निकालने को सरल बनाता है, जिससे डेवलपर्स को टेक्स्ट निकालने के लिए दस्तावेज़ के भीतर रुचि के विशिष्ट क्षेत्रों को लक्षित करने की अनुमति मिलती है। यह विशेष रूप से तब उपयोगी हो सकता है जब जटिल दस्तावेज़ों से निपटना हो जहाँ आगे की प्रक्रिया या विश्लेषण के लिए सटीक टेक्स्ट निष्कर्षण की आवश्यकता होती है।

आवश्यक शर्तें

शुरू करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित हैं:

  • आपके मशीन पर Visual Studio स्थापित है.
  • C# प्रोग्रामिंग की बुनियादी समझ.
  • .NET पुस्तकालय के लिए GroupDocs.Parser स्थापित। आप इसे यहाँ से डाउनलोड कर सकते हैंयहाँ.
  • पाठ निष्कर्षण का परीक्षण करने के लिए नमूना दस्तावेज़ फ़ाइलें.

नामस्थान आयात करें

सबसे पहले, GroupDocs.Parser कार्यक्षमताओं तक पहुँचने के लिए अपनी C# कोड फ़ाइल में आवश्यक नामस्थान शामिल करें:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

चरण 1: पार्सर क्लास को इन्स्टेन्शियेट करें

किसी दस्तावेज़ से पाठ निकालना शुरू करने के लिए, इसका एक उदाहरण बनाएँParserअपने नमूना दस्तावेज़ फ़ाइल का पथ प्रदान करके class में जोड़ें:

// पार्सर क्लास का एक उदाहरण बनाएँ
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // पाठ निष्कर्षण जारी रखें...
}

प्रतिस्थापित करें"YourSampleFile.docx" अपने वास्तविक दस्तावेज़ फ़ाइल के पथ के साथ.

चरण 2: टेक्स्ट क्षेत्र निष्कर्षण समर्थन की जाँच करें

पाठ निष्कर्षण के साथ आगे बढ़ने से पहले, जाँच लें कि क्या दस्तावेज़ पाठ क्षेत्र निष्कर्षण का समर्थन करता हैFeatures की संपत्तिParser कक्षा:

// जाँचें कि क्या दस्तावेज़ पाठ क्षेत्र निष्कर्षण का समर्थन करता है
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

यह चरण यह सुनिश्चित करता है कि दस्तावेज़ को पाठ क्षेत्रों को निकालने के लिए संसाधित किया जा सकता है।

चरण 3: दस्तावेज़ जानकारी प्राप्त करें

दस्तावेज़ के बारे में मूलभूत जानकारी प्राप्त करेंGetDocumentInfo() तरीका:

// दस्तावेज़ जानकारी प्राप्त करें
IDocumentInfo documentInfo = parser.GetDocumentInfo();

इस जानकारी में पृष्ठ संख्या और दस्तावेज़ के बारे में अन्य मेटाडेटा शामिल हैं।

चरण 4: दस्तावेज़ पृष्ठों पर पुनरावृत्ति करें

विशिष्ट क्षेत्रों से पाठ निकालने के लिए दस्तावेज़ के प्रत्येक पृष्ठ पर पुनरावृत्ति करें:

// जाँचें कि दस्तावेज़ में पृष्ठ हैं या नहीं
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// पृष्ठों पर पुनरावृत्ति करें
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // वर्तमान पृष्ठ संख्या प्रिंट करें
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // क्षेत्रों से पाठ निष्कर्षण जारी रखें...
}

यह लूप दस्तावेज़ के प्रत्येक पृष्ठ को क्रमिक रूप से संसाधित करता है।

चरण 5: विशिष्ट क्षेत्रों से पाठ निकालें

पृष्ठ पुनरावृत्ति लूप के भीतर, रुचि के विशिष्ट क्षेत्रों से पाठ पुनर्प्राप्त करेंGetTextAreas() तरीका:

// पृष्ठ पाठ क्षेत्रों पर पुनरावृति करें
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // आयत निर्देशांक और पाठ क्षेत्र मान प्रिंट करें
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

यह चरण पृष्ठ पर प्रत्येक परिभाषित क्षेत्र (जैसे बाउंडिंग आयत) से पाठ निकालता है और निकाले गए पाठ को प्रदर्शित करता है।

निष्कर्ष

इस ट्यूटोरियल में, हमने सीखा है कि .NET के लिए GroupDocs.Parser का उपयोग करके किसी पृष्ठ पर विशिष्ट क्षेत्रों से टेक्स्ट कैसे निकाला जाए। इस लाइब्रेरी की क्षमताओं का लाभ उठाते हुए, डेवलपर्स विभिन्न अनुप्रयोगों के लिए दस्तावेज़ों के भीतर लक्षित क्षेत्रों से टेक्स्ट को सटीक रूप से पुनर्प्राप्त कर सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

क्या मैं .NET के लिए GroupDocs.Parser का उपयोग करके स्कैन की गई छवियों से पाठ निकाल सकता हूं?

हां, GroupDocs.Parser OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) क्षमताओं के माध्यम से स्कैन की गई छवियों से पाठ निष्कर्षण का समर्थन करता है।

क्या GroupDocs.Parser विभिन्न दस्तावेज़ प्रारूपों के साथ संगत है?

हां, GroupDocs.Parser पीडीएफ, माइक्रोसॉफ्ट ऑफिस दस्तावेज़ और अन्य सहित दस्तावेज़ प्रारूपों की एक विस्तृत श्रृंखला का समर्थन करता है।

मैं नेस्टेड तत्वों के साथ जटिल दस्तावेज़ संरचनाओं को कैसे संभाल सकता हूं?

GroupDocs.Parser जटिल दस्तावेज़ संरचनाओं के माध्यम से नेविगेट करने और परिभाषित मानदंडों के आधार पर चुनिंदा पाठ निकालने के लिए सुविधाएँ प्रदान करता है।

क्या GroupDocs.Parser पाठ निष्कर्षण के दौरान स्वरूपण को सुरक्षित रखता है?

GroupDocs.Parser कच्ची पाठ सामग्री को निकालने पर ध्यान केंद्रित करता है; हालाँकि, आप अपने अनुप्रयोग में आवश्यकतानुसार अतिरिक्त स्वरूपण तर्क को एकीकृत कर सकते हैं।

क्या GroupDocs.Parser का उपयोग दस्तावेजों के बैच प्रसंस्करण के लिए किया जा सकता है?

हां, GroupDocs.Parser को कई दस्तावेजों को कुशलतापूर्वक संभालने के लिए बैच प्रोसेसिंग वर्कफ़्लो में एकीकृत किया जा सकता है।