विशिष्ट क्षेत्रों में पाठ को पहचानना

परिचय

इस ट्यूटोरियल में, हम यह पता लगाएंगे कि किसी दस्तावेज़ के भीतर विशिष्ट क्षेत्रों से टेक्स्ट को पहचानने और निकालने के लिए .NET के लिए GroupDocs.Parser का उपयोग कैसे करें। GroupDocs.Parser एक शक्तिशाली दस्तावेज़ पार्सिंग लाइब्रेरी है जो डेवलपर्स को PDF, Word, Excel, PowerPoint और अन्य सहित विभिन्न दस्तावेज़ प्रारूपों के साथ काम करने की अनुमति देती है। विशेष रूप से, हम किसी दस्तावेज़ के भीतर परिभाषित क्षेत्रों से टेक्स्ट निकालने के लिए GroupDocs.Parser की OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) क्षमताओं का लाभ उठाने पर ध्यान केंद्रित करेंगे।

आवश्यक शर्तें

शुरू करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित पूर्वापेक्षाएँ निर्धारित हैं:

  1. विज़ुअल स्टूडियो IDE: सुनिश्चित करें कि आपके मशीन पर विज़ुअल स्टूडियो स्थापित है।
  2. .NET के लिए GroupDocs.Parser: .NET के लिए GroupDocs.Parser को डाउनलोड करें और इंस्टॉल करेंलिंक को डाउनलोड करें.
  3. दस्तावेज़ नमूने: नमूना फ़ाइलें (जैसे, PDF, DOCX) तैयार करें जिनसे आप पाठ निकालना चाहते हैं।

नामस्थान आयात करें

आरंभ करने के लिए, अपने प्रोजेक्ट में आवश्यक नामस्थान आयात करें:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

आइए .NET के लिए GroupDocs.Parser का उपयोग करके प्रक्रिया को विस्तृत चरणों में विभाजित करें:

चरण 1: OCR कनेक्टर के साथ पार्सर सेटिंग्स बनाएँ

सबसे पहले, इसका एक उदाहरण बनाएंParserSettingsक्लास और इसे OCR कनेक्टर के साथ आरंभ करें, जैसेAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

चरण 2: सेटिंग्स के साथ पार्सर को इंस्टैंशिएट करें

इसके बाद, इसका एक उदाहरण बनाएंParser पहले से बनाए गए वर्ग को पास करकेParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // कोड स्निपेट जारी है...
}

प्रतिस्थापित करें"YourSampleFile.pdf" अपने लक्ष्य दस्तावेज़ के पथ के साथ.

चरण 3: टेक्स्ट क्षेत्र निष्कर्षण विकल्प कॉन्फ़िगर करें

इसका एक उदाहरण बनाएंPageTextAreaOptions OCR-आधारित पाठ निष्कर्षण सक्षम करने के लिए:

PageTextAreaOptions options = new PageTextAreaOptions(true);

तय करनाtrue बेहतर पाठ पहचान के लिए OCR को सक्षम करना।

चरण 4: टेक्स्ट क्षेत्र निकालें

आह्वानparser.GetTextAreas(options) दस्तावेज़ से पाठ क्षेत्र निकालने के लिए:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

चरण 5: निकाले गए पाठ क्षेत्रों को संसाधित करें

निकाले गए पाठ क्षेत्रों पर पुनरावृत्ति करें और पाठ, स्थिति और आकार की जानकारी प्राप्त करें:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

निष्कर्ष

इस ट्यूटोरियल में, हमने OCR क्षमताओं के साथ .NET के लिए GroupDocs.Parser का उपयोग करके दस्तावेज़ के भीतर विशिष्ट क्षेत्रों से पाठ निकालने की प्रक्रिया को कवर किया है। इन चरणों का पालन करके, आप प्रोग्रामेटिक रूप से पाठ निष्कर्षण कार्यों को संभालने के लिए GroupDocs.Parser की पार्सिंग कार्यक्षमताओं का प्रभावी ढंग से लाभ उठा सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

क्या GroupDocs.Parser स्कैन किए गए दस्तावेज़ों से पाठ निकाल सकता है?

हां, GroupDocs.Parser दस्तावेजों के भीतर स्कैन की गई छवियों से पाठ निकालने के लिए OCR का समर्थन करता है।

कौन से दस्तावेज़ प्रारूप GroupDocs.Parser द्वारा समर्थित हैं?

GroupDocs.Parser पीडीएफ, DOCX, XLSX, PPTX, TXT, आदि सहित कई प्रकार के प्रारूपों का समर्थन करता है।

क्या GroupDocs.Parser दस्तावेजों के बैच प्रसंस्करण के लिए उपयुक्त है?

हां, GroupDocs.Parser दस्तावेज़ पार्सिंग और निष्कर्षण के लिए बैच प्रसंस्करण कार्यों को कुशलतापूर्वक संभाल सकता है।

क्या मैं GroupDocs.Parser के साथ पाठ निष्कर्षण विकल्पों को अनुकूलित कर सकता हूं?

हां, GroupDocs.Parser विशिष्ट आवश्यकताओं के आधार पर पाठ निष्कर्षण को अनुकूलित करने के लिए विभिन्न विकल्प प्रदान करता है।

क्या GroupDocs.Parser दस्तावेज़ों से मेटाडेटा निकालने के लिए समर्थन प्रदान करता है?

हां, GroupDocs.Parser समर्थित दस्तावेज़ प्रारूपों से लेखक, निर्माण तिथि और अधिक जैसे मेटाडेटा निकालने की अनुमति देता है।