नियमित अभिव्यक्ति (रेगेक्स) द्वारा पाठ खोजें
परिचय
इस ट्यूटोरियल में, हम दस्तावेज़ों के भीतर नियमित अभिव्यक्ति (Regex) द्वारा पाठ खोजने के लिए .NET के लिए GroupDocs.Parser का उपयोग करने के बारे में विस्तार से जानेंगे। GroupDocs.Parser एक शक्तिशाली लाइब्रेरी है जो डेवलपर्स को PDF, DOCX, XLSX, और अधिक जैसे विभिन्न फ़ाइल स्वरूपों से पाठ और मेटाडेटा निकालने की अनुमति देती है। नियमित अभिव्यक्तियों का उपयोग करके पाठ की खोज करना विशेष रूप से दस्तावेज़ों के भीतर पैटर्न या विशिष्ट सामग्री को कुशलतापूर्वक खोजने के लिए उपयोगी है।
आवश्यक शर्तें
इस ट्यूटोरियल में आगे बढ़ने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित हैं:
- विज़ुअल स्टूडियो: .NET विकास के लिए विज़ुअल स्टूडियो IDE स्थापित करें।
- .NET के लिए GroupDocs.Parser: .NET के लिए GroupDocs.Parser को डाउनलोड करें और इंस्टॉल करेंयहाँ.
- नमूना फ़ाइल: खोज कार्यक्षमता का परीक्षण करने के लिए एक नमूना दस्तावेज़ (PDF, DOCX, आदि) तैयार करें।
नामस्थान आयात करें
सबसे पहले, अपने C# कोड में आवश्यक नेमस्पेस शामिल करके शुरुआत करें:
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
चरण 1: पार्सर क्लास का एक इंस्टेंस बनाएं
उदाहरण प्रस्तुत करेंParser
अपनी नमूना फ़ाइल का पथ प्रदान करके class में जोड़ें:
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// कोड यहाँ है
}
प्रतिस्थापित करें"YourSampleFile.pdf"
अपनी वास्तविक फ़ाइल के पथ के साथ.
चरण 2: रेगुलर एक्सप्रेशन का उपयोग करके खोजें
रेगुलर एक्सप्रेशन पैटर्न का उपयोग करके खोज को परिभाषित और निष्पादित करें। उदाहरण के लिए, दस्तावेज़ के भीतर संख्यात्मक अनुक्रम (जैसे, पूर्णांक) खोजने के लिए:
IEnumerable<SearchResult> searchResults = parser.Search("[0-9]+", new SearchOptions(true, false, true));
इस उदाहरण में,[0-9]+
एक नियमित अभिव्यक्ति पैटर्न है जो एक या अधिक अंकों से मेल खाता है।
चरण 3: खोज सहायता की जाँच करें
सत्यापित करें कि क्या खोज ऑपरेशन दस्तावेज़ प्रकार के लिए समर्थित है:
if (searchResults == null)
{
Console.WriteLine("Search isn't supported");
return;
}
चरण 4: खोज परिणामों पर पुनरावृति करें
खोज परिणामों को पुनरावृत्त करें और प्रत्येक मिलान को संसाधित करें:
foreach (SearchResult result in searchResults)
{
Console.WriteLine($"At {result.Position}: {result.Text}");
}
यह लूप दस्तावेज़ में पाई गई स्थिति और उससे मेल खाते पाठ को प्रिंट करेगा।
निष्कर्ष
निष्कर्ष में, .NET के लिए GroupDocs.Parser का लाभ उठाने से विभिन्न दस्तावेज़ स्वरूपों में नियमित अभिव्यक्तियों का उपयोग करके कुशल पाठ खोज की अनुमति मिलती है। इस गाइड का पालन करके, डेवलपर्स अपने .NET अनुप्रयोगों में दस्तावेज़ पार्सिंग और रेगेक्स-आधारित पाठ निष्कर्षण को सहजता से एकीकृत कर सकते हैं।
अक्सर पूछे जाने वाले प्रश्न
क्या GroupDocs.Parser एन्क्रिप्टेड दस्तावेज़ों में खोज कर सकता है?
नहीं, GroupDocs.Parser एन्क्रिप्टेड या पासवर्ड-संरक्षित दस्तावेज़ों में खोज नहीं कर सकता।
क्या GroupDocs.Parser OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) का समर्थन करता है?
नहीं, GroupDocs.Parser OCR नहीं करता है। यह दस्तावेज़ की आंतरिक संरचना से पाठ निष्कर्षण पर निर्भर करता है।
क्या मैं नियमित अभिव्यक्तियों का उपयोग करके जटिल पैटर्न खोज सकता हूँ?
हां, GroupDocs.Parser पूर्ण-विकसित नियमित अभिव्यक्तियों का समर्थन करता है, जिससे दस्तावेजों के भीतर जटिल पैटर्न मिलान संभव हो जाता है।
पाठ निष्कर्षण के लिए कौन से दस्तावेज़ प्रारूप समर्थित हैं?
GroupDocs.Parser पीडीएफ, DOCX, XLSX, PPTX, आदि सहित कई प्रकार के प्रारूपों का समर्थन करता है।
क्या GroupDocs.Parser .NET कोर के साथ संगत है?
हां, GroupDocs.Parser क्रॉस-प्लेटफॉर्म विकास के लिए .NET कोर के साथ संगत है।