Alanlar Arasında Yineleme
giriiş
GroupDocs.Parser for .NET, geliştiricilerin PDF, Microsoft Word, Excel ve PowerPoint gibi çeşitli belge formatlarından veri çıkarmasına olanak tanıyan güçlü bir kitaplıktır. Bu eğitim, belge alanları arasında yineleme yapmak ve şablonları kullanarak belirli verileri çıkarmak için GroupDocs.Parser’ı kullanma sürecinde size rehberlik edecektir. Bu eğitimin sonunda, .NET uygulamalarınızdaki belgelerden yapılandırılmış verileri verimli bir şekilde çıkarabileceksiniz.
Önkoşullar
Başlamadan önce aşağıdaki önkoşulları oluşturduğunuzdan emin olun:
- Temel C# programlama bilgisi.
- Makinenizde Visual Studio yüklü.
- Projenizde yüklenen ve başvurulan .NET kitaplığı için GroupDocs.Parser.
Ad Alanlarını İçe Aktar
Başlamak için gerekli ad alanlarını C# dosyanıza ekleyin:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Süreci adım adım talimatlara ayıralım.
1. Adım: Şablon Alanlarını Tanımlayın
Öncelikle normal ifadeleri kullanarak belgeden çıkarmak istediğiniz alanları tanımlayın.
// Bir "fiyat" alanı tanımlayın
TemplateField priceField = new TemplateField(
new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
"Price");
// Bir "e-posta" alanı tanımlayın
TemplateField emailField = new TemplateField(
new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
"Email");
// Tanımlanmış alanlarla bir şablon oluşturun
Template template = new Template(new TemplateItem[] { priceField, emailField });
Bu adımda iki alan tanımladık: biri fiyatları çıkarmak için (dolar işareti ve rakamlarla tanımlanır) ve diğeri e-posta adreslerini çıkarmak için.
Adım 2: Belgeyi Ayrıştırma
Daha sonra şunu kullanın:Parser
Tanımlanan şablonu kullanarak belgeyi ayrıştırmak için sınıf.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Belgeyi şablona göre ayrıştırın
DocumentData data = parser.ParseByTemplate(template);
// Çıkarılan veriler üzerinden yineleme
for (int i = 0; i < data.Count; i++)
{
// Alan adını yazdır
Console.Write(data[i].Name + ": ");
// Çıkarılan alanın metin olup olmadığını kontrol edin
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
Burada başlatıyoruzParser
örnek belgenizin yolunu belirtin ve ardından tanımlanan şablonu kullanarak belgeyi ayrıştırın. Daha sonra çıkarılan verileri yineliyoruz ve alan adlarını çıkarılan metinle birlikte yazdırıyoruz.
Çözüm
Bu öğreticide, şablonlar kullanarak belgelerden belirli verileri ayıklamak için GroupDocs.Parser for .NET’in nasıl kullanılacağını araştırdık. Düzenli ifadelerden ve şablonlardan yararlanarak, çeşitli belge formatlarından yapılandırılmış bilgileri verimli bir şekilde çıkarabilirsiniz. Özel çıkarma ihtiyaçlarınıza uyacak şekilde farklı şablonlar ve belge türleriyle denemeler yapın.
SSS’ler
GroupDocs.Parser taranan belgelerden veri çıkarabilir mi?
Evet, GroupDocs.Parser hem taranmış hem de aranabilir PDF belgelerinden metin ve meta verileri çıkarabilir.
GroupDocs.Parser .NET Core uygulamalarıyla uyumlu mu?
Evet, GroupDocs.Parser, .NET Framework ile birlikte .NET Core’u destekler.
GroupDocs.Parser hangi belge formatlarını destekler?
GroupDocs.Parser, PDF, Microsoft Word, Excel, PowerPoint ve daha fazlasını içeren çok çeşitli formatları destekler.
GroupDocs.Parser ile büyük belgeleri nasıl işleyebilirim?
GroupDocs.Parser, büyük belgelerin belirli sayfalarından veya bölümlerinden veri ayıklamak için seçenekler sunarak verimli işlemeyi sağlar.
GroupDocs.Parser’ı yalnızca metin ayıklamak için kullanabilir miyim?
Evet, karmaşık biçimlendirmeye ihtiyaç duymadan GroupDocs.Parser’ı kullanarak belgelerden düz metin içeriği çıkarabilirsiniz.