Ekstrak Teks dari Halaman dalam PDF dalam Mode Mentah
Perkenalan
Dalam tutorial ini, kita akan mempelajari cara menggunakan GroupDocs.Parser untuk .NET untuk mengekstrak teks dari halaman dalam dokumen PDF menggunakan mode mentah. GroupDocs.Parser adalah alat canggih yang memungkinkan pengembang bekerja dengan berbagai format dokumen secara terprogram.
Prasyarat
Sebelum memulai tutorial ini, pastikan Anda memiliki hal berikut:
- Visual Studio diinstal pada mesin Anda.
- Pengetahuan dasar tentang pemrograman C#.
- GroupDocs.Parser untuk perpustakaan .NET, yang Anda bisaUnduh disini.
- Contoh file PDF untuk tujuan pengujian.
Impor Namespace
Pertama, pastikan untuk mengimpor namespace yang diperlukan dalam proyek C# Anda:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Langkah 1: Buat Instance Kelas Parser
Untuk memulai, buat instanceParser
kelas dengan memberikan jalur ke contoh file PDF Anda.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Kode Anda ada di sini
}
Langkah 2: Dapatkan Info Dokumen dan Ulangi Halaman
Selanjutnya, ambil informasi dokumen dan ulangi setiap halaman untuk mengekstrak teks.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Kode Anda untuk ekstraksi teks ada di sini
}
Langkah 3: Ekstrak Teks dari Setiap Halaman
Di dalam loop, gunakanGetText
metode untuk mengekstrak teks dari setiap halaman dan mencetaknya.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Kesimpulan
Dalam tutorial ini, kita telah mempelajari cara mengekstrak teks dari halaman PDF dalam mode mentah menggunakan GroupDocs.Parser untuk .NET. Proses ini melibatkan pembuatan aParser
Misalnya, memperoleh informasi dokumen, mengulangi setiap halaman, dan mengekstraksi teks menggunakanGetText
metode.
FAQ
Apa itu GroupDocs.Parser untuk .NET?
GroupDocs.Parser untuk .NET adalah API penguraian dokumen yang memungkinkan pengembang mengekstrak teks, metadata, dan informasi lainnya dari berbagai format file secara terprogram.
Bagaimana cara mengunduh GroupDocs.Parser untuk .NET?
Anda dapat mengunduh perpustakaan dariSitus web GroupDocs.
Apakah ada uji coba gratis yang tersedia?
Ya, Anda dapat mengakses uji coba gratis GroupDocs.Parser untuk .NET dariDi Sini.
Di mana saya dapat menemukan dukungan untuk GroupDocs.Parser untuk .NET?
Untuk bantuan teknis dan dukungan komunitas, kunjungiForum Grup Dokumen.
Bagaimana cara membeli lisensi GroupDocs.Parser untuk .NET?
Anda dapat membeli lisensi darihalaman pembelian atau memperoleh lisensi sementaraDi Sini.