Ekstrak Teks dari Halaman dalam PDF dalam Mode Mentah

Perkenalan

Dalam tutorial ini, kita akan mempelajari cara menggunakan GroupDocs.Parser untuk .NET untuk mengekstrak teks dari halaman dalam dokumen PDF menggunakan mode mentah. GroupDocs.Parser adalah alat canggih yang memungkinkan pengembang bekerja dengan berbagai format dokumen secara terprogram.

Prasyarat

Sebelum memulai tutorial ini, pastikan Anda memiliki hal berikut:

  • Visual Studio diinstal pada mesin Anda.
  • Pengetahuan dasar tentang pemrograman C#.
  • GroupDocs.Parser untuk perpustakaan .NET, yang Anda bisaUnduh disini.
  • Contoh file PDF untuk tujuan pengujian.

Impor Namespace

Pertama, pastikan untuk mengimpor namespace yang diperlukan dalam proyek C# Anda:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Langkah 1: Buat Instance Kelas Parser

Untuk memulai, buat instanceParserkelas dengan memberikan jalur ke contoh file PDF Anda.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kode Anda ada di sini
}

Langkah 2: Dapatkan Info Dokumen dan Ulangi Halaman

Selanjutnya, ambil informasi dokumen dan ulangi setiap halaman untuk mengekstrak teks.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Kode Anda untuk ekstraksi teks ada di sini
}

Langkah 3: Ekstrak Teks dari Setiap Halaman

Di dalam loop, gunakanGetText metode untuk mengekstrak teks dari setiap halaman dan mencetaknya.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Kesimpulan

Dalam tutorial ini, kita telah mempelajari cara mengekstrak teks dari halaman PDF dalam mode mentah menggunakan GroupDocs.Parser untuk .NET. Proses ini melibatkan pembuatan aParser Misalnya, memperoleh informasi dokumen, mengulangi setiap halaman, dan mengekstraksi teks menggunakanGetText metode.

FAQ

Apa itu GroupDocs.Parser untuk .NET?

GroupDocs.Parser untuk .NET adalah API penguraian dokumen yang memungkinkan pengembang mengekstrak teks, metadata, dan informasi lainnya dari berbagai format file secara terprogram.

Bagaimana cara mengunduh GroupDocs.Parser untuk .NET?

Anda dapat mengunduh perpustakaan dariSitus web GroupDocs.

Apakah ada uji coba gratis yang tersedia?

Ya, Anda dapat mengakses uji coba gratis GroupDocs.Parser untuk .NET dariDi Sini.

Di mana saya dapat menemukan dukungan untuk GroupDocs.Parser untuk .NET?

Untuk bantuan teknis dan dukungan komunitas, kunjungiForum Grup Dokumen.

Bagaimana cara membeli lisensi GroupDocs.Parser untuk .NET?

Anda dapat membeli lisensi darihalaman pembelian atau memperoleh lisensi sementaraDi Sini.