Ekstrak Teks dari Halaman dalam Mode Mentah

Perkenalan

Dalam tutorial ini, Anda akan mempelajari cara menggunakan Groupdocs.Parser untuk .NET untuk mengekstrak teks dari halaman dokumen dalam mode mentah. Pustaka ini menyediakan alat yang efisien untuk mengurai dan mengekstrak konten dari berbagai format file, memungkinkan pengembang untuk memasukkan ekstraksi teks dokumen ke dalam aplikasi .NET mereka.

Prasyarat

Sebelum memulai, pastikan Anda memiliki prasyarat berikut:

  • Pengetahuan dasar tentang pemrograman C# dan .NET
  • Visual Studio diinstal pada mesin Anda
  • Akses ke Groupdocs.Parser untuk perpustakaan .NET
  • Contoh file dokumen untuk pengujian

Impor Namespace

Mulailah dengan memasukkan namespace yang diperlukan dalam proyek C# Anda:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Langkah 1: Inisialisasi Parser

Pertama, buat sebuah instance dariParser kelas dengan menyediakan jalur ke file dokumen sampel Anda.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kode Anda di sini
}

Langkah 2: Ambil Info Dokumen

Ambil informasi tentang dokumen menggunakanGetDocumentInfo() metode.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Langkah 3: Ulangi Halaman dan Ekstrak Teks

Ulangi setiap halaman dokumen dan ekstrak konten teks.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Ekstrak teks dari halaman
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Kesimpulan

Anda sekarang telah mempelajari cara menggunakan Groupdocs.Parser untuk .NET untuk mengekstrak teks dari halaman dokumen dalam mode mentah. Ini bisa menjadi fitur canggih untuk aplikasi yang perlu menganalisis atau memproses konten teks dari berbagai format file.

FAQ

Apakah Groupdocs.Parser untuk .NET kompatibel dengan semua format file?

Groupdocs.Parser mendukung berbagai format file termasuk PDF, DOCX, XLSX, PPTX, EPUB, dan banyak lagi.

Bisakah saya mengekstrak metadata beserta teks menggunakan perpustakaan ini?

Ya, Groupdocs.Parser memungkinkan Anda mengekstrak teks dan metadata dari dokumen.

Apakah ada versi uji coba yang tersedia untuk pengujian?

Ya, Anda dapat mengunduh versi uji coba gratis dariDi Sini.

Bagaimana saya bisa mendapatkan dukungan teknis untuk Groupdocs.Parser?

Untuk bantuan teknis, kunjungiForum Groupdocs.Parser.

Di mana saya dapat membeli lisensi Groupdocs.Parser untuk .NET?

Anda dapat membeli lisensiDi Sini.