Ekstrak Teks Terformat dari Halaman Dokumen
Perkenalan
Dalam tutorial ini, kami akan memandu Anda melalui proses mengekstraksi teks yang diformat dari halaman dokumen menggunakan GroupDocs.Parser untuk .NET. Pustaka ini memungkinkan Anda mengurai dan mengekstrak teks secara efisien dari berbagai format dokumen seperti PDF, Word, Excel, dan lainnya.
Prasyarat
Sebelum kita mulai, pastikan Anda memiliki hal berikut:
- Visual Studio diinstal pada sistem Anda.
- Pengetahuan dasar tentang pemrograman C#.
- GroupDocs.Parser untuk perpustakaan .NET. Anda dapat mengunduhnyaDi Sini.
Impor Namespace
Pertama, mulailah dengan mengimpor namespace yang diperlukan ke proyek C# Anda.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
Langkah 1: Buat Instance Kelas Parser
Mulailah dengan membuat sebuah instance dariParser
kelas dengan menyediakan jalur ke file sampel Anda.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Kode akan ditempatkan di sini
}
Langkah 2: Periksa apakah Ekstraksi Teks Terformat Didukung
Sebelum melanjutkan ekstraksi teks, verifikasi apakah dokumen mendukung ekstraksi teks berformat.
if (!parser.Features.FormattedText)
{
Console.WriteLine("Document does not support formatted text extraction.");
return;
}
Langkah 3: Dapatkan Informasi Dokumen
Ambil informasi tentang dokumen, seperti jumlah halaman.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
Langkah 4: Ulangi Halaman Dokumen dan Ekstrak Teks yang Diformat
Ulangi setiap halaman dokumen dan ekstrak teks yang diformat menggunakan opsi tertentu (misalnya, format penurunan harga).
for (int p = 0; p < documentInfo.PageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Kesimpulan
Sekarang Anda tahu cara mengekstrak teks yang diformat dari halaman dokumen menggunakan GroupDocs.Parser untuk .NET. Pustaka ini menyediakan solusi yang kuat dan mudah digunakan untuk ekstraksi teks dari berbagai format file.
FAQ
Bisakah GroupDocs.Parser menangani format file yang berbeda?
Ya, GroupDocs.Parser mendukung berbagai format dokumen, termasuk PDF, DOCX, XLSX, PPTX, dan banyak lagi.
Apakah GroupDocs.Parser kompatibel dengan .NET Core?
Ya, GroupDocs.Parser mendukung .NET Core dan .NET Framework.
Apakah GroupDocs.Parser mempertahankan format teks selama ekstraksi?
Ya, GroupDocs.Parser dapat mempertahankan pemformatan seperti gaya dan font saat mengekstraksi teks.
Bisakah saya mengekstrak gambar dan metadata menggunakan GroupDocs.Parser?
Ya, GroupDocs.Parser memungkinkan ekstraksi gambar, metadata, dan teks dari dokumen.
Bagaimana saya bisa mendapatkan dukungan untuk GroupDocs.Parser?
Anda bisa mendapatkan dukungan dariForum GroupDocs.Parser.