Ekstrak Teks Terformat dari Halaman Dokumen

Perkenalan

Dalam tutorial ini, kami akan memandu Anda melalui proses mengekstraksi teks yang diformat dari halaman dokumen menggunakan GroupDocs.Parser untuk .NET. Pustaka ini memungkinkan Anda mengurai dan mengekstrak teks secara efisien dari berbagai format dokumen seperti PDF, Word, Excel, dan lainnya.

Prasyarat

Sebelum kita mulai, pastikan Anda memiliki hal berikut:

Visual Studio diinstal pada sistem Anda.
Pengetahuan dasar tentang pemrograman C#.
GroupDocs.Parser untuk perpustakaan .NET. Anda dapat mengunduhnyaDi Sini.

Impor Namespace

Pertama, mulailah dengan mengimpor namespace yang diperlukan ke proyek C# Anda.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Langkah 1: Buat Instance Kelas Parser

Mulailah dengan membuat sebuah instance dariParser kelas dengan menyediakan jalur ke file sampel Anda.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kode akan ditempatkan di sini
}

Langkah 2: Periksa apakah Ekstraksi Teks Terformat Didukung

Sebelum melanjutkan ekstraksi teks, verifikasi apakah dokumen mendukung ekstraksi teks berformat.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Langkah 3: Dapatkan Informasi Dokumen

Ambil informasi tentang dokumen, seperti jumlah halaman.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Langkah 4: Ulangi Halaman Dokumen dan Ekstrak Teks yang Diformat

Ulangi setiap halaman dokumen dan ekstrak teks yang diformat menggunakan opsi tertentu (misalnya, format penurunan harga).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Kesimpulan

Sekarang Anda tahu cara mengekstrak teks yang diformat dari halaman dokumen menggunakan GroupDocs.Parser untuk .NET. Pustaka ini menyediakan solusi yang kuat dan mudah digunakan untuk ekstraksi teks dari berbagai format file.

FAQ

Bisakah GroupDocs.Parser menangani format file yang berbeda?

Ya, GroupDocs.Parser mendukung berbagai format dokumen, termasuk PDF, DOCX, XLSX, PPTX, dan banyak lagi.

Apakah GroupDocs.Parser kompatibel dengan .NET Core?

Ya, GroupDocs.Parser mendukung .NET Core dan .NET Framework.

Apakah GroupDocs.Parser mempertahankan format teks selama ekstraksi?

Ya, GroupDocs.Parser dapat mempertahankan pemformatan seperti gaya dan font saat mengekstraksi teks.

Bisakah saya mengekstrak gambar dan metadata menggunakan GroupDocs.Parser?

Ya, GroupDocs.Parser memungkinkan ekstraksi gambar, metadata, dan teks dari dokumen.

Bagaimana saya bisa mendapatkan dukungan untuk GroupDocs.Parser?

Anda bisa mendapatkan dukungan dariForum GroupDocs.Parser.

Ekstrak Teks Terformat dari Dokumen Ekstrak Konten HTML