Mengenali Teks di Area Tertentu
Perkenalan
Dalam tutorial ini, kita akan mempelajari cara menggunakan GroupDocs.Parser untuk .NET untuk mengenali dan mengekstrak teks dari area tertentu dalam dokumen. GroupDocs.Parser adalah pustaka penguraian dokumen canggih yang memungkinkan pengembang bekerja dengan berbagai format dokumen, termasuk PDF, Word, Excel, PowerPoint, dan banyak lagi. Secara khusus, kami akan fokus pada pemanfaatan kemampuan OCR (Optical Character Recognition) GroupDocs.Parser untuk mengekstrak teks dari area tertentu dalam dokumen.
Prasyarat
Sebelum kita mulai, pastikan Anda telah menyiapkan prasyarat berikut:
- Visual Studio IDE: Pastikan Anda telah menginstal Visual Studio di mesin Anda.
- GroupDocs.Parser untuk .NET: Unduh dan instal GroupDocs.Parser untuk .NET daritautan unduhan.
- Sampel Dokumen: Siapkan file sampel (misalnya PDF, DOCX) yang teksnya ingin Anda ekstrak.
Impor Namespace
Untuk memulai, impor namespace yang diperlukan ke dalam proyek Anda:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Mari kita bagi prosesnya menjadi langkah-langkah mendetail menggunakan GroupDocs.Parser untuk .NET:
Langkah 1: Buat Pengaturan Parser dengan Konektor OCR
Pertama, buat sebuah instance dariParserSettings
kelas dan inisialisasi dengan konektor OCR, sepertiAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Langkah 2: Buat Instansiasi Parser dengan Pengaturan
Selanjutnya, buat sebuah instance dariParser
kelas dengan melewati yang dibuat sebelumnyaParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Cuplikan kode berlanjut...
}
Mengganti"YourSampleFile.pdf"
dengan jalur ke dokumen target Anda.
Langkah 3: Konfigurasikan Opsi Ekstraksi Area Teks
Buat sebuah contoh dariPageTextAreaOptions
untuk mengaktifkan ekstraksi teks berbasis OCR:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Mengaturtrue
untuk mengaktifkan OCR untuk pengenalan teks yang lebih baik.
Langkah 4: Ekstrak Area Teks
Memohonparser.GetTextAreas(options)
untuk mengekstrak area teks dari dokumen:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Langkah 5: Proses Area Teks yang Diekstraksi
Ulangi area teks yang diekstraksi dan ambil informasi teks, posisi, dan ukuran:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Kesimpulan
Dalam tutorial ini, kami telah membahas proses mengekstraksi teks dari area tertentu dalam dokumen menggunakan GroupDocs.Parser untuk .NET dengan kemampuan OCR. Dengan mengikuti langkah-langkah ini, Anda dapat secara efektif memanfaatkan fungsi penguraian GroupDocs.Parser untuk menangani tugas ekstraksi teks secara terprogram.
FAQ
Bisakah GroupDocs.Parser mengekstrak teks dari dokumen yang dipindai?
Ya, GroupDocs.Parser mendukung OCR untuk mengekstraksi teks dari gambar yang dipindai di dalam dokumen.
Format dokumen apa yang didukung oleh GroupDocs.Parser?
GroupDocs.Parser mendukung berbagai format, termasuk PDF, DOCX, XLSX, PPTX, TXT, dan banyak lagi.
Apakah GroupDocs.Parser cocok untuk pemrosesan dokumen secara batch?
Ya, GroupDocs.Parser dapat secara efisien menangani tugas pemrosesan batch untuk penguraian dan ekstraksi dokumen.
Bisakah saya menyesuaikan opsi ekstraksi teks dengan GroupDocs.Parser?
Ya, GroupDocs.Parser menawarkan berbagai opsi untuk menyesuaikan ekstraksi teks berdasarkan kebutuhan spesifik.
Apakah GroupDocs.Parser menyediakan dukungan untuk mengekstraksi metadata dari dokumen?
Ya, GroupDocs.Parser memungkinkan ekstraksi metadata seperti penulis, tanggal pembuatan, dan lainnya dari format dokumen yang didukung.