Mengenali Teks pada Daerah Persegi Panjang

Perkenalan

Dalam tutorial ini, kita akan mempelajari cara menggunakan GroupDocs.Parser untuk .NET untuk mengenali teks dalam wilayah persegi panjang tertentu pada dokumen. GroupDocs.Parser adalah perpustakaan canggih yang memungkinkan pengembang mengekstrak teks, metadata, dan lainnya dari berbagai format file, termasuk PDF, Word, Excel, dan PowerPoint.

Prasyarat

Sebelum kita mulai, pastikan Anda telah menyiapkan yang berikut:

GroupDocs.Parser untuk .NET: Unduh dan instal perpustakaan dariDi Sini.
Lingkungan Pengembangan: Visual Studio atau .NET IDE lainnya.
Contoh Dokumen: Miliki contoh file (misalnya PDF, DOCX) yang berisi teks untuk dikenali.

Impor Namespace

Pertama, Anda harus mengimpor namespace yang diperlukan ke dalam kode C# Anda:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Langkah 1: Inisialisasi Pengaturan Parser

Mulailah dengan menyiapkanParserSettings dengan konektor OCR. Di sini, kita akan menggunakan konektor lokal Aspose OCR:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Langkah 2: Buat Instans Parser

Selanjutnya, buat instanceParser kelas dengan pengaturan yang ditentukan sebelumnya:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Kode berlanjut di sini
}

Mengganti"YourSampleFile.pdf" dengan jalur ke dokumen Anda.

Langkah 3: Tentukan Persegi Panjang OCR

Tentukan persegi panjang di dalam dokumen tempat pengenalan teks akan dilakukan. Misalnya persegi panjang yang dimulai dari(0, 0) dengan lebar400 dan tinggi badan200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

Langkah 4: Konfigurasikan Opsi Pengenalan Teks

MembuatTextOptions untuk menentukan penggunaan OCR bersama dengan persegi panjang yang ditentukan:

TextOptions options = new TextOptions(false, true, ocrOptions);

Langkah 5: Ekstrak Teks menggunakan OCR

MenggunakanGetText metodeParser contoh dengan yang dikonfigurasiTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Baca teks yang diekstraksi atau tangani kasus 'tidak didukung'
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Kesimpulan

Dalam tutorial ini, kami telah menunjukkan cara memanfaatkan GroupDocs.Parser untuk .NET untuk mengekstrak teks dari wilayah persegi panjang tertentu dalam dokumen menggunakan OCR. Proses ini selanjutnya dapat disesuaikan dan diintegrasikan ke dalam berbagai aplikasi untuk tugas ekstraksi teks otomatis.

FAQ

Bisakah GroupDocs.Parser mengekstrak teks dari dokumen yang dipindai?

Ya, GroupDocs.Parser mendukung OCR (Optical Character Recognition) untuk mengekstrak teks dari dokumen yang dipindai.

Format file apa yang didukung GroupDocs.Parser?

GroupDocs.Parser mendukung berbagai format file, termasuk PDF, DOCX, XLSX, PPTX, dan banyak lagi.

Bagaimana cara menangani dokumen yang tidak didukung untuk ekstraksi teks?

Anda dapat memeriksa apakah ekstraksi teks didukung menggunakanTextReader contoh dikembalikan olehparser.GetText(options).

Apakah GroupDocs.Parser cocok untuk tugas ekstraksi teks skala besar?

Ya, GroupDocs.Parser dirancang untuk menangani tugas ekstraksi teks skala besar secara efisien.

Di mana saya bisa mendapatkan dukungan untuk masalah terkait GroupDocs.Parser?

Untuk dukungan dan diskusi, kunjungiForum GroupDocs.Parser.

Mengenali Teks di Area Tertentu