การจดจำข้อความในพื้นที่สี่เหลี่ยม

การแนะนำ

ในบทช่วยสอนนี้ เราจะสำรวจวิธีใช้ GroupDocs.Parser สำหรับ .NET เพื่อจดจำข้อความภายในขอบเขตสี่เหลี่ยมเฉพาะของเอกสาร GroupDocs.Parser เป็นไลบรารีอันทรงพลังที่ช่วยให้นักพัฒนาสามารถแยกข้อความ เมตาดาต้า และอื่นๆ จากไฟล์รูปแบบต่างๆ รวมถึง PDF, Word, Excel และ PowerPoint

ข้อกำหนดเบื้องต้น

ก่อนที่เราจะเริ่ม ตรวจสอบให้แน่ใจว่าคุณได้ตั้งค่าต่อไปนี้:

  • GroupDocs.Parser สำหรับ .NET: ดาวน์โหลดและติดตั้งไลบรารีจากที่นี่.
  • สภาพแวดล้อมการพัฒนา: Visual Studio หรือ .NET IDE อื่น ๆ
  • เอกสารตัวอย่าง: มีไฟล์ตัวอย่าง (เช่น PDF, DOCX) ที่มีข้อความที่จะจดจำ

นำเข้าเนมสเปซ

ขั้นแรก คุณจะต้องนำเข้าเนมสเปซที่จำเป็นลงในโค้ด C# ของคุณ:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

ขั้นตอนที่ 1: เริ่มต้นการตั้งค่า Parser

เริ่มต้นด้วยการตั้งค่าParserSettings ด้วยขั้วต่อ OCR ที่นี่ เราจะใช้ตัวเชื่อมต่อ Aspose OCR ภายในองค์กร:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

ขั้นตอนที่ 2: สร้างอินสแตนซ์ Parser

ถัดไป ยกตัวอย่างParser คลาสที่มีการตั้งค่าที่กำหนดไว้ก่อนหน้านี้:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // รหัสยังคงดำเนินต่อไปที่นี่
}

แทนที่"YourSampleFile.pdf" พร้อมเส้นทางไปยังเอกสารของคุณ

ขั้นตอนที่ 3: กำหนดสี่เหลี่ยมผืนผ้า OCR

กำหนดสี่เหลี่ยมภายในเอกสารที่จะทำการจดจำข้อความ เช่น สี่เหลี่ยมเริ่มต้นที่(0, 0) มีความกว้าง400 และความสูง200-

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

ขั้นตอนที่ 4: กำหนดค่าตัวเลือกการรู้จำข้อความ

สร้างTextOptions เพื่อระบุการใช้งาน OCR พร้อมกับสี่เหลี่ยมที่กำหนด:

TextOptions options = new TextOptions(false, true, ocrOptions);

ขั้นตอนที่ 5: แยกข้อความโดยใช้ OCR

ใช้GetText วิธีการของParser อินสแตนซ์ที่มีการกำหนดค่าTextOptions-

using (TextReader reader = parser.GetText(options))
{
    // อ่านข้อความที่แยกออกมาหรือจัดการตัวพิมพ์ 'ไม่รองรับ'
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

บทสรุป

ในบทช่วยสอนนี้ เราได้สาธิตวิธีใช้ประโยชน์จาก GroupDocs.Parser สำหรับ .NET เพื่อแยกข้อความจากขอบเขตสี่เหลี่ยมเฉพาะในเอกสารโดยใช้ OCR กระบวนการนี้สามารถปรับแต่งเพิ่มเติมและรวมเข้ากับแอปพลิเคชันต่างๆ สำหรับงานแยกข้อความอัตโนมัติ

คำถามที่พบบ่อย

GroupDocs.Parser สามารถแยกข้อความจากเอกสารที่สแกนได้หรือไม่

ใช่ GroupDocs.Parser รองรับ OCR (Optical Character Recognition) สำหรับการแยกข้อความจากเอกสารที่สแกน

GroupDocs.Parser รองรับไฟล์รูปแบบใดบ้าง

GroupDocs.Parser รองรับรูปแบบไฟล์ที่หลากหลาย รวมถึง PDF, DOCX, XLSX, PPTX และอื่นๆ

ฉันจะจัดการเอกสารที่ไม่รองรับการแยกข้อความได้อย่างไร

คุณสามารถตรวจสอบว่ารองรับการแยกข้อความหรือไม่TextReader ตัวอย่างที่ส่งคืนโดยparser.GetText(options).

GroupDocs.Parser เหมาะสำหรับงานแยกข้อความขนาดใหญ่หรือไม่

ใช่ GroupDocs.Parser ได้รับการออกแบบมาเพื่อจัดการงานแยกข้อความขนาดใหญ่ได้อย่างมีประสิทธิภาพ

ฉันจะรับการสนับสนุนสำหรับปัญหาที่เกี่ยวข้องกับ GroupDocs.Parser ได้ที่ไหน

สำหรับการสนับสนุนและการสนทนาโปรดไปที่ฟอรัม GroupDocs.Parser.