Nhận dạng văn bản ở các khu vực cụ thể
Giới thiệu
Trong hướng dẫn này, chúng ta sẽ khám phá cách sử dụng GroupDocs.Parser cho .NET để nhận dạng và trích xuất văn bản từ các vùng cụ thể trong tài liệu. GroupDocs.Parser là thư viện phân tích cú pháp tài liệu mạnh mẽ cho phép các nhà phát triển làm việc với nhiều định dạng tài liệu khác nhau, bao gồm PDF, Word, Excel, PowerPoint, v.v. Cụ thể, chúng tôi sẽ tập trung vào việc tận dụng khả năng OCR (Nhận dạng ký tự quang học) của GroupDocs.Parser để trích xuất văn bản từ các vùng được xác định trong tài liệu.
Điều kiện tiên quyết
Trước khi chúng tôi bắt đầu, hãy đảm bảo bạn đã thiết lập các điều kiện tiên quyết sau:
- Visual Studio IDE: Đảm bảo bạn đã cài đặt Visual Studio trên máy của mình.
- GroupDocs.Parser cho .NET: Tải xuống và cài đặt GroupDocs.Parser cho .NET từLiên kết tải xuống.
- Mẫu tài liệu: Chuẩn bị các tệp mẫu (ví dụ: PDF, DOCX) mà bạn muốn trích xuất văn bản.
Nhập không gian tên
Để bắt đầu, hãy nhập các không gian tên cần thiết vào dự án của bạn:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Hãy chia nhỏ quy trình thành các bước chi tiết bằng GroupDocs.Parser cho .NET:
Bước 1: Tạo cài đặt trình phân tích cú pháp bằng Trình kết nối OCR
Đầu tiên, tạo một thể hiện củaParserSettings
lớp và khởi tạo nó bằng trình kết nối OCR, chẳng hạn nhưAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Bước 2: Khởi tạo trình phân tích cú pháp bằng cài đặt
Tiếp theo, tạo một thể hiện củaParser
lớp bằng cách chuyển lớp được tạo trước đóParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Đoạn mã tiếp tục...
}
Thay thế"YourSampleFile.pdf"
với đường dẫn đến tài liệu đích của bạn.
Bước 3: Định cấu hình tùy chọn trích xuất vùng văn bản
Tạo một thể hiện củaPageTextAreaOptions
để bật trích xuất văn bản dựa trên OCR:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Bộtrue
để bật OCR để nhận dạng văn bản tốt hơn.
Bước 4: Trích xuất vùng văn bản
Gọiparser.GetTextAreas(options)
để trích xuất các vùng văn bản từ tài liệu:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Bước 5: Xử lý vùng văn bản được trích xuất
Lặp lại các vùng văn bản được trích xuất và truy xuất thông tin văn bản, vị trí và kích thước:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Phần kết luận
Trong hướng dẫn này, chúng tôi đã đề cập đến quy trình trích xuất văn bản từ các vùng cụ thể trong tài liệu bằng GroupDocs.Parser cho .NET có khả năng OCR. Bằng cách làm theo các bước này, bạn có thể tận dụng hiệu quả các chức năng phân tích cú pháp của GroupDocs.Parser để xử lý các tác vụ trích xuất văn bản theo chương trình.
Câu hỏi thường gặp
GroupDocs.Parser có thể trích xuất văn bản từ các tài liệu được quét không?
Có, GroupDocs.Parser hỗ trợ OCR để trích xuất văn bản từ hình ảnh được quét trong tài liệu.
Những định dạng tài liệu nào được GroupDocs.Parser hỗ trợ?
GroupDocs.Parser hỗ trợ nhiều định dạng, bao gồm PDF, DOCX, XLSX, PPTX, TXT, v.v.
GroupDocs.Parser có phù hợp để xử lý hàng loạt tài liệu không?
Có, GroupDocs.Parser có thể xử lý hiệu quả các tác vụ xử lý hàng loạt để phân tích và trích xuất tài liệu.
Tôi có thể tùy chỉnh các tùy chọn trích xuất văn bản bằng GroupDocs.Parser không?
Có, GroupDocs.Parser cung cấp nhiều tùy chọn khác nhau để tùy chỉnh trích xuất văn bản dựa trên các yêu cầu cụ thể.
GroupDocs.Parser có cung cấp hỗ trợ trích xuất siêu dữ liệu từ tài liệu không?
Có, GroupDocs.Parser cho phép trích xuất siêu dữ liệu như tác giả, ngày tạo, v.v. từ các định dạng tài liệu được hỗ trợ.