Trích xuất văn bản từ trang ở dạng PDF ở Chế độ thô

Giới thiệu

Trong hướng dẫn này, chúng ta sẽ khám phá cách sử dụng GroupDocs.Parser cho .NET để trích xuất văn bản từ các trang trong tài liệu PDF bằng chế độ thô. GroupDocs.Parser là một công cụ mạnh mẽ cho phép các nhà phát triển làm việc với nhiều định dạng tài liệu khác nhau theo chương trình.

Điều kiện tiên quyết

Trước khi bắt đầu hướng dẫn này, hãy đảm bảo bạn có những điều sau:

  • Visual Studio được cài đặt trên máy của bạn.
  • Kiến thức cơ bản về lập trình C#.
  • GroupDocs.Parser cho thư viện .NET mà bạn có thểtải xuống ở đây.
  • Một tệp PDF mẫu cho mục đích thử nghiệm.

Nhập không gian tên

Trước tiên, hãy đảm bảo nhập các không gian tên cần thiết trong dự án C# của bạn:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Bước 1: Tạo một phiên bản của lớp trình phân tích cú pháp

Để bắt đầu, hãy khởi tạoParserclass bằng cách cung cấp đường dẫn đến tệp PDF mẫu của bạn.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Mã của bạn ở đây
}

Bước 2: Nhận thông tin tài liệu và lặp lại các trang

Tiếp theo, lấy thông tin tài liệu và lặp lại từng trang để trích xuất văn bản.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Mã của bạn để trích xuất văn bản ở đây
}

Bước 3: Trích xuất văn bản từ mỗi trang

Trong vòng lặp, sử dụngGetText phương pháp trích xuất văn bản từ mỗi trang và in nó.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Phần kết luận

Trong hướng dẫn này, chúng ta đã học cách trích xuất văn bản từ các trang PDF ở chế độ thô bằng GroupDocs.Parser cho .NET. Quá trình này bao gồm việc tạo ra mộtParser chẳng hạn, lấy thông tin tài liệu, duyệt qua từng trang và trích xuất văn bản bằng cách sử dụngGetText phương pháp.

Câu hỏi thường gặp

GroupDocs.Parser cho .NET là gì?

GroupDocs.Parser cho .NET là API phân tích tài liệu cho phép các nhà phát triển trích xuất văn bản, siêu dữ liệu và thông tin khác từ các định dạng tệp khác nhau theo chương trình.

Làm cách nào để tải xuống GroupDocs.Parser cho .NET?

Bạn có thể tải xuống thư viện từTrang web GroupDocs.

Có bản dùng thử miễn phí không?

Có, bạn có thể truy cập bản dùng thử miễn phí GroupDocs.Parser cho .NET từđây.

Tôi có thể tìm hỗ trợ cho GroupDocs.Parser cho .NET ở đâu?

Để được hỗ trợ kỹ thuật và hỗ trợ cộng đồng, hãy truy cậpdiễn đàn GroupDocs.

Làm cách nào tôi có thể mua giấy phép GroupDocs.Parser cho .NET?

Bạn có thể mua giấy phép từtrang mua hàng hoặc có được giấy phép tạm thờiđây.