Извлечь текст со страницы в PDF в режиме Raw

Введение

В этом руководстве мы рассмотрим, как использовать GroupDocs.Parser для .NET для извлечения текста со страниц PDF-документов в необработанном режиме. GroupDocs.Parser — мощный инструмент, позволяющий разработчикам программно работать с документами различных форматов.

Предварительные условия

Прежде чем приступить к этому уроку, убедитесь, что у вас есть следующее:

  • Visual Studio установлена на вашем компьютере.
  • Базовые знания программирования на C#.
  • GroupDocs.Parser для библиотеки .NET, которую вы можетеСкачать здесь.
  • Образец PDF-файла для тестирования.

Импортировать пространства имен

Сначала обязательно импортируйте необходимые пространства имен в свой проект C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Шаг 1. Создайте экземпляр класса парсера

Для начала создайте экземплярParserclass, указав путь к образцу PDF-файла.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Ваш код находится здесь
}

Шаг 2. Получите информацию о документе и перебирайте страницы

Затем извлеките информацию о документе и пройдитесь по каждой странице, чтобы извлечь текст.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Здесь находится ваш код для извлечения текста
}

Шаг 3. Извлеките текст с каждой страницы

Внутри цикла используйтеGetText метод для извлечения текста с каждой страницы и его печати.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Заключение

В этом уроке мы научились извлекать текст из страниц PDF в необработанном режиме с помощью GroupDocs.Parser для .NET. Этот процесс предполагает созданиеParser экземпляр, получая информацию о документе, перебирая каждую страницу и извлекая текст с помощьюGetText метод.

Часто задаваемые вопросы

Что такое GroupDocs.Parser для .NET?

GroupDocs.Parser для .NET — это API анализа документов, который позволяет разработчикам программно извлекать текст, метаданные и другую информацию из файлов различных форматов.

Как загрузить GroupDocs.Parser для .NET?

Вы можете скачать библиотеку с сайтаВеб-сайт ГруппДокс.

Доступна ли бесплатная пробная версия?

Да, вы можете получить доступ к бесплатной пробной версии GroupDocs.Parser для .NET на сайтездесь.

Где я могу найти поддержку GroupDocs.Parser для .NET?

Для получения технической помощи и поддержки сообщества посетитеФорум групповых документов.

Как я могу приобрести лицензию на GroupDocs.Parser для .NET?

Вы можете приобрести лицензию на сайтестраница покупки или получить временную лицензиюздесь.