Извлечь текст со страницы в PDF в режиме Raw
Введение
В этом руководстве мы рассмотрим, как использовать GroupDocs.Parser для .NET для извлечения текста со страниц PDF-документов в необработанном режиме. GroupDocs.Parser — мощный инструмент, позволяющий разработчикам программно работать с документами различных форматов.
Предварительные условия
Прежде чем приступить к этому уроку, убедитесь, что у вас есть следующее:
- Visual Studio установлена на вашем компьютере.
- Базовые знания программирования на C#.
- GroupDocs.Parser для библиотеки .NET, которую вы можетеСкачать здесь.
- Образец PDF-файла для тестирования.
Импортировать пространства имен
Сначала обязательно импортируйте необходимые пространства имен в свой проект C#:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Шаг 1. Создайте экземпляр класса парсера
Для начала создайте экземплярParser
class, указав путь к образцу PDF-файла.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Ваш код находится здесь
}
Шаг 2. Получите информацию о документе и перебирайте страницы
Затем извлеките информацию о документе и пройдитесь по каждой странице, чтобы извлечь текст.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Здесь находится ваш код для извлечения текста
}
Шаг 3. Извлеките текст с каждой страницы
Внутри цикла используйтеGetText
метод для извлечения текста с каждой страницы и его печати.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Заключение
В этом уроке мы научились извлекать текст из страниц PDF в необработанном режиме с помощью GroupDocs.Parser для .NET. Этот процесс предполагает созданиеParser
экземпляр, получая информацию о документе, перебирая каждую страницу и извлекая текст с помощьюGetText
метод.
Часто задаваемые вопросы
Что такое GroupDocs.Parser для .NET?
GroupDocs.Parser для .NET — это API анализа документов, который позволяет разработчикам программно извлекать текст, метаданные и другую информацию из файлов различных форматов.
Как загрузить GroupDocs.Parser для .NET?
Вы можете скачать библиотеку с сайтаВеб-сайт ГруппДокс.
Доступна ли бесплатная пробная версия?
Да, вы можете получить доступ к бесплатной пробной версии GroupDocs.Parser для .NET на сайтездесь.
Где я могу найти поддержку GroupDocs.Parser для .NET?
Для получения технической помощи и поддержки сообщества посетитеФорум групповых документов.
Как я могу приобрести лицензию на GroupDocs.Parser для .NET?
Вы можете приобрести лицензию на сайтестраница покупки или получить временную лицензиюздесь.