Извлечение текста из определенных областей с помощью параметров

Введение

В этом руководстве мы рассмотрим, как использовать GroupDocs.Parser для .NET для извлечения текста из определенных областей документа с использованием настраиваемых параметров. GroupDocs.Parser — это мощная библиотека, которая позволяет разработчикам легко анализировать и извлекать текст из документов различных форматов.

Предварительные условия

Прежде чем мы углубимся в кодирование, убедитесь, что у вас есть следующее:

  1. Среда разработки: установите Visual Studio или любую другую среду разработки .NET.
  2. Библиотека GroupDocs.Parser: загрузите и установите GroupDocs.Parser для .NET с сайтаздесь.
  3. Образец файла: подготовьте образец документа (например, PDF, DOCX и т. д.) для извлечения текста.

Импортировать пространства имен

Во-первых, вам нужно будет импортировать необходимые пространства имен для доступа к классам и методам GroupDocs.Parser.

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Шаг 1. Создайте экземпляр класса парсера

Инициализировать экземплярParser class, указав путь к файлу примера.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Здесь будет код для извлечения текстовой области.
}

Шаг 2. Определите параметры извлечения текстовой области

СоздаватьPageTextAreaOptions указать критерии извлечения текста.

PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));

В этом примере:

  • "\\s[a-z]{2}\\s" — это шаблон регулярного выражения для сопоставления текстовых областей, содержащих только строчные буквы.
  • new Rectangle(new Point(0, 0), new Size(300, 100)) определяет прямоугольник (положение и размер) на странице, из которого извлекается текст.

Шаг 3. Извлечение текстовых областей

Используйте определенные параметры для извлечения текстовых областей, соответствующих указанным критериям.

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Шаг 4. Проверка и перебор извлеченных текстовых областей

Проверьте, поддерживается ли извлечение текстовой области, а затем выполните итерацию по извлеченным областям.

if (areas == null)
{
    Console.WriteLine("Page text areas extraction isn't supported");
    return;
}
foreach (PageTextArea a in areas)
{
    Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}

Заключение

В этом руководстве мы рассмотрели, как извлечь текст из определенных областей документа с помощью GroupDocs.Parser для .NET. Эта библиотека предлагает обширные возможности для анализа документов различных форматов, что делает ее ценным инструментом для задач извлечения текста.

Часто задаваемые вопросы

Может ли GroupDocs.Parser извлекать текст из отсканированных документов?

Да, GroupDocs.Parser поддерживает извлечение текста на основе OCR для отсканированных документов.

Совместим ли GroupDocs.Parser с несколькими форматами документов?

Да, он может анализировать и извлекать текст из PDF, DOCX, XLSX, PPTX и других популярных форматов.

Обеспечивает ли GroupDocs.Parser поддержку .NET Core?

Да, GroupDocs.Parser совместим как с .NET Core, так и с .NET Framework.

Могу ли я извлечь метаданные вместе с текстом с помощью GroupDocs.Parser?

Да, вы можете извлекать из документов как текстовый контент, так и метаданные.

Доступна ли пробная версия для GroupDocs.Parser?

Да, вы можете получить бесплатную пробную версию наздесь.