Распознавание текста в определенных областях

Введение

В этом руководстве мы рассмотрим, как использовать GroupDocs.Parser для .NET для распознавания и извлечения текста из определенных областей документа. GroupDocs.Parser — это мощная библиотека анализа документов, которая позволяет разработчикам работать с различными форматами документов, включая PDF, Word, Excel, PowerPoint и другие. В частности, мы сосредоточимся на использовании возможностей OCR (оптического распознавания символов) GroupDocs.Parser для извлечения текста из определенных областей документа.

Предварительные условия

Прежде чем мы начнем, убедитесь, что у вас настроены следующие предварительные условия:

  1. Visual Studio IDE: убедитесь, что на вашем компьютере установлена Visual Studio.
  2. GroupDocs.Parser для .NET: загрузите и установите GroupDocs.Parser для .NET с сайтассылка для скачивания.
  3. Образцы документов: подготовьте образцы файлов (например, PDF, DOCX), из которых вы хотите извлечь текст.

Импортировать пространства имен

Для начала импортируйте необходимые пространства имен в свой проект:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Давайте разобьем процесс на подробные шаги, используя GroupDocs.Parser для .NET:

Шаг 1. Создайте настройки парсера с помощью соединителя OCR

Сначала создайте экземплярParserSettingsкласс и инициализируйте его с помощью соединителя OCR, напримерAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Шаг 2. Создайте экземпляр парсера с настройками

Далее создайте экземплярParser класс, передав ранее созданныйParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Фрагмент кода продолжается...
}

Заменять"YourSampleFile.pdf" с путем к вашему целевому документу.

Шаг 3. Настройте параметры извлечения текстовой области

Создайте экземплярPageTextAreaOptions чтобы включить извлечение текста на основе OCR:

PageTextAreaOptions options = new PageTextAreaOptions(true);

Наборtrue чтобы включить OCR для лучшего распознавания текста.

Шаг 4. Извлечение текстовых областей

Вызовparser.GetTextAreas(options) чтобы извлечь текстовые области из документа:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Шаг 5. Обработка извлеченных текстовых областей

Переберите извлеченные текстовые области и получите информацию о тексте, положении и размере:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Заключение

В этом руководстве мы рассмотрели процесс извлечения текста из определенных областей документа с помощью GroupDocs.Parser для .NET с возможностями оптического распознавания символов. Выполнив эти шаги, вы сможете эффективно использовать функции синтаксического анализа GroupDocs.Parser для программного решения задач извлечения текста.

Часто задаваемые вопросы

Может ли GroupDocs.Parser извлекать текст из отсканированных документов?

Да, GroupDocs.Parser поддерживает распознавание текста для извлечения текста из отсканированных изображений в документах.

Какие форматы документов поддерживаются GroupDocs.Parser?

GroupDocs.Parser поддерживает широкий спектр форматов, включая PDF, DOCX, XLSX, PPTX, TXT и другие.

Подходит ли GroupDocs.Parser для пакетной обработки документов?

Да, GroupDocs.Parser может эффективно решать задачи пакетной обработки для анализа и извлечения документов.

Могу ли я настроить параметры извлечения текста с помощью GroupDocs.Parser?

Да, GroupDocs.Parser предлагает различные варианты настройки извлечения текста в соответствии с конкретными требованиями.

Предоставляет ли GroupDocs.Parser поддержку извлечения метаданных из документов?

Да, GroupDocs.Parser позволяет извлекать метаданные, такие как автор, дата создания и т. д., из поддерживаемых форматов документов.