Извлечь таблицы из документа

Введение

Groupdocs.Parser для .NET — это комплексная библиотека, которая упрощает анализ документов и позволяет извлекать из документов ценную информацию, такую как таблицы, текст, метаданные и многое другое. В этом руководстве мы сосредоточимся конкретно на извлечении таблиц из документов с помощью API Groupdocs.Parser.

Предварительные условия

Прежде чем мы начнем, убедитесь, что у вас есть следующее:

  • Visual Studio установлена в вашей системе.
  • Установлен .NET Framework или .NET Core.
  • Базовые знания программирования на C#.

Импортировать пространства имен

Во-первых, вам необходимо импортировать необходимые пространства имен для доступа к классам и методам Groupdocs.Parser.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Шаг 1. Создайте экземпляр класса парсера

Инициализировать новый экземплярParser class, указав путь к образцу документа.

using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Ваш код находится здесь
}

Шаг 2. Проверьте поддержку извлечения таблиц

Убедитесь, что документ поддерживает извлечение таблицы с помощьюFeatures собственностьParser сорт.

if (!parser.Features.Tables)
{
    Console.WriteLine("Document doesn't support table extraction.");
    return;
}

Шаг 3. Определите макет таблицы

Определите макет таблиц, которые вы хотите извлечь, используяTemplateTableLayout. Укажите ширину столбцов и высоту строк в зависимости от структуры вашего документа.

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },
    new double[] { 325, 340, 365, 395 });

Шаг 4. Установите параметры извлечения таблицы

СоздаватьPageTableAreaOptions с определенным макетом, чтобы указать, как следует извлекать таблицы.

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Шаг 5: Извлечение таблиц

ИспользуйтеGetTables методParser класс для извлечения таблиц из документа на основе заданных параметров.

IEnumerable<PageTableArea> tables = parser.GetTables(options);

Шаг 6. Итерация и доступ к данным таблицы

Перебирайте извлеченные таблицы и соответствующие им строки и столбцы, чтобы получить доступ к данным ячеек.

foreach (PageTableArea table in tables)
{
    for (int row = 0; row < table.RowCount; row++)
    {
        for (int column = 0; column < table.ColumnCount; column++)
        {
            PageTableAreaCell cell = table[row, column];
            if (cell != null)
            {
                Console.Write(cell.Text);
                Console.Write(" | ");
            }
        }
        Console.WriteLine();
    }
    Console.WriteLine();
}

Заключение

В этом руководстве мы рассмотрели, как использовать Groupdocs.Parser для .NET для эффективного извлечения таблиц из документов. Используя возможности этой библиотеки, вы можете легко интегрировать извлечение таблиц в свои приложения .NET.

Часто задаваемые вопросы

Может ли Groupdocs.Parser обрабатывать документы разных форматов?

Да, Groupdocs.Parser поддерживает широкий спектр форматов документов, включая DOCX, PDF, XLSX и другие.

Доступна ли пробная версия Groupdocs.Parser для .NET?

Да, вы можете загрузить бесплатную пробную версию с сайтаздесь.

Как я могу получить поддержку по запросам, связанным с Groupdocs.Parser?

Вы можете посетитьФорум Groupdocs.Parser для оказания помощи.

Где я могу приобрести лицензию на Groupdocs.Parser?

Вы можете купить лицензию уздесь.

Как я могу получить временную лицензию для ознакомительных целей?

Вы можете получить временную лицензиюздесь.