GetFormattedText

GetFormattedText(FormattedTextOptions)

Извлекает форматированный текст из документа.

public TextReader GetFormattedText(FormattedTextOptions options)
Параметр Тип Описание
options FormattedTextOptions Параметры извлечения форматированного текста.

Возвращаемое значение

ЭкземплярTextReader класс с извлеченным текстом; нулевой если извлечение форматированного текста не поддерживается.

Примечания

Узнать больше:

Примеры

В следующем примере показано, как извлечь текст документа как текст HTML:

// Создаем экземпляр класса Parser
using (Parser parser = new Parser(filePath))
{
    // Извлечь форматированный текст в ридер
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Печатаем форматированный текст из документа
        // Если извлечение форматированного текста не поддерживается, средство чтения равно null
        Console.WriteLine(reader == null ? "Formatted text extraction isn't suppported" : reader.ReadToEnd());
    }
}

Смотрите также


GetFormattedText(int, FormattedTextOptions)

Извлекает форматированный текст со страницы документа.

public TextReader GetFormattedText(int pageIndex, FormattedTextOptions options)
Параметр Тип Описание
pageIndex Int32 Индекс страницы с отсчетом от нуля.
options FormattedTextOptions Параметры извлечения форматированного текста.

Возвращаемое значение

ЭкземплярTextReaderкласс с извлеченным текстом; нулевой если извлечение страницы с форматированным текстом не поддерживается.

Примечания

Узнать больше:

Примеры

В следующем примере показано, как извлечь текст страницы документа в виде текста Markdown:

// Создаем экземпляр класса Parser
using (Parser parser = new Parser(filePath))
{
    // Проверяем, поддерживает ли документ извлечение форматированного текста
    if (!parser.Features.FormattedText)
    {
        Console.WriteLine("Document isn't supports formatted text extraction.");
        return;
    }
    
    // Получить информацию о документе
    IDocumentInfo documentInfo = parser.GetDocumentInfo();
    // Проверяем, есть ли в документе страницы
    if (documentInfo.PageCount == 0)
    {
        Console.WriteLine("Document hasn't pages.");
        return;
    }
    
    // Перебираем страницы
    for (int p = 0; p<documentInfo.PageCount; p++)
    {
        // Печатаем номер страницы 
        Console.WriteLine(string.Format("Page {0}/{1}", p + 1, documentInfo.PageCount));
        // Извлечь форматированный текст в ридер
        using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
        {
            // Печатаем форматированный текст из документа
            // Мы игнорируем проверку на null, так как мы проверили поддержку функции извлечения форматированного текста ранее
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

Смотрите также