GetTextAreas
GetTextAreas()
Извлекает текстовые области из документа.
public IEnumerable<PageTextArea> GetTextAreas()
Возвращаемое значение
КоллекцияPageTextArea
объекты; нулевой
если извлечение текстовых областей не поддерживается.
Примечания
Узнать больше:
Примеры
В следующем примере показано, как извлечь все текстовые области из всего документа:
// Создаем экземпляр класса Parser
using(Parser parser = new Parser(filePath))
{
// Извлечение текстовых областей
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// Проверяем, поддерживается ли извлечение текстовых областей
if(areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
// Итерация по текстовым областям страницы
foreach(PageTextArea a in areas)
{
// Печать индекса страницы, прямоугольника и значения текстовой области:
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
}
Смотрите также
- class PageTextArea
- class Parser
- пространство имен GroupDocs.Parser
- сборка GroupDocs.Parser
GetTextAreas(PageTextAreaOptions)
Извлекает текстовые области из документа, используя параметры настройки (регулярное выражение, регистр и т. д.).
public IEnumerable<PageTextArea> GetTextAreas(PageTextAreaOptions options)
Параметр | Тип | Описание |
---|---|---|
options | PageTextAreaOptions | Варианты выделения текстовой области. |
Возвращаемое значение
КоллекцияPageTextArea
объекты; нулевой
если извлечение текстовых областей не поддерживается.
Примечания
Узнать больше:
Примеры
В следующем примере показано, как извлечь только текстовые области с цифрами из верхнего левого угла:
// Создаем экземпляр класса Parser
using(Parser parser = new Parser(filePath))
{
// Создаем параметры, которые используются для выделения текстовой области
PageTextAreaOptions options = new PageTextAreaOptions("[0-9]+", new Rectangle(new Point(0, 0), new Size(300, 100)));
// Извлечение текстовых областей, содержащих только цифры, из левого верхнего угла страницы:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
// Проверяем, поддерживается ли извлечение текстовых областей
if(areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
// Итерация по текстовым областям страницы
foreach(PageTextArea a in areas)
{
// Печать индекса страницы, прямоугольника и значения текстовой области:
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
}
Смотрите также
- class PageTextArea
- class PageTextAreaOptions
- class Parser
- пространство имен GroupDocs.Parser
- сборка GroupDocs.Parser
GetTextAreas(int)
Извлекает текстовые области со страницы документа.
public IEnumerable<PageTextArea> GetTextAreas(int pageIndex)
Параметр | Тип | Описание |
---|---|---|
pageIndex | Int32 | Индекс страницы с отсчетом от нуля. |
Возвращаемое значение
КоллекцияPageTextArea
объекты; нулевой
если извлечение текстовых областей не поддерживается.
Примечания
Узнать больше:
Примеры
Для извлечения текстовых областей со страницы документа используется следующий метод:
// Создаем экземпляр класса Parser
using(Parser parser = new Parser(filePath))
{
// Проверяем, поддерживает ли документ извлечение текстовых областей
if(!parser.Features.TextAreas)
{
Console.WriteLine("Document isn't supports text areas extraction.");
return;
}
// Получить информацию о документе
IDocumentInfo documentInfo = parser.GetDocumentInfo();
// Проверяем, есть ли в документе страницы
if(documentInfo.PageCount == 0)
{
Console.WriteLine("Document hasn't pages.");
return;
}
// Перебираем страницы
for(int pageIndex = 0; pageIndex<documentInfo.PageCount; pageIndex++)
{
// Печатаем номер страницы
Console.WriteLine(string.Format("Page {0}/{1}", pageIndex + 1, documentInfo.PageCount));
// Итерация по текстовым областям страницы
// Мы игнорируем проверку на null, так как мы проверили поддержку функции извлечения текстовых областей ранее
foreach(PageTextArea a in parser.GetTextAreas(pageIndex))
{
// Печать прямоугольника и значения текстовой области:
Console.WriteLine(string.Format("R: {0}, Text: {1}", a.Rectangle, a.Text));
}
}
}
Смотрите также
- class PageTextArea
- class Parser
- пространство имен GroupDocs.Parser
- сборка GroupDocs.Parser
GetTextAreas(int, PageTextAreaOptions)
Извлекает текстовые области со страницы документа, используя параметры настройки (регулярное выражение, регистр и т. д.).
public IEnumerable<PageTextArea> GetTextAreas(int pageIndex, PageTextAreaOptions options)
Параметр | Тип | Описание |
---|---|---|
pageIndex | Int32 | Индекс страницы с отсчетом от нуля. |
options | PageTextAreaOptions | Варианты выделения текстовой области. |
Возвращаемое значение
КоллекцияPageTextArea
объекты; нулевой
если извлечение текстовых областей не поддерживается.
Примечания
Узнать больше:
Смотрите также
- class PageTextArea
- class PageTextAreaOptions
- class Parser
- пространство имен GroupDocs.Parser
- сборка GroupDocs.Parser