GetText

GetText()

从文档中提取文本。

public TextReader GetText()

返回值

的实例TextReader用提取的文本上课; 无效的如果不支持文本提取.

评论

了解更多:

例子

以下示例显示了如何从文档中提取文本:

// 创建解析器类的实例
using(Parser parser = new Parser(filePath))
{
    // 将文本提取到阅读器中
    using(TextReader reader = parser.GetText())
    {
        // 打印文档中的文本
        // 如果不支持文本提取,则读取器为空
        Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
    }
}

也可以看看


GetText(TextOptions)

使用文本选项从文档中提取文本页面(以启用原始快速文本提取模式)。

public TextReader GetText(TextOptions options)
范围 类型 描述
options TextOptions 文本提取选项。

返回值

的实例TextReader用提取的文本上课; 无效的如果不支持文本提取.

评论

了解更多:

例子

以下示例显示了如何从文档中提取原始文本:

// 创建解析器类的实例
using(Parser parser = new Parser(filePath))
{
    // 将原始文本提取到阅读器中
    using(TextReader reader = parser.GetText(new TextOptions(true)))
    {
        // 打印文档中的文本
        // 如果不支持文本提取,则读取器为空
        Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
    }
}

也可以看看


GetText(int)

从文档页面中提取文本。

public TextReader GetText(int pageIndex)
范围 类型 描述
pageIndex Int32 从零开始的页面索引。

返回值

的实例TextReader用提取的文本上课; 无效的如果不支持文本页面提取。

评论

了解更多:

例子

以下示例显示如何从文档页面中提取文本:

// 创建解析器类的实例
using(Parser parser = new Parser(filePath))
{
    // 检查文档是否支持文本提取
    if(!parser.Features.Text)
    {
        Console.WriteLine("Document isn't supports text extraction.");
        return;
    }

    // 获取文档信息
    IDocumentInfo documentInfo = parser.GetDocumentInfo();
    // 检查文档是否有页面
    if(documentInfo.PageCount == 0)
    {
        Console.WriteLine("Document hasn't pages.");
        return;
    }
 
    // 遍历页面
    for(int p = 0; p<documentInfo.PageCount; p++)
    {
        // 打印页码 
        Console.WriteLine(string.Format("Page {0}/{1}", p + 1, documentInfo.PageCount));
 
        // 将文本提取到阅读器中
        using(TextReader reader = parser.GetText(p))
        {
            // 打印文档中的文本
            // 我们忽略空值检查,因为我们之前已经检查过文本提取功能支持
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

也可以看看


GetText(int, TextOptions)

使用文本选项从文档页面中提取文本(以启用原始快速文本提取模式)。

public TextReader GetText(int pageIndex, TextOptions options)
范围 类型 描述
pageIndex Int32 从零开始的页面索引。
options TextOptions 文本提取选项。

返回值

的实例TextReader用提取的文本上课; 无效的如果不支持文本页面提取。

评论

了解更多:

例子

以下示例显示了如何从文档页面中提取原始文本:

// 创建解析器类的实例
using(Parser parser = new Parser(filePath))
{
    // 检查文档是否支持文本提取
    if(!parser.Features.Text)
    {
        Console.WriteLine("Document isn't supports text extraction.");
        return;
    }

    // 获取文档信息
    DocumentInfo documentInfo = parser.GetDocumentInfo() as DocumentInfo;
    // 检查文档是否有页面
    if(documentInfo == null || documentInfo.RawPageCount == 0)
    {
        Console.WriteLine("Document hasn't pages.");
        return;
    }
 
    // 遍历页面
    for(int p = 0; p<documentInfo.RawPageCount; p++)
    {
        // 打印页码 
        Console.WriteLine(string.Format("Page {0}/{1}", p + 1, documentInfo.RawPageCount));
 
        // 将文本提取到阅读器中
        using(TextReader reader = parser.GetText(p, new TextOptions(true)))
        {
            // 打印文档中的文本
            // 我们忽略空值检查,因为我们之前已经检查过文本提取功能支持
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

也可以看看