Extrahujte formátovaný text ze stránky dokumentu

Úvod

V tomto tutoriálu vás provedeme procesem extrahování formátovaného textu ze stránek dokumentu pomocí GroupDocs.Parser for .NET. Tato knihovna umožňuje efektivně analyzovat a extrahovat text z různých formátů dokumentů, jako je PDF, Word, Excel a další.

Předpoklady

Než začneme, ujistěte se, že máte následující:

Visual Studio nainstalované ve vašem systému.
Základní znalost programování v C#.
GroupDocs.Parser pro knihovnu .NET. Můžete si jej stáhnouttady.

Import jmenných prostorů

Nejprve začněte importováním potřebných jmenných prostorů do vašeho projektu C#.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Krok 1: Vytvořte instanci třídy analyzátoru

Začněte vytvořením instance souboruParser třídy poskytnutím cesty k vašemu ukázkovému souboru.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kód půjde sem
}

Krok 2: Zkontrolujte, zda je podporována extrakce formátovaného textu

Než budete pokračovat s extrakcí textu, ověřte, zda dokument podporuje extrakci formátovaného textu.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Krok 3: Získejte informace o dokumentu

Získejte informace o dokumentu, jako je počet stránek.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Krok 4: Iterujte stránky dokumentu a extrahujte formátovaný text

Iterujte každou stránku dokumentu a extrahujte formátovaný text pomocí zadaných možností (např. formát Markdown).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Závěr

Nyní víte, jak extrahovat formátovaný text ze stránek dokumentu pomocí GroupDocs.Parser for .NET. Tato knihovna poskytuje výkonné a snadno použitelné řešení pro extrakci textu z různých formátů souborů.

FAQ

Dokáže GroupDocs.Parser zpracovat různé formáty souborů?

Ano, GroupDocs.Parser podporuje širokou škálu formátů dokumentů, včetně PDF, DOCX, XLSX, PPTX a dalších.

Je GroupDocs.Parser kompatibilní s .NET Core?

Ano, GroupDocs.Parser podporuje .NET Core a .NET Framework.

Zachová GroupDocs.Parser během extrakce formátování textu?

Ano, GroupDocs.Parser může při extrahování textu zachovat formátování, jako jsou styly a písma.

Mohu extrahovat obrázky a metadata pomocí GroupDocs.Parser?

Ano, GroupDocs.Parser umožňuje extrakci obrázků, metadat a textu z dokumentů.

Jak mohu získat podporu pro GroupDocs.Parser?

Můžete získat podporu odFórum GroupDocs.Parser.

Extrahujte formátovaný text z dokumentu Extrahujte obsah HTML