Extrahujte text z dokumentu aplikace Excel jako HTML
Úvod
V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser for .NET k extrahování textu z dokumentu aplikace Excel a jeho převodu do formátu HTML. GroupDocs.Parser je výkonná knihovna, která umožňuje vývojářům pracovat s různými formáty dokumentů a efektivně extrahovat text a metadata.
Předpoklady
Než začneme, ujistěte se, že máte následující nastavení:
- Visual Studio nainstalované ve vašem systému.
- Základní znalost programování v C#.
- Knihovna GroupDocs.Parser pro .NET. Můžete si jej stáhnout ztady.
Import jmenných prostorů
Začněte tím, že do svého projektu C# zahrnete potřebné jmenné prostory, abyste získali přístup k funkcím GroupDocs.Parser.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Vytvořte instanci třídy analyzátoru
Nejprve vytvořte instanciParser
třídy poskytnutím cesty k dokumentu aplikace Excel.
using (Parser parser = new Parser("YourSampleFile.xlsx"))
{
// Další kód bude uveden zde
}
Nahradit"YourSampleFile.xlsx"
s cestou k souboru Excel.
Krok 2: Extrahujte text jako HTML
V rámciusing
blokuParser
například použijteGetFormattedText
metoda pro extrakci formátovaného textu v režimu HTML.
using (Parser parser = new Parser("YourSampleFile.xlsx"))
{
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
// Další kód bude uveden zde
}
}
Krok 3: Přečtěte si a vytiskněte extrahovaný HTML text
Dále si přečtěte extrahovaný text HTML zTextReader
a vytiskněte jej do konzole.
using (Parser parser = new Parser("YourSampleFile.xlsx"))
{
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Po spuštění tento kód extrahuje text z dokumentu aplikace Excel a zobrazí jej v konzole jako formát HTML.
Závěr
V tomto tutoriálu jsme se naučili používat GroupDocs.Parser for .NET k extrahování textu z dokumentu aplikace Excel a jeho převodu do formátu HTML. Tato knihovna poskytuje přímočarý způsob práce s různými formáty dokumentů a umožňuje vývojářům efektivně zvládat úlohy extrakce textu v jejich aplikacích.
FAQ
Dokáže GroupDocs.Parser zpracovat jiné formáty dokumentů kromě Excelu?
Ano, GroupDocs.Parser podporuje širokou škálu formátů souborů včetně PDF, Word, PowerPoint a dalších.
Je GroupDocs.Parser kompatibilní s .NET Core?
Ano, GroupDocs.Parser je kompatibilní s .NET Framework i .NET Core.
Zachová GroupDocs.Parser formátování během extrakce textu?
Ano, GroupDocs.Parser může během extrakce textu zachovat formátování, jako jsou fonty, styly a rozvržení.
Mohu extrahovat metadata z dokumentů pomocí GroupDocs.Parser?
Ano, GroupDocs.Parser umožňuje extrahování metadat, jako je autor, datum vytvoření a další, z podporovaných typů dokumentů.
Je k dispozici bezplatná zkušební verze pro GroupDocs.Parser?
Ano, můžete si stáhnout bezplatnou zkušební verzi ztady.