Extrahujte text ze stránky ve formátu PDF v režimu Raw
Úvod
V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k extrahování textu ze stránek v dokumentech PDF pomocí režimu raw. GroupDocs.Parser je výkonný nástroj, který umožňuje vývojářům programově pracovat s různými formáty dokumentů.
Předpoklady
Před zahájením tohoto kurzu se ujistěte, že máte následující:
- Visual Studio nainstalované na vašem počítači.
- Základní znalost programování v C#.
- GroupDocs.Parser pro knihovnu .NET, kterou můžetestáhnout zde.
- Ukázkový soubor PDF pro testovací účely.
Import jmenných prostorů
Nejprve se ujistěte, že jste do svého projektu C# importovali potřebné jmenné prostory:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Vytvořte instanci třídy analyzátoru
Chcete-li začít, vytvořte instanciParser
třídy poskytnutím cesty k vašemu ukázkovému souboru PDF.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Váš kód je zde
}
Krok 2: Získejte informace o dokumentu a iterujte stránky
Dále načtěte informace o dokumentu a iterujte přes každou stránku, abyste extrahovali text.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Zde je váš kód pro extrakci textu
}
Krok 3: Extrahujte text z každé stránky
V rámci smyčky použijteGetText
metoda extrahovat text z každé stránky a vytisknout ji.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Závěr
V tomto tutoriálu jsme se naučili, jak extrahovat text ze stránek PDF v nezpracovaném režimu pomocí GroupDocs.Parser for .NET. Tento proces zahrnuje vytvoření aParser
získání informací o dokumentu, iterování každé stránky a extrahování textu pomocíGetText
metoda.
FAQ
Co je GroupDocs.Parser for .NET?
GroupDocs.Parser for .NET je rozhraní API pro analýzu dokumentů, které umožňuje vývojářům programově extrahovat text, metadata a další informace z různých formátů souborů.
Jak stáhnu GroupDocs.Parser pro .NET?
Knihovnu si můžete stáhnout zWeb GroupDocs.
Je k dispozici bezplatná zkušební verze?
Ano, máte přístup k bezplatné zkušební verzi GroupDocs.Parser pro .NET ztady.
Kde najdu podporu pro GroupDocs.Parser pro .NET?
Pro technickou pomoc a podporu komunity navštivte stránkufórum GroupDocs.
Jak si mohu zakoupit licenci pro GroupDocs.Parser for .NET?
Licenci si můžete zakoupit odnákupní stránku nebo získat dočasnou licencitady.