Extrahujte text ze stránky ve formátu PDF v režimu Raw

Úvod

V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k extrahování textu ze stránek v dokumentech PDF pomocí režimu raw. GroupDocs.Parser je výkonný nástroj, který umožňuje vývojářům programově pracovat s různými formáty dokumentů.

Předpoklady

Před zahájením tohoto kurzu se ujistěte, že máte následující:

  • Visual Studio nainstalované na vašem počítači.
  • Základní znalost programování v C#.
  • GroupDocs.Parser pro knihovnu .NET, kterou můžetestáhnout zde.
  • Ukázkový soubor PDF pro testovací účely.

Import jmenných prostorů

Nejprve se ujistěte, že jste do svého projektu C# importovali potřebné jmenné prostory:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Vytvořte instanci třídy analyzátoru

Chcete-li začít, vytvořte instanciParsertřídy poskytnutím cesty k vašemu ukázkovému souboru PDF.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Váš kód je zde
}

Krok 2: Získejte informace o dokumentu a iterujte stránky

Dále načtěte informace o dokumentu a iterujte přes každou stránku, abyste extrahovali text.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Zde je váš kód pro extrakci textu
}

Krok 3: Extrahujte text z každé stránky

V rámci smyčky použijteGetText metoda extrahovat text z každé stránky a vytisknout ji.

using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
    Console.WriteLine(reader.ReadToEnd());
}

Závěr

V tomto tutoriálu jsme se naučili, jak extrahovat text ze stránek PDF v nezpracovaném režimu pomocí GroupDocs.Parser for .NET. Tento proces zahrnuje vytvoření aParser získání informací o dokumentu, iterování každé stránky a extrahování textu pomocíGetText metoda.

FAQ

Co je GroupDocs.Parser for .NET?

GroupDocs.Parser for .NET je rozhraní API pro analýzu dokumentů, které umožňuje vývojářům programově extrahovat text, metadata a další informace z různých formátů souborů.

Jak stáhnu GroupDocs.Parser pro .NET?

Knihovnu si můžete stáhnout zWeb GroupDocs.

Je k dispozici bezplatná zkušební verze?

Ano, máte přístup k bezplatné zkušební verzi GroupDocs.Parser pro .NET ztady.

Kde najdu podporu pro GroupDocs.Parser pro .NET?

Pro technickou pomoc a podporu komunity navštivte stránkufórum GroupDocs.

Jak si mohu zakoupit licenci pro GroupDocs.Parser for .NET?

Licenci si můžete zakoupit odnákupní stránku nebo získat dočasnou licencitady.