Extrahujte text ze stránky v režimu Raw

Úvod

V tomto tutoriálu se naučíte, jak používat Groupdocs.Parser pro .NET k extrahování textu ze stránek dokumentu v nezpracovaném režimu. Tato knihovna poskytuje účinné nástroje pro analýzu a extrahování obsahu z různých formátů souborů, což umožňuje vývojářům začlenit extrakci textu dokumentu do jejich aplikací .NET.

Předpoklady

Než začnete, ujistěte se, že máte následující předpoklady:

  • Základní znalost programování v C# a .NET
  • Visual Studio nainstalované na vašem počítači
  • Přístup ke knihovně Groupdocs.Parser for .NET
  • Vzorový soubor dokumentu pro testování

Import jmenných prostorů

Začněte tím, že do svého projektu C# zahrnete potřebné jmenné prostory:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Inicializujte analyzátor

Nejprve vytvořte instanci souboruParser třídy poskytnutím cesty k souboru ukázkového dokumentu.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Váš kód zde
}

Krok 2: Načtěte informace o dokumentu

Načíst informace o dokumentu pomocíGetDocumentInfo() metoda.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Krok 3: Iterujte přes stránky a extrahujte text

Iterujte každou stránku dokumentu a extrahujte textový obsah.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Extrahujte text ze stránky
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Závěr

Nyní jste se naučili, jak používat Groupdocs.Parser pro .NET k extrahování textu ze stránek dokumentu v nezpracovaném režimu. To může být výkonná funkce pro aplikace, které potřebují analyzovat nebo zpracovávat textový obsah z různých formátů souborů.

FAQ

Je Groupdocs.Parser for .NET kompatibilní se všemi formáty souborů?

Groupdocs.Parser podporuje širokou škálu formátů souborů včetně PDF, DOCX, XLSX, PPTX, EPUB a dalších.

Mohu pomocí této knihovny extrahovat metadata spolu s textem?

Ano, Groupdocs.Parser umožňuje extrahovat text i metadata z dokumentů.

Je k dispozici zkušební verze pro testování?

Ano, můžete si stáhnout bezplatnou zkušební verzi ztady.

Jak mohu získat technickou podporu pro Groupdocs.Parser?

Pro technickou pomoc navštivte stránkuFórum Groupdocs.Parser.

Kde si mohu zakoupit licenci pro Groupdocs.Parser pro .NET?

Můžete si zakoupit licencitady.