Extrahujte text ze specifických oblastí pomocí možností

Úvod

V tomto tutoriálu prozkoumáme, jak pomocí GroupDocs.Parser for .NET extrahovat text z konkrétních oblastí v dokumentu pomocí přizpůsobitelných možností. GroupDocs.Parser je výkonná knihovna, která umožňuje vývojářům snadno analyzovat a extrahovat text z různých formátů dokumentů.

Předpoklady

Než se pustíme do kódování, ujistěte se, že máte následující:

Vývojové prostředí: Nainstalujte Visual Studio nebo jakékoli jiné vývojové IDE .NET.
Knihovna GroupDocs.Parser: Stáhněte a nainstalujte GroupDocs.Parser for .NET ztady.
Vzorový soubor: Připravte si vzorový dokument (např. PDF, DOCX atd.), ze kterého chcete extrahovat text.

Import jmenných prostorů

Nejprve budete muset importovat potřebné jmenné prostory pro přístup ke třídám a metodám GroupDocs.Parser.

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Vytvořte instanci třídy analyzátoru

Inicializujte instanci souboruParser třídy poskytnutím cesty k vašemu ukázkovému souboru.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Kód pro extrakci textové oblasti bude zde
}

Krok 2: Definujte možnosti extrakce textové oblasti

VytvořitPageTextAreaOptions specifikovat kritéria pro extrakci textu.

PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));

V tomto příkladu:

"\\s[a-z]{2}\\s" je vzor regulárního výrazu, který odpovídá textovým oblastem obsahujícím pouze malá písmena.
new Rectangle(new Point(0, 0), new Size(300, 100)) definuje obdélník (umístění a velikost) na stránce, ze kterého se má extrahovat text.

Krok 3: Extrahujte textové oblasti

Pomocí definovaných voleb extrahujte oblasti textu, které splňují zadaná kritéria.

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Krok 4: Zkontrolujte a iterujte extrahované textové oblasti

Zkontrolujte, zda je podporována extrakce textové oblasti, a poté extrahované oblasti iterujte.

if (areas == null)
{
    Console.WriteLine("Page text areas extraction isn't supported");
    return;
}
foreach (PageTextArea a in areas)
{
    Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}

Závěr

V tomto tutoriálu jsme se zabývali tím, jak extrahovat text z konkrétních oblastí v dokumentu pomocí GroupDocs.Parser for .NET. Tato knihovna nabízí rozsáhlé možnosti pro analýzu různých formátů dokumentů, což z ní činí cenný nástroj pro úlohy extrakce textu.

FAQ

Může GroupDocs.Parser extrahovat text z naskenovaných dokumentů?

Ano, GroupDocs.Parser podporuje extrakci textu naskenovaných dokumentů na základě OCR.

Je GroupDocs.Parser kompatibilní s více formáty dokumentů?

Ano, umí analyzovat a extrahovat text z PDF, DOCX, XLSX, PPTX a dalších oblíbených formátů.

Poskytuje GroupDocs.Parser podporu pro .NET Core?

Ano, GroupDocs.Parser je kompatibilní s .NET Core i .NET Framework.

Mohu extrahovat metadata spolu s textem pomocí GroupDocs.Parser?

Ano, z dokumentů můžete extrahovat jak textový obsah, tak metadata.

Je k dispozici zkušební verze pro GroupDocs.Parser?

Ano, můžete získat bezplatnou zkušební verzi odtady.

Extrahujte text ze specifických oblastí na stránce Extrahovat text podle položky obsahu (TOC).