Extrahujte text ze specifických oblastí pomocí možností
Úvod
V tomto tutoriálu prozkoumáme, jak pomocí GroupDocs.Parser for .NET extrahovat text z konkrétních oblastí v dokumentu pomocí přizpůsobitelných možností. GroupDocs.Parser je výkonná knihovna, která umožňuje vývojářům snadno analyzovat a extrahovat text z různých formátů dokumentů.
Předpoklady
Než se pustíme do kódování, ujistěte se, že máte následující:
- Vývojové prostředí: Nainstalujte Visual Studio nebo jakékoli jiné vývojové IDE .NET.
- Knihovna GroupDocs.Parser: Stáhněte a nainstalujte GroupDocs.Parser for .NET ztady.
- Vzorový soubor: Připravte si vzorový dokument (např. PDF, DOCX atd.), ze kterého chcete extrahovat text.
Import jmenných prostorů
Nejprve budete muset importovat potřebné jmenné prostory pro přístup ke třídám a metodám GroupDocs.Parser.
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Vytvořte instanci třídy analyzátoru
Inicializujte instanci souboruParser
třídy poskytnutím cesty k vašemu ukázkovému souboru.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Kód pro extrakci textové oblasti bude zde
}
Krok 2: Definujte možnosti extrakce textové oblasti
VytvořitPageTextAreaOptions
specifikovat kritéria pro extrakci textu.
PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));
V tomto příkladu:
"\\s[a-z]{2}\\s"
je vzor regulárního výrazu, který odpovídá textovým oblastem obsahujícím pouze malá písmena.new Rectangle(new Point(0, 0), new Size(300, 100))
definuje obdélník (umístění a velikost) na stránce, ze kterého se má extrahovat text.
Krok 3: Extrahujte textové oblasti
Pomocí definovaných voleb extrahujte oblasti textu, které splňují zadaná kritéria.
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Krok 4: Zkontrolujte a iterujte extrahované textové oblasti
Zkontrolujte, zda je podporována extrakce textové oblasti, a poté extrahované oblasti iterujte.
if (areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
foreach (PageTextArea a in areas)
{
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
Závěr
V tomto tutoriálu jsme se zabývali tím, jak extrahovat text z konkrétních oblastí v dokumentu pomocí GroupDocs.Parser for .NET. Tato knihovna nabízí rozsáhlé možnosti pro analýzu různých formátů dokumentů, což z ní činí cenný nástroj pro úlohy extrakce textu.
FAQ
Může GroupDocs.Parser extrahovat text z naskenovaných dokumentů?
Ano, GroupDocs.Parser podporuje extrakci textu naskenovaných dokumentů na základě OCR.
Je GroupDocs.Parser kompatibilní s více formáty dokumentů?
Ano, umí analyzovat a extrahovat text z PDF, DOCX, XLSX, PPTX a dalších oblíbených formátů.
Poskytuje GroupDocs.Parser podporu pro .NET Core?
Ano, GroupDocs.Parser je kompatibilní s .NET Core i .NET Framework.
Mohu extrahovat metadata spolu s textem pomocí GroupDocs.Parser?
Ano, z dokumentů můžete extrahovat jak textový obsah, tak metadata.
Je k dispozici zkušební verze pro GroupDocs.Parser?
Ano, můžete získat bezplatnou zkušební verzi odtady.