Práce s poli na propojených pozicích v šablonách

Úvod

GroupDocs.Parser for .NET je robustní knihovna navržená tak, aby usnadnila analýzu dokumentů a úlohy extrakce dat. Podporuje širokou škálu formátů souborů, včetně PDF, DOCX, XLSX a dalších. Jednou z jeho klíčových funkcí je extrakce dat na základě šablon, která umožňuje definovat pole v dokumentu a extrahovat konkrétní data na základě těchto předdefinovaných šablon.

Předpoklady

Než začneme, ujistěte se, že máte následující:

Základní znalost programování v C#
Visual Studio nainstalované ve vašem systému
GroupDocs.Parser pro knihovnu .NET (stáhnout ztady)
Ukázkové soubory dokumentů pro práci

Import jmenných prostorů

Začněte tím, že do svého projektu C# zahrnete potřebné jmenné prostory:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Krok 1: Definujte pole šablony

Nejprve definujte pole šablony pomocí regulárních výrazů a propojených pozic:

// Definujte pole regulárním výrazem
TemplateField field = new TemplateField(
    new TemplateRegexPosition("Tax"),
    "Tax");
// Definujte propojené pole se specifickými nastaveními polohy
TemplateField linkedField = new TemplateField(
    new TemplateLinkedPosition(
        "Tax",
        new Size(100, 20),
        new TemplateLinkedPositionEdges(false, false, true, false)),
    "TaxValue");

Krok 2: Vytvořte šablonu

Dále vytvořte šablonu obsahující definovaná pole:

// Vytvořte šablonu s definovanými poli
Template template = new Template(new TemplateItem[] { field, linkedField });

Krok 3: Analyzujte dokument pomocí šablony

Nyní inicializujteParser třídy a analyzujte dokument pomocí šablony:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Analyzujte dokument podle šablony
    DocumentData data = parser.ParseByTemplate(template);
    // Iterujte extrahovaná data a tiskněte výsledky
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Závěr

GroupDocs.Parser for .NET zjednodušuje proces extrahování strukturovaných dat z dokumentů pomocí šablon. Definováním polí a použitím šablon můžete efektivně extrahovat relevantní informace a zvýšit tak automatizaci a produktivitu při zpracování dokumentů.

FAQ

Může GroupDocs.Parser extrahovat data ze zašifrovaných souborů PDF?

Ano, GroupDocs.Parser podporuje analýzu šifrovaných souborů PDF poskytnutím hesla během analýzy.

Které formáty souborů jsou podporovány pro extrakci na základě šablony?

GroupDocs.Parser podporuje širokou škálu formátů souborů včetně PDF, DOCX, XLSX, PPTX, TXT a dalších.

Je k dispozici zkušební verze pro GroupDocs.Parser?

Ano, můžete si stáhnout bezplatnou zkušební verzi ztady.

Mohu použít GroupDocs.Parser pro dávkové zpracování dokumentů?

Ano, GroupDocs.Parser umožňuje dávkové zpracování pro analýzu více dokumentů současně.

Kde mohu získat technickou podporu pro GroupDocs.Parser?

Můžete vyhledat technickou podporu a zapojit se do komunity na adresefórum GroupDocs.

Práce s poli na pevných pozicích v šablonách Práce s poli na Regex pozicích v šablonách