Herhaal de velden
Invoering
GroupDocs.Parser voor .NET is een krachtige bibliotheek waarmee ontwikkelaars gegevens kunnen extraheren uit verschillende documentformaten zoals PDF, Microsoft Word, Excel en PowerPoint. Deze tutorial begeleidt u bij het gebruik van GroupDocs.Parser om documentvelden te doorlopen en specifieke gegevens te extraheren met behulp van sjablonen. Aan het einde van deze zelfstudie kunt u op efficiënte wijze gestructureerde gegevens uit documenten in uw .NET-toepassingen extraheren.
Vereisten
Voordat we beginnen, zorg ervoor dat u aan de volgende vereisten voldoet:
- Basiskennis van programmeren in C#.
- Visual Studio is op uw computer geïnstalleerd.
- GroupDocs.Parser voor .NET-bibliotheek geïnstalleerd en waarnaar wordt verwezen in uw project.
Naamruimten importeren
Voeg om te beginnen de benodigde naamruimten toe aan uw C#-bestand:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Laten we het proces opsplitsen in stapsgewijze instructies.
Stap 1: Definieer sjabloonvelden
Definieer eerst de velden die u uit het document wilt extraheren met behulp van reguliere expressies.
// Definieer een veld 'prijs'
TemplateField priceField = new TemplateField(
new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
"Price");
// Definieer een veld 'e-mail'
TemplateField emailField = new TemplateField(
new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
"Email");
// Maak een sjabloon met gedefinieerde velden
Template template = new Template(new TemplateItem[] { priceField, emailField });
In deze stap hebben we twee velden gedefinieerd: één voor het extraheren van prijzen (geïdentificeerd door het dollarteken en cijfers) en een ander voor het extraheren van e-mailadressen.
Stap 2: Parseer het document
Gebruik vervolgens deParser
class om het document te parseren met behulp van de gedefinieerde sjabloon.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Parseer het document op basis van de sjabloon
DocumentData data = parser.ParseByTemplate(template);
// Herhaal de geëxtraheerde gegevens
for (int i = 0; i < data.Count; i++)
{
// Veldnaam afdrukken
Console.Write(data[i].Name + ": ");
// Controleer of het geëxtraheerde gebied tekst is
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
Hier initialiseren we deParser
met het pad naar uw voorbeelddocument en parseer het document vervolgens met behulp van de gedefinieerde sjabloon. Vervolgens doorlopen we de geëxtraheerde gegevens en drukken de veldnamen samen met de geëxtraheerde tekst af.
Conclusie
In deze zelfstudie hebben we onderzocht hoe u GroupDocs.Parser voor .NET kunt gebruiken om specifieke gegevens uit documenten te extraheren met behulp van sjablonen. Door gebruik te maken van reguliere expressies en sjablonen kunt u efficiënt gestructureerde informatie uit verschillende documentformaten extraheren. Experimenteer met verschillende sjablonen en documenttypen om aan uw specifieke extractiebehoeften te voldoen.
Veelgestelde vragen
Kan GroupDocs.Parser gegevens uit gescande documenten extraheren?
Ja, GroupDocs.Parser kan tekst en metagegevens extraheren uit zowel gescande als doorzoekbare PDF-documenten.
Is GroupDocs.Parser compatibel met .NET Core-applicaties?
Ja, GroupDocs.Parser ondersteunt .NET Core samen met .NET Framework.
Welke documentformaten ondersteunt GroupDocs.Parser?
GroupDocs.Parser ondersteunt een breed scala aan formaten, waaronder PDF, Microsoft Word, Excel, PowerPoint en meer.
Hoe kan ik grote documenten verwerken met GroupDocs.Parser?
GroupDocs.Parser biedt opties om gegevens uit specifieke pagina’s of secties van grote documenten te extraheren, waardoor een efficiënte verwerking wordt gegarandeerd.
Kan ik GroupDocs.Parser alleen voor tekstextractie gebruiken?
Ja, u kunt platte tekstinhoud uit documenten extraheren met GroupDocs.Parser zonder dat er complexe opmaak nodig is.