Iterálás mezőkön keresztül

Bevezetés

GroupDocs.Parser for .NET egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy adatokat nyerjenek ki különféle dokumentumformátumokból, például PDF, Microsoft Word, Excel és PowerPoint. Ez az oktatóanyag végigvezeti Önt a GroupDocs.Parser használatának folyamatán, amellyel a dokumentummezőket ismételheti, és sablonok segítségével kinyerhet konkrét adatokat. Ennek az oktatóanyagnak a végére képes lesz hatékonyan strukturált adatokat kinyerni a .NET-alkalmazásaiban lévő dokumentumokból.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy beállította a következő előfeltételeket:

  • C# programozási alapismeretek.
  • Visual Studio telepítve van a gépedre.
  • A GroupDocs.Parser for .NET könyvtár telepítve van, és hivatkozott rá a projektben.

Névterek importálása

A kezdéshez adja hozzá a szükséges névtereket a C# fájlhoz:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Bontsuk le a folyamatot lépésről lépésre.

1. lépés: Határozza meg a sablonmezőket

Először reguláris kifejezésekkel határozza meg a dokumentumból kivonni kívánt mezőket.

// Határozzon meg egy "ár" mezőt
TemplateField priceField = new TemplateField(
    new TemplateRegexPosition("\\$\\d+(.\\d+)?"),
    "Price");
// Határozzon meg egy "e-mail" mezőt
TemplateField emailField = new TemplateField(
    new TemplateRegexPosition("[a-z]+\\@[a-z]+\\.[a-z]+"),
    "Email");
// Hozzon létre egy sablont meghatározott mezőkkel
Template template = new Template(new TemplateItem[] { priceField, emailField });

Ebben a lépésben két mezőt határoztunk meg: az egyiket az árak kivonására (a dollárjel és a számjegyek azonosítják), a másikat pedig az e-mail címek kivonására.

2. lépés: Elemezze a dokumentumot

Ezután használja aParser osztályt a dokumentum elemzéséhez a meghatározott sablon segítségével.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Elemezze a dokumentumot a sablon alapján
    DocumentData data = parser.ParseByTemplate(template);
    // Iteráljon a kivont adatokon keresztül
    for (int i = 0; i < data.Count; i++)
    {
        // Nyomtassa ki a mező nevét
        Console.Write(data[i].Name + ": ");
        // Ellenőrizze, hogy a kivont terület szöveg-e
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Itt inicializáljuk aParser a mintadokumentum elérési útjával, majd elemezze a dokumentumot a meghatározott sablon segítségével. Ezután ismételjük a kivont adatokat, és kinyomtatjuk a mezőneveket a kivont szöveggel együtt.

Következtetés

Ebben az oktatóanyagban megvizsgáltuk, hogyan használhatja a GroupDocs.Parser for .NET-et bizonyos adatok kinyerésére a dokumentumokból sablonok segítségével. A reguláris kifejezések és sablonok felhasználásával hatékonyan kinyerhet strukturált információkat a különböző dokumentumformátumokból. Kísérletezzen különféle sablonokkal és dokumentumtípusokkal, hogy megfeleljen az Ön speciális kibontási igényeinek.

GYIK

GroupDocs.Parser kinyerhet adatokat a beolvasott dokumentumokból?

Igen, a GroupDocs.Parser képes szöveget és metaadatokat kinyerni a beolvasott és kereshető PDF-dokumentumokból egyaránt.

A GroupDocs.Parser kompatibilis a .NET Core alkalmazásokkal?

Igen, a GroupDocs.Parser támogatja a .NET Core-t a .NET-keretrendszerrel együtt.

Milyen dokumentumformátumokat támogat a GroupDocs.Parser?

A GroupDocs.Parser a formátumok széles skáláját támogatja, beleértve a PDF, Microsoft Word, Excel, PowerPoint és még sok más formátumot.

Hogyan kezelhetek nagy dokumentumokat a GroupDocs.Parser segítségével?

A GroupDocs.Parser lehetőséget biztosít adatok kinyerésére nagy dokumentumok meghatározott oldalairól vagy szakaszairól, így biztosítva a hatékony feldolgozást.

Használhatom a GroupDocs.Parser-t csak szövegkivonathoz?

Igen, a GroupDocs.Parser segítségével egyszerű szöveges tartalmat is kivonhat a dokumentumokból anélkül, hogy bonyolult formázásra lenne szüksége.