Táblázatok használata a kivont adatokban

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan használható a GroupDocs.Parser for .NET adatok kinyerésére a dokumentumok táblázataiból. A GroupDocs.Parser egy hatékony eszköz, amely lehetővé teszi a fejlesztők számára, hogy szövegeket, metaadatokat és strukturált tartalmakat elemezzenek és bontsanak ki különféle fájlformátumokból, például PDF, DOCX, XLSX és egyebekből. Konkrétan a táblázatadatok hatékony kinyerésére fogunk összpontosítani előre meghatározott sablonok segítségével.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy a következők vannak a helyükön:

  • Visual Studio telepítve van a gépedre.
  • A C# és .NET keretrendszer alapvető ismerete.
  • A NuGet csomagkezelőn keresztül telepített GroupDocs.Parser könyvtár.

Névterek importálása

Kezdje a GroupDocs.Parser és a kapcsolódó funkciók használatához szükséges névterek importálásával.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

1. lépés: Hozzon létre egy táblázatsablont

Adatok táblákból való kinyeréséhez először definiáljon egy sablont, amely a kivonatolni kívánt tábla szerkezetét reprezentálja. Adja meg a táblázat helyét és méreteit a dokumentumon belül.

// A táblázat paramétereinek meghatározása (helyszín és méret)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
// Hozzon létre egy táblázatsablont paraméterekkel
TemplateTable table = new TemplateTable(parameters, "Details", null);

2. lépés: Határozzon meg egy sablont

Hozzon létre egy sablont, amely tartalmazza a megadott táblázatsablont. Ez a sablon végigvezeti az elemzőt, hogy mire kell figyelnie a táblaadatok kinyerésekor.

// Hozzon létre egy sablont a táblázattal
Template template = new Template(new TemplateItem[] { table });

3. lépés: Dokumentum elemzése és táblázatadatok kibontása

Használja a GroupDocs.Parser Parser osztályát egy adott dokumentum elemzéséhez a megadott sablon segítségével.

// Adja meg a mintafájl elérési útját
string filePath = "YourSampleFile.pdf";
// Hozzon létre egy példányt az Parser osztályból
using (Parser parser = new Parser(filePath))
{
    // Elemezze a dokumentumot a sablon alapján
    DocumentData data = parser.ParseByTemplate(template);
    // Ismételje meg az összes kivont adatot
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        // Ellenőrizze, hogy a kivont mező egy táblázat-e
        PageTableArea area = data[i].PageArea as PageTableArea;
        if (area == null)
        {
            continue;
        }
        // Iteráció a táblázat sorai között
        for (int row = 0; row < area.RowCount; row++)
        {
            // Iterálás a táblázat oszlopai között
            for (int column = 0; column < area.ColumnCount; column++)
            {
                // Szerezze meg a cella értékét
                PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
                // Nyomtassa ki a cella értékét (vagy üres karakterláncot, ha null)
                Console.Write(cellValue == null ? "" : cellValue.Text);
                // Nyomtasson tabulátorközt az oszlopok közé
                if (column > 0)
                {
                    Console.Write("\t");
                }
            }
            // Az egyes sorok kinyomtatása után lépjen a következő sorra
            Console.WriteLine();
        }
    }
}

Következtetés

Ebben az oktatóanyagban megvizsgáltuk, hogyan használható a GroupDocs.Parser for .NET táblaadatok dokumentumokból való kinyerésére. A sablonok meghatározásával és az elemzési módszerek használatával a fejlesztők hatékonyan kinyerhetnek strukturált adatokat, például táblázatokat különböző fájlformátumokból.

GYIK

A GroupDocs.Parser kompatibilis az összes dokumentumformátummal?

Igen, a GroupDocs.Parser a fájlformátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX és egyebeket.

Kivonhatok adatokat bizonyos régiókból egy dokumentumon belül?

Feltétlenül definiálhat olyan sablonokat, amelyek meghatározott területeket (például táblázatokat) céloznak meg a dokumentumon belül kibontás céljából.

A GroupDocs.Parser alkalmas nagy dokumentumokhoz?

Igen, a GroupDocs.Parser nagyméretű dokumentumok hatékony kezelésére van optimalizálva, így a fejlesztők zökkenőmentesen kinyerhetik az adatokat.

A GroupDocs.Parser támogatja a szövegkivonást a strukturált adatok mellett?

Igen, a strukturált adatkinyerés (például a táblák) mellett a GroupDocs.Parser képes sima szöveget és metaadatokat kinyerni a dokumentumokból.

Hogyan kaphatok támogatást vagy segítséget a GroupDocs.Parser integrációhoz?

Támogatásért és megbeszélésekért keresse fel a GroupDocs közösségi fórumotitt.