Táblázatok kibontása a dokumentumoldalról

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan lehet táblákat kivonni egy dokumentumoldalról a GroupDocs.Parser for .NET segítségével. A GroupDocs.Parser egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy különféle dokumentumformátumokkal dolgozzanak, például PDF, DOCX, XLSX stb. Funkcióinak kiaknázásával hatékonyan kinyerhetünk strukturált adatokat, például táblázatokat ezekből a dokumentumokból, lehetővé téve számunkra az információk programozott kezelését és elemzését.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik az alábbiakkal:

  • Visual Studio telepítve van a gépedre.
  • Alapvető ismeretek a C# és .NET fejlesztésről.
  • GroupDocs.Parser .NET könyvtárhoz. Letöltheti innenitt.
  • Hozzáférés egy mintadokumentumhoz (PDF, DOCX stb.), amely táblázatokat tartalmaz kivonatolás céljából.

Névterek importálása

Először is kezdje a szükséges névterek importálásával a C# projektben:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

1. lépés: Hozzon létre egy példányt az elemző osztályból

Példányosítsa aParser osztályban, megadva a mintadokumentum elérési útját:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // kódod itt folytatódik...
}

2. lépés: Ellenőrizze a dokumentumtábla kivonatolási támogatását

A folytatás előtt ellenőrizze, hogy a dokumentum támogatja-e a táblázat kibontását:

if (!parser.Features.Tables)
{
    Console.WriteLine("Document does not support table extraction.");
    return;
}

3. lépés: Határozza meg a táblázat elrendezését

Határozza meg a dokumentumból kinyerendő táblázatok elrendezését. Adja meg az oszlopszélességet és a sormagasságot a dokumentum szerkezetének megfelelően:

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },  // Oszlopszélességek
    new double[] { 325, 340, 365, 395 });         // Sormagasságok

4. lépés: Konfigurálja a táblakivonási beállításokat

Hozzon létre beállításokat a táblázat kibontásához a megadott elrendezés használatával:

PageTableAreaOptions options = new PageTableAreaOptions(layout);

5. lépés: A dokumentum információinak lekérése

Információk lekérése a dokumentumról, beleértve az oldalak számát:

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

6. lépés: Ismételje meg a dokumentumoldalakat

A táblázatok kibontásához ismételje meg a dokumentum minden oldalát:

for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Táblázatok kibontása az aktuális oldalról
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex, options);
    // Ismétlés a kivont táblákon keresztül
    foreach (PageTableArea table in tables)
    {
        // Ismételje meg a táblázat sorait
        for (int row = 0; row < table.RowCount; row++)
        {
            // Iteráljon a táblázat oszlopai között
            for (int column = 0; column < table.ColumnCount; column++)
            {
                // Szerezd meg a táblázat celláját
                PageTableAreaCell cell = table[row, column];
                if (cell != null)
                {
                    // Nyomtassa ki a táblázat cellájának szövegét
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Következtetés

Ebben az oktatóanyagban a táblák dokumentumoldalakról történő kinyerésének folyamatát ismertettük a GroupDocs.Parser for .NET használatával. A megadott lépések követésével zökkenőmentesen integrálhatja a táblakivonási funkciókat .NET-alkalmazásaiba, lehetővé téve a dokumentumokon belüli strukturált adatok hatékony kezelését és manipulálását.

GYIK

A GroupDocs.Parser ki tudja bontani a táblákat minden típusú dokumentumból?

A GroupDocs.Parser különféle dokumentumformátumokat támogat, mint például a PDF, DOCX, XLSX és még sok más, lehetővé téve a táblázatok kibontását a kompatibilis fájltípusokból.

A GroupDocs.Parser for .NET alkalmas nagyméretű dokumentumfeldolgozásra?

Igen, a GroupDocs.Parser nagyméretű dokumentumok hatékony kezelésére készült, így kiterjedt adatkészletek feldolgozására is alkalmas.

A GroupDocs.Parser megőrzi a formázást a táblázat kibontása során?

Igen, a GroupDocs.Parser megőrzi a formázási részleteket, például a cellaszegélyeket, a szövegstílusokat és az igazításokat a táblázat kibontása során.

Kivonhatok-e konkrét táblázatokat tartalmi feltételek alapján?

GroupDocs.Parser rugalmas lehetőségeket kínál meghatározott táblák célzására az elrendezési sablonok vagy a kinyerés tartalmi feltételei alapján.

A GroupDocs.Parser kompatibilis a .NET Core-al?

Igen, a GroupDocs.Parser kompatibilis mind a .NET-keretrendszerrel, mind a .NET Core környezettel.