Estrai tabelle dalla pagina del documento

introduzione

In questo tutorial esploreremo come estrarre tabelle da una pagina di documento utilizzando GroupDocs.Parser per .NET. GroupDocs.Parser è una potente libreria che consente agli sviluppatori di lavorare con vari formati di documenti come PDF, DOCX, XLSX e altri. Sfruttando le sue funzionalità, possiamo estrarre in modo efficiente dati strutturati come tabelle da questi documenti, consentendoci di manipolare e analizzare le informazioni in modo programmatico.

Prerequisiti

Prima di iniziare, assicurati di avere quanto segue:

  • Visual Studio installato sul tuo computer.
  • Conoscenza di base dello sviluppo C# e .NET.
  • GroupDocs.Parser per la libreria .NET. Puoi scaricarlo daQui.
  • Accesso a un documento di esempio (PDF, DOCX, ecc.) contenente tabelle per l’estrazione.

Importa spazi dei nomi

Innanzitutto, inizia importando gli spazi dei nomi necessari nel tuo progetto C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Passaggio 1: creare un’istanza della classe parser

Istanziare ilParser class fornendo il percorso del documento di esempio:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //Il tuo codice continua qui...
}

Passaggio 2: verificare il supporto per l’estrazione della tabella documenti

Prima di procedere, verifica se il documento supporta l’estrazione della tabella:

if (!parser.Features.Tables)
{
    Console.WriteLine("Document does not support table extraction.");
    return;
}

Passaggio 3: definire il layout della tabella

Definire il layout delle tabelle da estrarre dal documento. Specifica la larghezza delle colonne e l’altezza delle righe in base alla struttura del documento:

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },  // Larghezze delle colonne
    new double[] { 325, 340, 365, 395 });         // Altezze delle file

Passaggio 4: configurare le opzioni di estrazione della tabella

Crea opzioni per l’estrazione della tabella utilizzando il layout specificato:

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Passaggio 5: recuperare le informazioni sul documento

Recupera informazioni sul documento, incluso il numero di pagine:

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Passaggio 6: scorrere le pagine del documento

Scorri ogni pagina del documento per estrarre le tabelle:

for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Estrai tabelle dalla pagina corrente
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex, options);
    // Itera sulle tabelle estratte
    foreach (PageTableArea table in tables)
    {
        // Iterare sulle righe della tabella
        for (int row = 0; row < table.RowCount; row++)
        {
            // Itera sulle colonne della tabella
            for (int column = 0; column < table.ColumnCount; column++)
            {
                // Ottieni la cella della tabella
                PageTableAreaCell cell = table[row, column];
                if (cell != null)
                {
                    // Stampa il testo della cella della tabella
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Conclusione

In questo tutorial, abbiamo trattato il processo di estrazione delle tabelle dalle pagine dei documenti utilizzando GroupDocs.Parser per .NET. Seguendo i passaggi forniti, puoi integrare perfettamente la funzionalità di estrazione delle tabelle nelle tue applicazioni .NET, consentendo una gestione e manipolazione efficiente dei dati strutturati all’interno dei documenti.

Domande frequenti

GroupDocs.Parser può estrarre tabelle da tutti i tipi di documenti?

GroupDocs.Parser supporta vari formati di documenti come PDF, DOCX, XLSX e altri, consentendo l’estrazione di tabelle da tipi di file compatibili.

GroupDocs.Parser per .NET è adatto per l’elaborazione di documenti su larga scala?

Sì, GroupDocs.Parser è progettato per gestire documenti di grandi dimensioni in modo efficiente, rendendolo adatto all’elaborazione di set di dati estesi.

GroupDocs.Parser preserva la formattazione durante l’estrazione della tabella?

Sì, GroupDocs.Parser conserva i dettagli di formattazione come bordi delle celle, stili di testo e allineamenti durante l’estrazione della tabella.

Posso estrarre tabelle specifiche in base a criteri di contenuto?

GroupDocs.Parser offre opzioni flessibili per indirizzare tabelle specifiche in base a modelli di layout o condizioni di contenuto per l’estrazione.

GroupDocs.Parser è compatibile con .NET Core?

Sì, GroupDocs.Parser è compatibile sia con gli ambienti .NET Framework che .NET Core.