Extraire des tableaux de la page du document
Introduction
Dans ce didacticiel, nous allons explorer comment extraire des tableaux d’une page de document à l’aide de GroupDocs.Parser pour .NET. GroupDocs.Parser est une bibliothèque puissante qui permet aux développeurs de travailler avec différents formats de documents tels que PDF, DOCX, XLSX, etc. En tirant parti de ses fonctionnalités, nous pouvons extraire efficacement des données structurées telles que des tableaux de ces documents, ce qui nous permet de manipuler et d’analyser les informations par programme.
Conditions préalables
Avant de commencer, assurez-vous d’avoir les éléments suivants :
- Visual Studio installé sur votre ordinateur.
- Compréhension de base du développement C# et .NET.
- GroupDocs.Parser pour la bibliothèque .NET. Vous pouvez le télécharger depuisici.
- Accès à un exemple de document (PDF, DOCX, etc.) contenant des tableaux à extraire.
Importer des espaces de noms
Tout d’abord, commencez par importer les espaces de noms nécessaires dans votre projet C# :
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;
Étape 1 : Créer une instance de la classe Parser
Instancier leParser
class en fournissant le chemin d’accès à votre exemple de document :
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
//Votre code continue ici...
}
Étape 2 : Vérifier la prise en charge de l’extraction des tables de documents
Avant de continuer, vérifiez si le document prend en charge l’extraction de table :
if (!parser.Features.Tables)
{
Console.WriteLine("Document does not support table extraction.");
return;
}
Étape 3 : Définir la disposition du tableau
Définir la disposition des tableaux à extraire du document. Spécifiez les largeurs de colonnes et les hauteurs de lignes en fonction de la structure de votre document :
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 }, // Largeurs de colonnes
new double[] { 325, 340, 365, 395 }); // Hauteurs de rangée
Étape 4 : configurer les options d’extraction de table
Créez des options pour l’extraction de table en utilisant la disposition spécifiée :
PageTableAreaOptions options = new PageTableAreaOptions(layout);
Étape 5 : Récupérer les informations du document
Récupérez des informations sur le document, y compris le nombre de pages :
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
Étape 6 : Parcourir les pages du document
Parcourez chaque page du document pour extraire des tableaux :
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
// Extraire les tableaux de la page actuelle
IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex, options);
// Itérer sur les tables extraites
foreach (PageTableArea table in tables)
{
// Parcourir les lignes du tableau
for (int row = 0; row < table.RowCount; row++)
{
// Parcourir les colonnes du tableau
for (int column = 0; column < table.ColumnCount; column++)
{
// Récupérer la cellule du tableau
PageTableAreaCell cell = table[row, column];
if (cell != null)
{
// Imprimer le texte de la cellule du tableau
Console.Write(cell.Text);
Console.Write(" | ");
}
}
Console.WriteLine();
}
Console.WriteLine();
}
}
Conclusion
Dans ce didacticiel, nous avons couvert le processus d’extraction de tableaux à partir de pages de document à l’aide de GroupDocs.Parser pour .NET. En suivant les étapes fournies, vous pouvez intégrer de manière transparente la fonctionnalité d’extraction de table dans vos applications .NET, permettant ainsi une gestion et une manipulation efficaces des données structurées dans les documents.
FAQ
GroupDocs.Parser peut-il extraire des tableaux de tous les types de documents ?
GroupDocs.Parser prend en charge divers formats de documents tels que PDF, DOCX, XLSX, etc., permettant l’extraction de tableaux à partir de types de fichiers compatibles.
GroupDocs.Parser pour .NET est-il adapté au traitement de documents à grande échelle ?
Oui, GroupDocs.Parser est conçu pour gérer efficacement des documents volumineux, ce qui le rend adapté au traitement d’ensembles de données étendus.
GroupDocs.Parser préserve-t-il le formatage lors de l’extraction de la table ?
Oui, GroupDocs.Parser conserve les détails de mise en forme tels que les bordures de cellules, les styles de texte et les alignements lors de l’extraction du tableau.
Puis-je extraire des tableaux spécifiques en fonction de critères de contenu ?
GroupDocs.Parser offre des options flexibles pour cibler des tables spécifiques en fonction de modèles de mise en page ou de conditions de contenu pour l’extraction.
GroupDocs.Parser est-il compatible avec .NET Core ?
Oui, GroupDocs.Parser est compatible avec les environnements .NET Framework et .NET Core.