Εξαγωγή πινάκων από τη σελίδα εγγράφου

Εισαγωγή

Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να εξαγάγετε πίνακες από μια σελίδα εγγράφου χρησιμοποιώντας το GroupDocs.Parser για .NET. Το GroupDocs.Parser είναι μια ισχυρή βιβλιοθήκη που επιτρέπει στους προγραμματιστές να εργάζονται με διάφορες μορφές εγγράφων όπως PDF, DOCX, XLSX και άλλα. Αξιοποιώντας τα χαρακτηριστικά του, μπορούμε να εξάγουμε αποτελεσματικά δομημένα δεδομένα όπως πίνακες από αυτά τα έγγραφα, επιτρέποντάς μας να χειριζόμαστε και να αναλύουμε τις πληροφορίες μέσω προγραμματισμού.

Προαπαιτούμενα

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε τα εξής:

  • Το Visual Studio είναι εγκατεστημένο στον υπολογιστή σας.
  • Βασική κατανόηση της ανάπτυξης C# και .NET.
  • GroupDocs.Parser για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετε απόεδώ.
  • Πρόσβαση σε δείγμα εγγράφου (PDF, DOCX, κ.λπ.) που περιέχει πίνακες για εξαγωγή.

Εισαγωγή χώρων ονομάτων

Αρχικά, ξεκινήστε εισάγοντας τους απαραίτητους χώρους ονομάτων στο έργο σας C#:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
using GroupDocs.Parser.Templates;

Βήμα 1: Δημιουργήστε μια παρουσία κλάσης Parser

Στιγμιότυπο τοParser τάξη παρέχοντας τη διαδρομή προς το δείγμα εγγράφου σας:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    //Ο κωδικός σας συνεχίζεται εδώ...
}

Βήμα 2: Ελέγξτε την Υποστήριξη εξαγωγής πίνακα εγγράφων

Πριν συνεχίσετε, επαληθεύστε εάν το έγγραφο υποστηρίζει την εξαγωγή πίνακα:

if (!parser.Features.Tables)
{
    Console.WriteLine("Document does not support table extraction.");
    return;
}

Βήμα 3: Ορισμός διάταξης πίνακα

Καθορίστε τη διάταξη των πινάκων που θα εξαχθούν από το έγγραφο. Καθορίστε τα πλάτη στηλών και τα ύψη σειρών σύμφωνα με τη δομή του εγγράφου σας:

TemplateTableLayout layout = new TemplateTableLayout(
    new double[] { 50, 95, 275, 415, 485, 545 },  // Πλάτη στηλών
    new double[] { 325, 340, 365, 395 });         // Ύψος σειρών

Βήμα 4: Διαμόρφωση επιλογών εξαγωγής πίνακα

Δημιουργήστε επιλογές για εξαγωγή πίνακα χρησιμοποιώντας την καθορισμένη διάταξη:

PageTableAreaOptions options = new PageTableAreaOptions(layout);

Βήμα 5: Ανάκτηση πληροφοριών εγγράφου

Λήψη πληροφοριών σχετικά με το έγγραφο, συμπεριλαμβανομένου του αριθμού των σελίδων:

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Βήμα 6: Επαναλάβετε τις σελίδες εγγράφων

Επαναλάβετε σε κάθε σελίδα του εγγράφου για να εξαγάγετε πίνακες:

for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Εξαγωγή πινάκων από την τρέχουσα σελίδα
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex, options);
    // Επανάληψη σε πίνακες που έχουν εξαχθεί
    foreach (PageTableArea table in tables)
    {
        // Επανάληψη σε σειρές του πίνακα
        for (int row = 0; row < table.RowCount; row++)
        {
            // Επανάληψη πάνω από στήλες του πίνακα
            for (int column = 0; column < table.ColumnCount; column++)
            {
                // Λάβετε το κελί του πίνακα
                PageTableAreaCell cell = table[row, column];
                if (cell != null)
                {
                    // Εκτυπώστε το κείμενο του κελιού του πίνακα
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

συμπέρασμα

Σε αυτό το σεμινάριο, καλύψαμε τη διαδικασία εξαγωγής πινάκων από σελίδες εγγράφων χρησιμοποιώντας το GroupDocs.Parser για .NET. Ακολουθώντας τα παρεχόμενα βήματα, μπορείτε να ενσωματώσετε απρόσκοπτα τη λειτουργία εξαγωγής πινάκων στις εφαρμογές σας .NET, επιτρέποντας αποτελεσματικό χειρισμό και χειρισμό δομημένων δεδομένων εντός εγγράφων.

Συχνές ερωτήσεις

Μπορεί το GroupDocs.Parser να εξάγει πίνακες από όλους τους τύπους εγγράφων;

Το GroupDocs.Parser υποστηρίζει διάφορες μορφές εγγράφων όπως PDF, DOCX, XLSX και άλλα, επιτρέποντας την εξαγωγή πινάκων από συμβατούς τύπους αρχείων.

Είναι το GroupDocs.Parser για .NET κατάλληλο για επεξεργασία εγγράφων μεγάλης κλίμακας;

Ναι, το GroupDocs.Parser έχει σχεδιαστεί για να χειρίζεται μεγάλα έγγραφα αποτελεσματικά, καθιστώντας το κατάλληλο για την επεξεργασία εκτεταμένων συνόλων δεδομένων.

Το GroupDocs.Parser διατηρεί τη μορφοποίηση κατά την εξαγωγή του πίνακα;

Ναι, το GroupDocs.Parser διατηρεί λεπτομέρειες μορφοποίησης, όπως περιγράμματα κελιών, στυλ κειμένου και στοίχιση κατά την εξαγωγή πίνακα.

Μπορώ να εξαγάγω συγκεκριμένους πίνακες βάσει κριτηρίων περιεχομένου;

Το GroupDocs.Parser προσφέρει ευέλικτες επιλογές για τη στόχευση συγκεκριμένων πινάκων με βάση τα πρότυπα διάταξης ή τις συνθήκες περιεχομένου για εξαγωγή.

Είναι το GroupDocs.Parser συμβατό με .NET Core;

Ναι, το GroupDocs.Parser είναι συμβατό με περιβάλλοντα .NET Framework και .NET Core.