Εξαγωγή μορφοποιημένου κειμένου από τη σελίδα εγγράφου
Εισαγωγή
Σε αυτό το σεμινάριο, θα σας καθοδηγήσουμε στη διαδικασία εξαγωγής μορφοποιημένου κειμένου από σελίδες εγγράφων χρησιμοποιώντας το GroupDocs.Parser για .NET. Αυτή η βιβλιοθήκη σάς επιτρέπει να αναλύετε αποτελεσματικά και να εξάγετε κείμενο από διάφορες μορφές εγγράφων όπως PDF, Word, Excel και άλλα.
Προαπαιτούμενα
Πριν ξεκινήσουμε, βεβαιωθείτε ότι έχετε τα εξής:
- Το Visual Studio είναι εγκατεστημένο στο σύστημά σας.
- Βασικές γνώσεις προγραμματισμού C#.
- GroupDocs.Parser για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετεεδώ.
Εισαγωγή χώρων ονομάτων
Αρχικά, ξεκινήστε εισάγοντας τους απαραίτητους χώρους ονομάτων στο έργο σας C#.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
Βήμα 1: Δημιουργήστε μια παρουσία κλάσης Parser
Ξεκινήστε δημιουργώντας ένα παράδειγμα τουParser
τάξη παρέχοντας τη διαδρομή προς το δείγμα αρχείου σας.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Ο κωδικός θα πάει εδώ
}
Βήμα 2: Ελέγξτε εάν υποστηρίζεται η εξαγωγή μορφοποιημένου κειμένου
Πριν προχωρήσετε στην εξαγωγή κειμένου, επαληθεύστε εάν το έγγραφο υποστηρίζει την εξαγωγή μορφοποιημένου κειμένου.
if (!parser.Features.FormattedText)
{
Console.WriteLine("Document does not support formatted text extraction.");
return;
}
Βήμα 3: Λήψη πληροφοριών εγγράφου
Ανακτήστε πληροφορίες σχετικά με το έγγραφο, όπως τον αριθμό των σελίδων.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
Βήμα 4: Επανάληψη σελίδων σε έγγραφο και εξαγωγή μορφοποιημένου κειμένου
Επαναλάβετε σε κάθε σελίδα του εγγράφου και εξαγάγετε μορφοποιημένο κείμενο χρησιμοποιώντας καθορισμένες επιλογές (π.χ. μορφή Markdown).
for (int p = 0; p < documentInfo.PageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
συμπέρασμα
Τώρα ξέρετε πώς να εξαγάγετε μορφοποιημένο κείμενο από σελίδες εγγράφων χρησιμοποιώντας το GroupDocs.Parser για .NET. Αυτή η βιβλιοθήκη παρέχει μια ισχυρή και εύχρηστη λύση για εξαγωγή κειμένου από διάφορες μορφές αρχείων.
Συχνές ερωτήσεις
Μπορεί το GroupDocs.Parser να χειριστεί διαφορετικές μορφές αρχείων;
Ναι, το GroupDocs.Parser υποστηρίζει ένα ευρύ φάσμα μορφών εγγράφων, συμπεριλαμβανομένων των PDF, DOCX, XLSX, PPTX και άλλων.
Είναι το GroupDocs.Parser συμβατό με .NET Core;
Ναι, το GroupDocs.Parser υποστηρίζει .NET Core και .NET Framework.
Διατηρεί το GroupDocs.Parser τη μορφοποίηση κειμένου κατά την εξαγωγή;
Ναι, το GroupDocs.Parser μπορεί να διατηρήσει τη μορφοποίηση, όπως στυλ και γραμματοσειρές κατά την εξαγωγή κειμένου.
Μπορώ να εξαγάγω εικόνες και μεταδεδομένα χρησιμοποιώντας το GroupDocs.Parser;
Ναι, το GroupDocs.Parser επιτρέπει την εξαγωγή εικόνων, μεταδεδομένων και κειμένου από έγγραφα.
Πώς μπορώ να λάβω υποστήριξη για το GroupDocs.Parser;
Μπορείτε να λάβετε υποστήριξη από τοGroupDocs.Parser φόρουμ.