Αναγνώριση κειμένου σε συγκεκριμένες περιοχές
Εισαγωγή
Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να χρησιμοποιήσετε το GroupDocs.Parser για .NET για την αναγνώριση και εξαγωγή κειμένου από συγκεκριμένες περιοχές ενός εγγράφου. Το GroupDocs.Parser είναι μια ισχυρή βιβλιοθήκη ανάλυσης εγγράφων που επιτρέπει στους προγραμματιστές να εργάζονται με διάφορες μορφές εγγράφων, όπως PDF, Word, Excel, PowerPoint και άλλα. Συγκεκριμένα, θα επικεντρωθούμε στην αξιοποίηση των δυνατοτήτων OCR (Optical Character Recognition) του GroupDocs.Parser για την εξαγωγή κειμένου από καθορισμένες περιοχές ενός εγγράφου.
Προαπαιτούμενα
Πριν ξεκινήσουμε, βεβαιωθείτε ότι έχετε ρυθμίσει τις ακόλουθες προϋποθέσεις:
- Visual Studio IDE: Βεβαιωθείτε ότι έχετε εγκαταστήσει το Visual Studio στον υπολογιστή σας.
- GroupDocs.Parser για .NET: Λήψη και εγκατάσταση του GroupDocs.Parser για .NET από τοσύνδεσμος λήψης.
- Δείγματα εγγράφων: Προετοιμάστε δείγματα αρχείων (π.χ. PDF, DOCX) από τα οποία θέλετε να εξαγάγετε κείμενο.
Εισαγωγή χώρων ονομάτων
Για να ξεκινήσετε, εισαγάγετε τους απαραίτητους χώρους ονομάτων στο έργο σας:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Ας αναλύσουμε τη διαδικασία σε λεπτομερή βήματα χρησιμοποιώντας το GroupDocs.Parser για .NET:
Βήμα 1: Δημιουργήστε ρυθμίσεις ανάλυσης με το OCR Connector
Πρώτα, δημιουργήστε ένα παράδειγμα τουParserSettings
κλάση και αρχικοποιήστε το με μια υποδοχή OCR, όπως π.χAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Βήμα 2: Δημιουργήστε Instant Parser με τις Ρυθμίσεις
Στη συνέχεια, δημιουργήστε μια παρουσία τουParser
κλάση περνώντας το προηγουμένως δημιουργημένοParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Το απόσπασμα κώδικα συνεχίζεται...
}
Αντικαθιστώ"YourSampleFile.pdf"
με τη διαδρομή προς το έγγραφο-στόχο σας.
Βήμα 3: Διαμόρφωση επιλογών εξαγωγής περιοχής κειμένου
Δημιουργήστε ένα παράδειγμα τουPageTextAreaOptions
για να ενεργοποιήσετε την εξαγωγή κειμένου βάσει OCR:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Σειράtrue
για να ενεργοποιήσετε το OCR για καλύτερη αναγνώριση κειμένου.
Βήμα 4: Εξαγωγή περιοχών κειμένου
Επικαλούμαιparser.GetTextAreas(options)
για να εξαγάγετε περιοχές κειμένου από το έγγραφο:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Βήμα 5: Επεξεργαστείτε τις εξαγόμενες περιοχές κειμένου
Επαναλάβετε τις εξαγόμενες περιοχές κειμένου και ανακτήστε πληροφορίες κειμένου, θέσης και μεγέθους:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
συμπέρασμα
Σε αυτό το σεμινάριο, καλύψαμε τη διαδικασία εξαγωγής κειμένου από συγκεκριμένες περιοχές σε ένα έγγραφο χρησιμοποιώντας GroupDocs.Parser για .NET με δυνατότητες OCR. Ακολουθώντας αυτά τα βήματα, μπορείτε να αξιοποιήσετε αποτελεσματικά τις λειτουργίες ανάλυσης του GroupDocs.Parser για να χειριστείτε εργασίες εξαγωγής κειμένου μέσω προγραμματισμού.
Συχνές ερωτήσεις
Μπορεί το GroupDocs.Parser να εξάγει κείμενο από σαρωμένα έγγραφα;
Ναι, το GroupDocs.Parser υποστηρίζει OCR για εξαγωγή κειμένου από σαρωμένες εικόνες εντός εγγράφων.
Ποιες μορφές εγγράφων υποστηρίζονται από το GroupDocs.Parser;
Το GroupDocs.Parser υποστηρίζει ένα ευρύ φάσμα μορφών, συμπεριλαμβανομένων των PDF, DOCX, XLSX, PPTX, TXT και άλλων.
Είναι το GroupDocs.Parser κατάλληλο για ομαδική επεξεργασία εγγράφων;
Ναι, το GroupDocs.Parser μπορεί να χειριστεί αποτελεσματικά εργασίες μαζικής επεξεργασίας για ανάλυση και εξαγωγή εγγράφων.
Μπορώ να προσαρμόσω τις επιλογές εξαγωγής κειμένου με το GroupDocs.Parser;
Ναι, το GroupDocs.Parser προσφέρει διάφορες επιλογές για την προσαρμογή της εξαγωγής κειμένου με βάση συγκεκριμένες απαιτήσεις.
Το GroupDocs.Parser παρέχει υποστήριξη για την εξαγωγή μεταδεδομένων από έγγραφα;
Ναι, το GroupDocs.Parser επιτρέπει την εξαγωγή μεταδεδομένων όπως ο συγγραφέας, η ημερομηνία δημιουργίας και άλλα από υποστηριζόμενες μορφές εγγράφων.