Riconoscimento del testo in aree specifiche
introduzione
In questo tutorial esploreremo come utilizzare GroupDocs.Parser per .NET per riconoscere ed estrarre testo da aree specifiche all’interno di un documento. GroupDocs.Parser è una potente libreria di analisi dei documenti che consente agli sviluppatori di lavorare con vari formati di documenti, tra cui PDF, Word, Excel, PowerPoint e altri. Nello specifico, ci concentreremo sullo sfruttamento delle funzionalità OCR (riconoscimento ottico dei caratteri) di GroupDocs.Parser per estrarre testo da aree definite all’interno di un documento.
Prerequisiti
Prima di iniziare, assicurati di aver configurato i seguenti prerequisiti:
- IDE di Visual Studio: assicurati di avere Visual Studio installato sul tuo computer.
- GroupDocs.Parser per .NET: scaricare e installare GroupDocs.Parser per .NET dalLink per scaricare.
- Esempi di documenti: prepara file di esempio (ad esempio PDF, DOCX) da cui desideri estrarre il testo.
Importa spazi dei nomi
Per iniziare, importa gli spazi dei nomi necessari nel tuo progetto:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Analizziamo il processo in passaggi dettagliati utilizzando GroupDocs.Parser per .NET:
Passaggio 1: creare le impostazioni del parser con il connettore OCR
Innanzitutto, crea un’istanza diParserSettings
class e inizializzarla con un connettore OCR, comeAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Passaggio 2: istanziare il parser con le impostazioni
Successivamente, crea un’istanza diParser
classe passando il file creato in precedenzaParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Lo snippet di codice continua...
}
Sostituire"YourSampleFile.pdf"
con il percorso del documento di destinazione.
Passaggio 3: configurare le opzioni di estrazione dell’area di testo
Crea un’istanza diPageTextAreaOptions
per abilitare l’estrazione del testo basata su OCR:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Impostatotrue
per abilitare l’OCR per un migliore riconoscimento del testo.
Passaggio 4: estrazione delle aree di testo
Invocareparser.GetTextAreas(options)
per estrarre aree di testo dal documento:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Passaggio 5: elaborazione delle aree di testo estratte
Itera sulle aree di testo estratte e recupera informazioni su testo, posizione e dimensione:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Conclusione
In questo tutorial abbiamo trattato il processo di estrazione del testo da aree specifiche all’interno di un documento utilizzando GroupDocs.Parser per .NET con funzionalità OCR. Seguendo questi passaggi è possibile sfruttare in modo efficace le funzionalità di analisi di GroupDocs.Parser per gestire le attività di estrazione del testo a livello di codice.
Domande frequenti
GroupDocs.Parser può estrarre testo da documenti scansionati?
Sì, GroupDocs.Parser supporta l’OCR per estrarre il testo dalle immagini scansionate all’interno dei documenti.
Quali formati di documento sono supportati da GroupDocs.Parser?
GroupDocs.Parser supporta un’ampia gamma di formati, inclusi PDF, DOCX, XLSX, PPTX, TXT e altri.
GroupDocs.Parser è adatto per l’elaborazione batch di documenti?
Sì, GroupDocs.Parser può gestire in modo efficiente attività di elaborazione batch per l’analisi e l’estrazione dei documenti.
Posso personalizzare le opzioni di estrazione del testo con GroupDocs.Parser?
Sì, GroupDocs.Parser offre varie opzioni per personalizzare l’estrazione del testo in base a requisiti specifici.
GroupDocs.Parser fornisce supporto per l’estrazione di metadati dai documenti?
Sì, GroupDocs.Parser consente l’estrazione di metadati come autore, data di creazione e altro dai formati di documenti supportati.