Riconoscimento del testo nelle regioni rettangolari
introduzione
In questo tutorial esploreremo come utilizzare GroupDocs.Parser per .NET per riconoscere il testo all’interno di specifiche aree rettangolari di documenti. GroupDocs.Parser è una potente libreria che consente agli sviluppatori di estrarre testo, metadati e altro da vari formati di file, inclusi PDF, Word, Excel e PowerPoint.
Prerequisiti
Prima di iniziare, assicurati di avere la seguente configurazione:
- GroupDocs.Parser per .NET: scarica e installa la libreria daQui.
- Ambiente di sviluppo: Visual Studio o qualsiasi altro IDE .NET.
- Documento di esempio: disporre di un file di esempio (ad esempio, PDF, DOCX) che contiene testo da riconoscere.
Importa spazi dei nomi
Innanzitutto, dovrai importare gli spazi dei nomi necessari nel tuo codice C#:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Passaggio 1: inizializzare le impostazioni del parser
Inizia impostando il fileParserSettings
con il connettore OCR. Qui utilizzeremo il connettore locale Aspose OCR:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Passaggio 2: crea un’istanza del parser
Successivamente, istanziare il fileParser
classe con le impostazioni precedentemente definite:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Il codice continua qui
}
Sostituire"YourSampleFile.pdf"
con il percorso del documento.
Passaggio 3: Definire il rettangolo OCR
Definire un rettangolo all’interno del documento in cui verrà eseguito il riconoscimento del testo. Ad esempio, un rettangolo che inizia da(0, 0)
con larghezza400
e altezza200
:
OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));
Passaggio 4: configura le opzioni di riconoscimento del testo
CreareTextOptions
per specificare l’utilizzo dell’OCR insieme al rettangolo definito:
TextOptions options = new TextOptions(false, true, ocrOptions);
Passaggio 5: estrai il testo utilizzando l’OCR
Usa ilGetText
metodo delParser
istanza con il configuratoTextOptions
:
using (TextReader reader = parser.GetText(options))
{
// Leggi il testo estratto o gestisci il caso "non supportato".
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
Conclusione
In questo tutorial, abbiamo dimostrato come sfruttare GroupDocs.Parser per .NET per estrarre testo da specifiche aree rettangolari nei documenti utilizzando l’OCR. Questo processo può essere ulteriormente personalizzato e integrato in varie applicazioni per attività di estrazione automatizzata del testo.
Domande frequenti
GroupDocs.Parser può estrarre testo da documenti scansionati?
Sì, GroupDocs.Parser supporta l’OCR (riconoscimento ottico dei caratteri) per estrarre il testo dai documenti scansionati.
Quali formati di file supporta GroupDocs.Parser?
GroupDocs.Parser supporta un’ampia gamma di formati di file, inclusi PDF, DOCX, XLSX, PPTX e altri.
Come posso gestire i documenti che non sono supportati per l’estrazione del testo?
Puoi verificare se l’estrazione del testo è supportata utilizzandoTextReader
istanza restituita daparser.GetText(options)
.
GroupDocs.Parser è adatto per attività di estrazione di testo su larga scala?
Sì, GroupDocs.Parser è progettato per gestire in modo efficiente attività di estrazione di testo su larga scala.
Dove posso ottenere supporto per i problemi relativi a GroupDocs.Parser?
Per supporto e discussioni, visitare ilForum GroupDocs.Parser.