Estrai testo dalla pagina in PDF in modalità Raw
introduzione
In questo tutorial esploreremo come utilizzare GroupDocs.Parser per .NET per estrarre testo dalle pagine dei documenti PDF utilizzando la modalità raw. GroupDocs.Parser è un potente strumento che consente agli sviluppatori di lavorare a livello di codice con vari formati di documenti.
Prerequisiti
Prima di iniziare questo tutorial, assicurati di avere quanto segue:
- Visual Studio installato sul tuo computer.
- Conoscenza base della programmazione C#.
- GroupDocs.Parser per la libreria .NET, che puoiscarica qui.
- Un file PDF di esempio a scopo di test.
Importa spazi dei nomi
Innanzitutto, assicurati di importare gli spazi dei nomi necessari nel tuo progetto C#:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Passaggio 1: creare un’istanza della classe parser
Per iniziare, istanziare il fileParser
class fornendo il percorso del file PDF di esempio.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Il tuo codice va qui
}
Passaggio 2: ottieni informazioni sul documento e ripeti le pagine
Successivamente, recupera le informazioni del documento ed esegui l’iterazione su ciascuna pagina per estrarre il testo.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Il tuo codice per l'estrazione del testo va qui
}
Passaggio 3: estrai il testo da ciascuna pagina
All’interno del ciclo, utilizzare il fileGetText
metodo per estrarre il testo da ogni pagina e stamparlo.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Conclusione
In questo tutorial, abbiamo imparato come estrarre testo dalle pagine PDF in modalità raw utilizzando GroupDocs.Parser per .NET. Questo processo prevede la creazione di un fileParser
esempio, ottenendo informazioni sul documento, scorrendo ogni pagina ed estraendo il testo utilizzando il fileGetText
metodo.
Domande frequenti
Cos’è GroupDocs.Parser per .NET?
GroupDocs.Parser per .NET è un’API di analisi dei documenti che consente agli sviluppatori di estrarre testo, metadati e altre informazioni da vari formati di file a livello di codice.
Come posso scaricare GroupDocs.Parser per .NET?
È possibile scaricare la libreria daSito web di GroupDocs.
È disponibile una prova gratuita?
Sì, puoi accedere a una prova gratuita di GroupDocs.Parser per .NET daQui.
Dove posso trovare supporto per GroupDocs.Parser per .NET?
Per assistenza tecnica e supporto comunitario, visitare ilForum di GroupDocs.
Come posso acquistare una licenza per GroupDocs.Parser per .NET?
È possibile acquistare una licenza dapagina di acquisto o acquisire una licenza temporaneaQui.