Estrai testo dalla pagina in modalità Raw
introduzione
In questo tutorial imparerai come utilizzare Groupdocs.Parser per .NET per estrarre testo dalle pagine del documento in modalità raw. Questa libreria fornisce strumenti efficienti per analizzare ed estrarre contenuto da vari formati di file, consentendo agli sviluppatori di incorporare l’estrazione del testo dei documenti nelle loro applicazioni .NET.
Prerequisiti
Prima di iniziare, assicurati di possedere i seguenti prerequisiti:
- Conoscenza base di programmazione C# e .NET
- Visual Studio installato sul tuo computer
- Accesso alla libreria Groupdocs.Parser per .NET
- File di documento di esempio per il test
Importa spazi dei nomi
Inizia includendo gli spazi dei nomi necessari nel tuo progetto C#:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Passaggio 1: inizializzare il parser
Innanzitutto, crea un’istanza diParser
class fornendo il percorso del file del documento di esempio.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Il tuo codice qui
}
Passaggio 2: recuperare le informazioni sul documento
Recuperare informazioni sul documento utilizzandoGetDocumentInfo()
metodo.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
Passaggio 3: scorrere le pagine ed estrarre il testo
Scorri ogni pagina del documento ed estrai il contenuto del testo.
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Estrai il testo dalla pagina
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Conclusione
Ora hai imparato come utilizzare Groupdocs.Parser per .NET per estrarre testo dalle pagine del documento in modalità raw. Questa può essere una funzionalità potente per le applicazioni che necessitano di analizzare o elaborare contenuti di testo da vari formati di file.
Domande frequenti
Groupdocs.Parser per .NET è compatibile con tutti i formati di file?
Groupdocs.Parser supporta un’ampia gamma di formati di file tra cui PDF, DOCX, XLSX, PPTX, EPUB e altri.
Posso estrarre metadati insieme al testo utilizzando questa libreria?
Sì, Groupdocs.Parser ti consente di estrarre sia testo che metadati dai documenti.
È disponibile una versione di prova per i test?
Sì, puoi scaricare una versione di prova gratuita daQui.
Come posso ottenere supporto tecnico per Groupdocs.Parser?
Per assistenza tecnica, visitare ilForum Groupdocs.Parser.
Dove posso acquistare una licenza per Groupdocs.Parser per .NET?
È possibile acquistare una licenzaQui.