Extraire le texte de la page en mode brut
Introduction
Dans ce didacticiel, vous apprendrez à utiliser Groupdocs.Parser pour .NET pour extraire le texte des pages d’un document en mode brut. Cette bibliothèque fournit des outils efficaces pour analyser et extraire le contenu de différents formats de fichiers, permettant aux développeurs d’incorporer l’extraction de texte de document dans leurs applications .NET.
Conditions préalables
Avant de commencer, assurez-vous de disposer des conditions préalables suivantes :
- Connaissance de base de la programmation C# et .NET
- Visual Studio installé sur votre machine
- Accès à la bibliothèque Groupdocs.Parser pour .NET
- Exemple de fichier de document pour les tests
Importer des espaces de noms
Commencez par inclure les espaces de noms nécessaires dans votre projet C# :
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Étape 1 : initialiser l’analyseur
Tout d’abord, créez une instance deParser
classe en fournissant le chemin d’accès à votre exemple de fichier de document.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Votre code ici
}
Étape 2 : Récupérer les informations sur le document
Récupérer des informations sur le document en utilisantGetDocumentInfo()
méthode.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
Étape 3 : Parcourir les pages et extraire le texte
Parcourez chaque page du document et extrayez le contenu du texte.
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Extraire le texte de la page
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Conclusion
Vous avez maintenant appris à utiliser Groupdocs.Parser pour .NET pour extraire le texte des pages d’un document en mode brut. Cela peut constituer une fonctionnalité puissante pour les applications qui doivent analyser ou traiter du contenu textuel à partir de différents formats de fichiers.
FAQ
Groupdocs.Parser pour .NET est-il compatible avec tous les formats de fichiers ?
Groupdocs.Parser prend en charge une large gamme de formats de fichiers, notamment PDF, DOCX, XLSX, PPTX, EPUB, etc.
Puis-je extraire des métadonnées ainsi que du texte à l’aide de cette bibliothèque ?
Oui, Groupdocs.Parser vous permet d’extraire à la fois le texte et les métadonnées des documents.
Existe-t-il une version d’essai disponible pour tester ?
Oui, vous pouvez télécharger une version d’essai gratuite à partir deici.
Comment puis-je obtenir une assistance technique pour Groupdocs.Parser ?
Pour une assistance technique, visitez leForum Groupdocs.Parser.
Où puis-je acheter une licence pour Groupdocs.Parser pour .NET ?
Vous pouvez acheter une licenceici.