Extraire le texte d'une page dans un PDF en mode brut
Introduction
Dans ce didacticiel, nous verrons comment utiliser GroupDocs.Parser pour .NET pour extraire le texte des pages de documents PDF en mode brut. GroupDocs.Parser est un outil puissant qui permet aux développeurs de travailler avec différents formats de documents par programme.
Conditions préalables
Avant de commencer ce didacticiel, assurez-vous d’avoir les éléments suivants :
- Visual Studio installé sur votre ordinateur.
- Connaissance de base de la programmation C#.
- Bibliothèque GroupDocs.Parser pour .NET, que vous pouveztélécharger ici.
- Un exemple de fichier PDF à des fins de test.
Importer des espaces de noms
Tout d’abord, assurez-vous d’importer les espaces de noms nécessaires dans votre projet C# :
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Étape 1 : Créer une instance de la classe Parser
Pour commencer, instanciez leParser
classe en fournissant le chemin d’accès à votre exemple de fichier PDF.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Votre code va ici
}
Étape 2 : obtenir des informations sur le document et parcourir les pages
Ensuite, récupérez les informations du document et parcourez chaque page pour extraire le texte.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Votre code pour l'extraction de texte va ici
}
Étape 3 : Extraire le texte de chaque page
Dans la boucle, utilisez leGetText
méthode pour extraire le texte de chaque page et l’imprimer.
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
Conclusion
Dans ce didacticiel, nous avons appris à extraire du texte de pages PDF en mode brut à l’aide de GroupDocs.Parser pour .NET. Ce processus consiste à créer unParser
Par exemple, obtenir des informations sur le document, parcourir chaque page et extraire du texte à l’aide de l’outilGetText
méthode.
FAQ
Qu’est-ce que GroupDocs.Parser pour .NET ?
GroupDocs.Parser pour .NET est une API d’analyse de documents qui permet aux développeurs d’extraire du texte, des métadonnées et d’autres informations à partir de divers formats de fichiers par programme.
Comment télécharger GroupDocs.Parser pour .NET ?
Vous pouvez télécharger la bibliothèque à partir duSite Web GroupDocs.
Existe-t-il un essai gratuit disponible ?
Oui, vous pouvez accéder à un essai gratuit de GroupDocs.Parser pour .NET à partir deici.
Où puis-je trouver de l’assistance pour GroupDocs.Parser pour .NET ?
Pour une assistance technique et un soutien communautaire, visitez leForum GroupDocs.
Comment puis-je acheter une licence pour GroupDocs.Parser pour .NET ?
Vous pouvez acheter une licence auprès dupage d’achat ou acquérir une licence temporaireici.