Extraire le texte de la page en mode brut

Introduction

Dans ce didacticiel, vous apprendrez à utiliser Groupdocs.Parser pour .NET pour extraire le texte des pages d’un document en mode brut. Cette bibliothèque fournit des outils efficaces pour analyser et extraire le contenu de différents formats de fichiers, permettant aux développeurs d’incorporer l’extraction de texte de document dans leurs applications .NET.

Conditions préalables

Avant de commencer, assurez-vous de disposer des conditions préalables suivantes :

Connaissance de base de la programmation C# et .NET
Visual Studio installé sur votre machine
Accès à la bibliothèque Groupdocs.Parser pour .NET
Exemple de fichier de document pour les tests

Importer des espaces de noms

Commencez par inclure les espaces de noms nécessaires dans votre projet C# :

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Étape 1 : initialiser l’analyseur

Tout d’abord, créez une instance deParser classe en fournissant le chemin d’accès à votre exemple de fichier de document.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Votre code ici
}

Étape 2 : Récupérer les informations sur le document

Récupérer des informations sur le document en utilisantGetDocumentInfo() méthode.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Étape 3 : Parcourir les pages et extraire le texte

Parcourez chaque page du document et extrayez le contenu du texte.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Extraire le texte de la page
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusion

Vous avez maintenant appris à utiliser Groupdocs.Parser pour .NET pour extraire le texte des pages d’un document en mode brut. Cela peut constituer une fonctionnalité puissante pour les applications qui doivent analyser ou traiter du contenu textuel à partir de différents formats de fichiers.

FAQ

Groupdocs.Parser pour .NET est-il compatible avec tous les formats de fichiers ?

Groupdocs.Parser prend en charge une large gamme de formats de fichiers, notamment PDF, DOCX, XLSX, PPTX, EPUB, etc.

Puis-je extraire des métadonnées ainsi que du texte à l’aide de cette bibliothèque ?

Oui, Groupdocs.Parser vous permet d’extraire à la fois le texte et les métadonnées des documents.

Existe-t-il une version d’essai disponible pour tester ?

Oui, vous pouvez télécharger une version d’essai gratuite à partir deici.

Comment puis-je obtenir une assistance technique pour Groupdocs.Parser ?

Pour une assistance technique, visitez leForum Groupdocs.Parser.

Où puis-je acheter une licence pour Groupdocs.Parser pour .NET ?

Vous pouvez acheter une licenceici.

Extraire le texte de la page en mode précis Extraire du texte en mode précis