Extraire le texte formaté du document

Introduction

Dans ce didacticiel, nous verrons comment utiliser GroupDocs.Parser pour .NET pour extraire du texte formaté à partir de différents types de documents. GroupDocs.Parser est une bibliothèque puissante qui permet aux développeurs de travailler avec des documents de manière simplifiée et efficace. À la fin de ce guide, vous serez en mesure d’intégrer de manière transparente des fonctionnalités d’extraction de texte dans vos applications .NET.

Conditions préalables

Avant de commencer, assurez-vous d’avoir les éléments suivants :

Visual Studio : assurez-vous que Visual Studio est installé sur votre système.
GroupDocs.Parser pour .NET : téléchargez et installez la bibliothèque GroupDocs.Parser à partir deici.
Exemples de documents : préparez des exemples de documents (par exemple, PDF, DOCX) pour l’extraction de texte.

Importer des espaces de noms

Tout d’abord, incluez les espaces de noms nécessaires dans votre code C# :

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Étape 1 : Créer une instance de la classe Parser

Commencez par initialiser unParser objet avec le chemin d’accès à votre exemple de document.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Le code d'extraction de texte va ici
}

Remplacer"YourSampleFile.pdf" avec le chemin d’accès à votre fichier de document.

Étape 2 : Extraire le texte formaté

Au sein duusing bloquer, utilisez leGetFormattedText méthode pour extraire le texte formaté du document. Spécifiez le format de sortie souhaité (par exemple, HTML) en utilisantFormattedTextOptions.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Extraire le texte formaté dans le lecteur
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Vérifiez si l'extraction est prise en charge
        if (reader == null)
        {
            Console.WriteLine("Formatted text extraction isn't supported.");
        }
        else
        {
            // Lire et afficher le texte extrait
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

Conclusion

Toutes nos félicitations! Vous avez appris à extraire du texte formaté à partir de documents à l’aide de GroupDocs.Parser pour .NET. Cette bibliothèque polyvalente ouvre des possibilités de traitement et d’analyse de texte au sein de vos applications.

FAQ

Q : GroupDocs.Parser peut-il extraire du texte à partir de documents protégés par mot de passe ?

R : Oui, GroupDocs.Parser prend en charge l’extraction de texte à partir de documents protégés par mot de passe.

Q : Quels formats de documents sont pris en charge par GroupDocs.Parser ?

R : GroupDocs.Parser prend en charge un large éventail de formats, notamment PDF, DOCX, XLSX, PPTX, etc.

Q : Comment puis-je obtenir une licence temporaire pour GroupDocs.Parser ?

R : Vous pouvez obtenir une licence temporaire auprès deici.

Q : GroupDocs.Parser prend-il en charge l’extraction d’images à partir de documents ?

R : Oui, GroupDocs.Parser prend en charge l’extraction d’images ainsi que l’extraction de texte.

Q : Où puis-je trouver une assistance supplémentaire ou poser des questions sur GroupDocs.Parser ?

R : Visitez leForum GroupDocs.Parserpour du soutien et des discussions.