Extraire le texte formaté de la page du document

Introduction

Dans ce didacticiel, nous vous guiderons tout au long du processus d’extraction de texte formaté à partir de pages de document à l’aide de GroupDocs.Parser pour .NET. Cette bibliothèque vous permet d’analyser et d’extraire efficacement du texte à partir de divers formats de documents tels que PDF, Word, Excel, etc.

Conditions préalables

Avant de commencer, assurez-vous d’avoir les éléments suivants :

Visual Studio installé sur votre système.
Connaissance de base de la programmation C#.
GroupDocs.Parser pour la bibliothèque .NET. Vous pouvez le téléchargerici.

Importer des espaces de noms

Tout d’abord, commencez par importer les espaces de noms nécessaires dans votre projet C#.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Étape 1 : Créer une instance de la classe Parser

Commencez par créer une instance deParser classe en fournissant le chemin d’accès à votre exemple de fichier.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Le code ira ici
}

Étape 2 : Vérifiez si l’extraction de texte formaté est prise en charge

Avant de procéder à l’extraction de texte, vérifiez si le document prend en charge l’extraction de texte formaté.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Étape 3 : obtenir des informations sur le document

Récupérez des informations sur le document, telles que le nombre de pages.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Étape 4 : Parcourir les pages du document et extraire le texte formaté

Parcourez chaque page du document et extrayez le texte formaté à l’aide des options spécifiées (par exemple, le format Markdown).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusion

Vous savez maintenant comment extraire du texte formaté à partir de pages de document à l’aide de GroupDocs.Parser pour .NET. Cette bibliothèque fournit une solution puissante et facile à utiliser pour l’extraction de texte à partir de différents formats de fichiers.

FAQ

GroupDocs.Parser peut-il gérer différents formats de fichiers ?

Oui, GroupDocs.Parser prend en charge un large éventail de formats de documents, notamment PDF, DOCX, XLSX, PPTX, etc.

GroupDocs.Parser est-il compatible avec .NET Core ?

Oui, GroupDocs.Parser prend en charge .NET Core et .NET Framework.

GroupDocs.Parser préserve-t-il le formatage du texte lors de l’extraction ?

Oui, GroupDocs.Parser peut conserver le formatage tel que les styles et les polices lors de l’extraction du texte.

Puis-je extraire des images et des métadonnées à l’aide de GroupDocs.Parser ?

Oui, GroupDocs.Parser permet l’extraction d’images, de métadonnées et de texte à partir de documents.

Comment puis-je obtenir de l’aide pour GroupDocs.Parser ?

Vous pouvez bénéficier du soutien duForum GroupDocs.Parser.

Extraire le texte formaté du document Extraire le contenu HTML