Estrai testo formattato dalla pagina del documento

introduzione

In questo tutorial ti guideremo attraverso il processo di estrazione del testo formattato dalle pagine dei documenti utilizzando GroupDocs.Parser per .NET. Questa libreria ti consente di analizzare ed estrarre in modo efficiente il testo da vari formati di documenti come PDF, Word, Excel e altri.

Prerequisiti

Prima di iniziare, assicurati di avere quanto segue:

Visual Studio installato nel sistema.
Conoscenza base della programmazione C#.
GroupDocs.Parser per la libreria .NET. Puoi scaricarloQui.

Importa spazi dei nomi

Innanzitutto, inizia importando gli spazi dei nomi necessari nel tuo progetto C#.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

Passaggio 1: creare un’istanza della classe parser

Inizia creando un’istanza diParser class fornendo il percorso del file di esempio.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Il codice andrà qui
}

Passaggio 2: controlla se l’estrazione del testo formattato è supportata

Prima di procedere con l’estrazione del testo, verificare se il documento supporta l’estrazione del testo formattato.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

Passaggio 3: ottieni informazioni sul documento

Recuperare informazioni sul documento, ad esempio il numero di pagine.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

Passaggio 4: scorrere le pagine del documento ed estrarre il testo formattato

Scorri ogni pagina del documento ed estrai il testo formattato utilizzando le opzioni specificate (ad esempio, formato Markdown).

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Conclusione

Ora sai come estrarre testo formattato dalle pagine dei documenti utilizzando GroupDocs.Parser per .NET. Questa libreria fornisce una soluzione potente e facile da usare per l’estrazione del testo da vari formati di file.

Domande frequenti

GroupDocs.Parser può gestire diversi formati di file?

Sì, GroupDocs.Parser supporta un’ampia gamma di formati di documenti, inclusi PDF, DOCX, XLSX, PPTX e altri.

GroupDocs.Parser è compatibile con .NET Core?

Sì, GroupDocs.Parser supporta .NET Core e .NET Framework.

GroupDocs.Parser preserva la formattazione del testo durante l’estrazione?

Sì, GroupDocs.Parser può mantenere la formattazione come stili e caratteri durante l’estrazione del testo.

Posso estrarre immagini e metadati utilizzando GroupDocs.Parser?

Sì, GroupDocs.Parser consente l’estrazione di immagini, metadati e testo dai documenti.

Come posso ottenere supporto per GroupDocs.Parser?

Puoi ottenere supporto daForum GroupDocs.Parser.

Estrai testo formattato dal documento Estrai contenuto HTML