Formázott szöveg kibontása a dokumentumból

Bevezetés

Ebben az oktatóanyagban megvizsgáljuk, hogyan használható a GroupDocs.Parser for .NET formázott szöveg kinyerésére különböző típusú dokumentumokból. A GroupDocs.Parser egy hatékony könyvtár, amely lehetővé teszi a fejlesztők számára, hogy egyszerűsített és hatékony módon dolgozzanak a dokumentumokkal. Az útmutató végére zökkenőmentesen integrálhatja a szövegkivonási képességeket .NET-alkalmazásaiba.

Előfeltételek

Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik az alábbiakkal:

  • Visual Studio: Győződjön meg arról, hogy a Visual Studio telepítve van a rendszeren.
  • GroupDocs.Parser for .NET: Töltse le és telepítse a GroupDocs.Parser könyvtárat innenitt.
  • Dokumentumminták: Készítsen mintadokumentumokat (pl. PDF, DOCX) szövegkivonathoz.

Névterek importálása

Először is adja meg a szükséges névtereket a C# kódban:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

1. lépés: Hozzon létre egy példányt az elemző osztályból

Kezdje inicializálásával aParser objektum a mintadokumentum elérési útjával.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // A szövegkivonat kódja ide kerül
}

Cserélje ki"YourSampleFile.pdf" a dokumentumfájl elérési útjával.

2. lépés: A formázott szöveg kibontása

Belülusing blokkolja, használja aGetFormattedText módszer a formázott szöveg kinyerésére a dokumentumból. Adja meg a kívánt kimeneti formátumot (pl. HTML) a segítségévelFormattedTextOptions.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // A formázott szöveg kibontása az olvasóba
    using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
    {
        // Ellenőrizze, hogy a kivonás támogatott-e
        if (reader == null)
        {
            Console.WriteLine("Formatted text extraction isn't supported.");
        }
        else
        {
            // Olvassa el és jelenítse meg a kivont szöveget
            Console.WriteLine(reader.ReadToEnd());
        }
    }
}

Következtetés

Gratulálunk! Megtanulta, hogyan lehet formázott szöveget kivonni dokumentumokból a GroupDocs.Parser for .NET segítségével. Ez a sokoldalú könyvtár lehetőséget kínál az alkalmazásokon belüli szövegfeldolgozásra és -elemzésre.

GYIK

K: A GroupDocs.Parser ki tudja bontani a szöveget a jelszóval védett dokumentumokból?

V: Igen, a GroupDocs.Parser támogatja a szöveg kinyerését a jelszóval védett dokumentumokból.

K: Mely dokumentumformátumokat támogatja a GroupDocs.Parser?

V: A GroupDocs.Parser a formátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX és egyebeket.

K: Hogyan szerezhetek ideiglenes licencet a GroupDocs.Parser számára?

V: Ideiglenes engedélyt szerezhet beitt.

K: A GroupDocs.Parser támogatja a képek dokumentumokból történő kinyerését?

V: Igen, a GroupDocs.Parser támogatja a képkivonást a szövegkivonat mellett.

K: Hol találhatok további támogatást, vagy hol tehetek fel kérdéseket a GroupDocs.Parserrel kapcsolatban?

V: Látogassa meg aGroupDocs.Parser fórumtámogatásért és megbeszélésekért.