Formázott szöveg kibontása a dokumentumoldalról
Bevezetés
Ebben az oktatóanyagban végigvezetjük a formázott szöveg kinyerésének folyamatán a dokumentumoldalakról a GroupDocs.Parser for .NET segítségével. Ez a könyvtár lehetővé teszi a szövegek hatékony elemzését és kinyerését különféle dokumentumformátumokból, például PDF, Word, Excel stb.
Előfeltételek
Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik az alábbiakkal:
- A Visual Studio telepítve van a rendszerére.
- C# programozási alapismeretek.
- GroupDocs.Parser .NET könyvtárhoz. Letölthetiitt.
Névterek importálása
Először is kezdje a szükséges névterek importálásával a C# projektbe.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
1. lépés: Hozzon létre egy példányt az elemző osztályból
Kezdje a példány létrehozásával aParser
osztályba, megadva a mintafájl elérési útját.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// A kód ide fog kerülni
}
2. lépés: Ellenőrizze, hogy a formázott szöveg kibontása támogatott-e
Mielőtt folytatná a szövegkivonást, ellenőrizze, hogy a dokumentum támogatja-e a formázott szövegkivonást.
if (!parser.Features.FormattedText)
{
Console.WriteLine("Document does not support formatted text extraction.");
return;
}
3. lépés: Dokumentuminformációk lekérése
Információk lekérése a dokumentumról, például az oldalak száma.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
4. lépés: Ismételje meg a dokumentumoldalakat és vonja ki a formázott szöveget
Ismételje meg a dokumentum minden oldalát, és bontsa ki a formázott szöveget meghatározott beállításokkal (pl. Markdown formátum).
for (int p = 0; p < documentInfo.PageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Következtetés
Most már tudja, hogyan lehet formázott szöveget kivonni a dokumentumoldalakról a GroupDocs.Parser for .NET segítségével. Ez a könyvtár hatékony és könnyen használható megoldást kínál szövegek kinyerésére különféle fájlformátumokból.
GYIK
A GroupDocs.Parser képes kezelni a különböző fájlformátumokat?
Igen, a GroupDocs.Parser a dokumentumformátumok széles skáláját támogatja, beleértve a PDF, DOCX, XLSX, PPTX stb.
A GroupDocs.Parser kompatibilis a .NET Core-al?
Igen, a GroupDocs.Parser támogatja a .NET Core-t és a .NET-keretrendszert.
A GroupDocs.Parser megőrzi a szöveg formázását a kibontás során?
Igen, a GroupDocs.Parser meg tudja őrizni a formázást, például a stílusokat és a betűtípusokat a szöveg kibontásakor.
Kivonhatok képeket és metaadatokat a GroupDocs.Parser segítségével?
Igen, a GroupDocs.Parser lehetővé teszi képek, metaadatok és szövegek kinyerését a dokumentumokból.
Hogyan kaphatok támogatást a GroupDocs.Parser számára?
Támogatást kaphat aGroupDocs.Parser fórum.