Rozpoznávání textu ve specifických oblastech
Úvod
V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k rozpoznání a extrahování textu z konkrétních oblastí v dokumentu. GroupDocs.Parser je výkonná knihovna pro analýzu dokumentů, která umožňuje vývojářům pracovat s různými formáty dokumentů, včetně PDF, Wordu, Excelu, PowerPointu a dalších. Konkrétně se zaměříme na využití možností OCR (Optical Character Recognition) GroupDocs.Parser k extrahování textu z definovaných oblastí v dokumentu.
Předpoklady
Než začneme, ujistěte se, že máte nastaveny následující předpoklady:
- Visual Studio IDE: Ujistěte se, že máte na počítači nainstalované Visual Studio.
- GroupDocs.Parser for .NET: Stáhněte a nainstalujte GroupDocs.Parser for .NET zodkaz ke stažení.
- Ukázky dokumentů: Připravte si ukázkové soubory (např. PDF, DOCX), ze kterých chcete extrahovat text.
Import jmenných prostorů
Chcete-li začít, importujte do projektu potřebné jmenné prostory:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Pojďme si tento proces rozdělit do podrobných kroků pomocí GroupDocs.Parser pro .NET:
Krok 1: Vytvořte nastavení analyzátoru pomocí konektoru OCR
Nejprve vytvořte instanciParserSettings
třídy a inicializujte jej pomocí OCR konektoru, jako je napřAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Krok 2: Instanciujte analyzátor s nastavením
Dále vytvořte instanciParser
třídy předáním dříve vytvořenéhoParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// Fragment kódu pokračuje...
}
Nahradit"YourSampleFile.pdf"
s cestou k cílovému dokumentu.
Krok 3: Nakonfigurujte možnosti extrakce textové oblasti
Vytvořte instanciPageTextAreaOptions
pro povolení extrakce textu na základě OCR:
PageTextAreaOptions options = new PageTextAreaOptions(true);
Soubortrue
pro aktivaci OCR pro lepší rozpoznání textu.
Krok 4: Extrahujte textové oblasti
Vyvolatparser.GetTextAreas(options)
extrahování textových oblastí z dokumentu:
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Krok 5: Zpracujte extrahované textové oblasti
Iterujte extrahované textové oblasti a načtěte informace o textu, poloze a velikosti:
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Závěr
V tomto tutoriálu jsme se zabývali procesem extrahování textu z konkrétních oblastí v dokumentu pomocí GroupDocs.Parser for .NET s funkcemi OCR. Pomocí těchto kroků můžete efektivně využít funkce analýzy GroupDocs.Parser k programovému zpracování úloh extrakce textu.
FAQ
Může GroupDocs.Parser extrahovat text z naskenovaných dokumentů?
Ano, GroupDocs.Parser podporuje OCR pro extrahování textu z naskenovaných obrázků v dokumentech.
Jaké formáty dokumentů podporuje GroupDocs.Parser?
GroupDocs.Parser podporuje širokou škálu formátů, včetně PDF, DOCX, XLSX, PPTX, TXT a dalších.
Je GroupDocs.Parser vhodný pro dávkové zpracování dokumentů?
Ano, GroupDocs.Parser dokáže efektivně zvládnout úlohy dávkového zpracování pro analýzu a extrakci dokumentů.
Mohu upravit možnosti extrakce textu pomocí GroupDocs.Parser?
Ano, GroupDocs.Parser nabízí různé možnosti přizpůsobení extrakce textu na základě konkrétních požadavků.
Poskytuje GroupDocs.Parser podporu pro extrahování metadat z dokumentů?
Ano, GroupDocs.Parser umožňuje extrakci metadat, jako je autor, datum vytvoření a další, z podporovaných formátů dokumentů.