Rozpoznávání textu ve specifických oblastech

Úvod

V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k rozpoznání a extrahování textu z konkrétních oblastí v dokumentu. GroupDocs.Parser je výkonná knihovna pro analýzu dokumentů, která umožňuje vývojářům pracovat s různými formáty dokumentů, včetně PDF, Wordu, Excelu, PowerPointu a dalších. Konkrétně se zaměříme na využití možností OCR (Optical Character Recognition) GroupDocs.Parser k extrahování textu z definovaných oblastí v dokumentu.

Předpoklady

Než začneme, ujistěte se, že máte nastaveny následující předpoklady:

  1. Visual Studio IDE: Ujistěte se, že máte na počítači nainstalované Visual Studio.
  2. GroupDocs.Parser for .NET: Stáhněte a nainstalujte GroupDocs.Parser for .NET zodkaz ke stažení.
  3. Ukázky dokumentů: Připravte si ukázkové soubory (např. PDF, DOCX), ze kterých chcete extrahovat text.

Import jmenných prostorů

Chcete-li začít, importujte do projektu potřebné jmenné prostory:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Pojďme si tento proces rozdělit do podrobných kroků pomocí GroupDocs.Parser pro .NET:

Krok 1: Vytvořte nastavení analyzátoru pomocí konektoru OCR

Nejprve vytvořte instanciParserSettingstřídy a inicializujte jej pomocí OCR konektoru, jako je napřAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Krok 2: Instanciujte analyzátor s nastavením

Dále vytvořte instanciParser třídy předáním dříve vytvořenéhoParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Fragment kódu pokračuje...
}

Nahradit"YourSampleFile.pdf" s cestou k cílovému dokumentu.

Krok 3: Nakonfigurujte možnosti extrakce textové oblasti

Vytvořte instanciPageTextAreaOptions pro povolení extrakce textu na základě OCR:

PageTextAreaOptions options = new PageTextAreaOptions(true);

Soubortrue pro aktivaci OCR pro lepší rozpoznání textu.

Krok 4: Extrahujte textové oblasti

Vyvolatparser.GetTextAreas(options) extrahování textových oblastí z dokumentu:

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Krok 5: Zpracujte extrahované textové oblasti

Iterujte extrahované textové oblasti a načtěte informace o textu, poloze a velikosti:

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Závěr

V tomto tutoriálu jsme se zabývali procesem extrahování textu z konkrétních oblastí v dokumentu pomocí GroupDocs.Parser for .NET s funkcemi OCR. Pomocí těchto kroků můžete efektivně využít funkce analýzy GroupDocs.Parser k programovému zpracování úloh extrakce textu.

FAQ

Může GroupDocs.Parser extrahovat text z naskenovaných dokumentů?

Ano, GroupDocs.Parser podporuje OCR pro extrahování textu z naskenovaných obrázků v dokumentech.

Jaké formáty dokumentů podporuje GroupDocs.Parser?

GroupDocs.Parser podporuje širokou škálu formátů, včetně PDF, DOCX, XLSX, PPTX, TXT a dalších.

Je GroupDocs.Parser vhodný pro dávkové zpracování dokumentů?

Ano, GroupDocs.Parser dokáže efektivně zvládnout úlohy dávkového zpracování pro analýzu a extrakci dokumentů.

Mohu upravit možnosti extrakce textu pomocí GroupDocs.Parser?

Ano, GroupDocs.Parser nabízí různé možnosti přizpůsobení extrakce textu na základě konkrétních požadavků.

Poskytuje GroupDocs.Parser podporu pro extrahování metadat z dokumentů?

Ano, GroupDocs.Parser umožňuje extrakci metadat, jako je autor, datum vytvoření a další, z podporovaných formátů dokumentů.