Rozpoznávání textu v pravoúhlých oblastech

Úvod

V tomto tutoriálu prozkoumáme, jak používat GroupDocs.Parser pro .NET k rozpoznání textu v konkrétních obdélníkových oblastech dokumentů. GroupDocs.Parser je výkonná knihovna, která umožňuje vývojářům extrahovat text, metadata a další z různých formátů souborů, včetně PDF, Wordu, Excelu a PowerPointu.

Předpoklady

Než začneme, ujistěte se, že máte následující nastavení:

  • GroupDocs.Parser for .NET: Stáhněte a nainstalujte knihovnu ztady.
  • Vývojové prostředí: Visual Studio nebo jakékoli jiné .NET IDE.
  • Vzorový dokument: Mějte vzorový soubor (např. PDF, DOCX), který obsahuje text, který má být rozpoznán.

Import jmenných prostorů

Nejprve budete muset importovat potřebné jmenné prostory do kódu C#:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Inicializujte nastavení analyzátoru

Začněte nastavenímParserSettings s konektorem OCR. Zde použijeme on-premise konektor Aspose OCR:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Krok 2: Vytvořte instanci analyzátoru

Dále vytvořte instanciParser třída s dříve definovaným nastavením:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Kód pokračuje zde
}

Nahradit"YourSampleFile.pdf" s cestou k vašemu dokumentu.

Krok 3: Definujte obdélník OCR

Definujte v dokumentu obdélník, kde se bude provádět rozpoznávání textu. Například obdélník začínající na(0, 0) se šířkou400 a výška200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

Krok 4: Nakonfigurujte možnosti rozpoznávání textu

VytvořitTextOptions k určení použití OCR spolu s definovaným obdélníkem:

TextOptions options = new TextOptions(false, true, ocrOptions);

Krok 5: Extrahujte text pomocí OCR

PoužijteGetText metodaParser instance s nakonfigurovanýmTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Přečtěte si extrahovaný text nebo zpracujte případ „nepodporováno“.
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Závěr

tomto kurzu jsme si ukázali, jak využít GroupDocs.Parser pro .NET k extrahování textu z konkrétních obdélníkových oblastí v dokumentech pomocí OCR. Tento proces lze dále přizpůsobit a integrovat do různých aplikací pro úlohy automatizované extrakce textu.

FAQ

Může GroupDocs.Parser extrahovat text z naskenovaných dokumentů?

Ano, GroupDocs.Parser podporuje OCR (Optical Character Recognition) pro extrahování textu z naskenovaných dokumentů.

Jaké formáty souborů podporuje GroupDocs.Parser?

GroupDocs.Parser podporuje širokou škálu formátů souborů, včetně PDF, DOCX, XLSX, PPTX a dalších.

Jak mohu zpracovat dokumenty, které nejsou podporovány pro extrakci textu?

Můžete zkontrolovat, zda je extrakce textu podporována pomocíTextReader instance vrácená uživatelemparser.GetText(options).

Je GroupDocs.Parser vhodný pro rozsáhlé úlohy extrakce textu?

Ano, GroupDocs.Parser je navržen tak, aby efektivně zvládal rozsáhlé úlohy extrakce textu.

Kde mohu získat podporu pro problémy související s GroupDocs.Parser?

Pro podporu a diskuse navštivteFórum GroupDocs.Parser.