Rozpoznawanie tekstu

Wstęp

W dziedzinie programowania .NET najważniejsza jest wydajna ekstrakcja tekstu z różnych formatów dokumentów. GroupDocs.Parser dla .NET zapewnia solidne rozwiązanie do płynnego wyodrębniania tekstu. W tym samouczku omówimy krok po kroku używanie narzędzia GroupDocs.Parser do rozpoznawania i wyodrębniania tekstu z dokumentów.

Warunki wstępne

Zanim zaczniemy korzystać z GroupDocs.Parser, upewnij się, że spełniasz następujące wymagania wstępne:

  • Podstawowa znajomość programowania w języku C#
  • Program Visual Studio zainstalowany na Twoim komputerze
  • Dostęp do Internetu w celu pobrania pakietów i odniesień do dokumentacji

Importuj przestrzenie nazw

Rozpocznij od zaimportowania niezbędnych przestrzeni nazw, aby wykorzystać funkcje GroupDocs.Parser:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Krok 1: Zainstaluj GroupDocs.Parser

Najpierw pobierz i zainstaluj bibliotekę GroupDocs.Parser. Można go nabyć odlink do pobrania.

Krok 2: Zdobądź licencję tymczasową

Aby korzystać z GroupDocs.Parser, uzyskaj tymczasową licencję odTutaj.

Krok 3: Inicjowanie ustawień parsera

Utwórz instancjęParserSettingsclass, aby skonfigurować ustawienia wyodrębniania tekstu, w tym w razie potrzeby łączniki OCR.

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Krok 4: Używanie parsera do wyodrębniania tekstu

Teraz utwórz instancjęParser class ze skonfigurowanymi ustawieniami.

using (Parser parser = new Parser("YourSampleFile.docx", settings))
{
    // Skonfiguruj opcje TextOptions do użycia OCR
    TextOptions options = new TextOptions(false, true);
    // Wyodrębnij tekst za pomocą OCR
    using (TextReader reader = parser.GetText(options))
    {
        // Wyświetl wyodrębniony tekst lub komunikat „nieobsługiwany”.
        Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
    }
}

W tym fragmencie:

  • Zastępować"YourSampleFile.docx" ze ścieżką do dokumentu docelowego.
  • TextOptions jest skonfigurowany tak, aby umożliwić OCR i zoptymalizować ekstrakcję tekstu.

Wniosek

Gratulacje! Nauczyłeś się, jak zintegrować GroupDocs.Parser for .NET ze swoimi projektami, aby efektywnie wyodrębniać tekst. Poznaj rozległedokumentacja dla zaawansowanych funkcji i optymalizacji.

Często zadawane pytania

Czy GroupDocs.Parser nadaje się do wyodrębniania tekstu z plików PDF?

Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu z różnych formatów, w tym PDF.

Czy mogę zintegrować GroupDocs.Parser z moją aplikacją ASP.NET?

Oczywiście GroupDocs.Parser można bezproblemowo zintegrować z aplikacjami ASP.NET.

Czy GroupDocs.Parser wymaga licencji do użytku komercyjnego?

Tak, do użytku komercyjnego wymagana jest licencja. Zdobądź licencję tymczasowąTutaj.

Jakie formaty dokumentów są obsługiwane przez GroupDocs.Parser?

GroupDocs.Parser obsługuje szeroką gamę formatów, w tym DOCX, PDF, XLSX i inne.

Jak mogę uzyskać pomoc lub zadać pytania związane z GroupDocs.Parser?

OdwiedzićForum GroupDocs.Parserza wsparcie i dyskusje.