Rozpoznawanie tekstu
Wstęp
W dziedzinie programowania .NET najważniejsza jest wydajna ekstrakcja tekstu z różnych formatów dokumentów. GroupDocs.Parser dla .NET zapewnia solidne rozwiązanie do płynnego wyodrębniania tekstu. W tym samouczku omówimy krok po kroku używanie narzędzia GroupDocs.Parser do rozpoznawania i wyodrębniania tekstu z dokumentów.
Warunki wstępne
Zanim zaczniemy korzystać z GroupDocs.Parser, upewnij się, że spełniasz następujące wymagania wstępne:
- Podstawowa znajomość programowania w języku C#
- Program Visual Studio zainstalowany na Twoim komputerze
- Dostęp do Internetu w celu pobrania pakietów i odniesień do dokumentacji
Importuj przestrzenie nazw
Rozpocznij od zaimportowania niezbędnych przestrzeni nazw, aby wykorzystać funkcje GroupDocs.Parser:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Krok 1: Zainstaluj GroupDocs.Parser
Najpierw pobierz i zainstaluj bibliotekę GroupDocs.Parser. Można go nabyć odlink do pobrania.
Krok 2: Zdobądź licencję tymczasową
Aby korzystać z GroupDocs.Parser, uzyskaj tymczasową licencję odTutaj.
Krok 3: Inicjowanie ustawień parsera
Utwórz instancjęParserSettings
class, aby skonfigurować ustawienia wyodrębniania tekstu, w tym w razie potrzeby łączniki OCR.
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Krok 4: Używanie parsera do wyodrębniania tekstu
Teraz utwórz instancjęParser
class ze skonfigurowanymi ustawieniami.
using (Parser parser = new Parser("YourSampleFile.docx", settings))
{
// Skonfiguruj opcje TextOptions do użycia OCR
TextOptions options = new TextOptions(false, true);
// Wyodrębnij tekst za pomocą OCR
using (TextReader reader = parser.GetText(options))
{
// Wyświetl wyodrębniony tekst lub komunikat „nieobsługiwany”.
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
W tym fragmencie:
- Zastępować
"YourSampleFile.docx"
ze ścieżką do dokumentu docelowego. TextOptions
jest skonfigurowany tak, aby umożliwić OCR i zoptymalizować ekstrakcję tekstu.
Wniosek
Gratulacje! Nauczyłeś się, jak zintegrować GroupDocs.Parser for .NET ze swoimi projektami, aby efektywnie wyodrębniać tekst. Poznaj rozległedokumentacja dla zaawansowanych funkcji i optymalizacji.
Często zadawane pytania
Czy GroupDocs.Parser nadaje się do wyodrębniania tekstu z plików PDF?
Tak, GroupDocs.Parser obsługuje wyodrębnianie tekstu z różnych formatów, w tym PDF.
Czy mogę zintegrować GroupDocs.Parser z moją aplikacją ASP.NET?
Oczywiście GroupDocs.Parser można bezproblemowo zintegrować z aplikacjami ASP.NET.
Czy GroupDocs.Parser wymaga licencji do użytku komercyjnego?
Tak, do użytku komercyjnego wymagana jest licencja. Zdobądź licencję tymczasowąTutaj.
Jakie formaty dokumentów są obsługiwane przez GroupDocs.Parser?
GroupDocs.Parser obsługuje szeroką gamę formatów, w tym DOCX, PDF, XLSX i inne.
Jak mogę uzyskać pomoc lub zadać pytania związane z GroupDocs.Parser?
OdwiedzićForum GroupDocs.Parserza wsparcie i dyskusje.