문서에서 서식 있는 텍스트 추출
소개
이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 다양한 유형의 문서에서 서식 있는 텍스트를 추출하는 방법을 살펴보겠습니다. GroupDocs.Parser는 개발자가 간단하고 효율적인 방식으로 문서 작업을 수행할 수 있게 해주는 강력한 라이브러리입니다. 이 가이드를 마치면 텍스트 추출 기능을 .NET 애플리케이션에 원활하게 통합할 수 있게 됩니다.
전제 조건
시작하기 전에 다음 사항이 있는지 확인하세요.
- Visual Studio: 시스템에 Visual Studio가 설치되어 있는지 확인하세요.
- .NET용 GroupDocs.Parser: 다음에서 GroupDocs.Parser 라이브러리를 다운로드하고 설치합니다.여기.
- 문서 샘플: 텍스트 추출을 위한 샘플 문서(예: PDF, DOCX)를 준비합니다.
네임스페이스 가져오기
먼저 C# 코드에 필요한 네임스페이스를 포함합니다.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
1단계: 파서 클래스 인스턴스 생성
초기화부터 시작하세요.Parser
샘플 문서의 경로가 있는 개체입니다.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// 텍스트 추출 코드가 여기에 표시됩니다.
}
바꾸다"YourSampleFile.pdf"
문서 파일의 경로와 함께.
2단계: 서식 있는 텍스트 추출
내using
블록, 사용GetFormattedText
문서에서 서식 있는 텍스트를 추출하는 방법입니다. 다음을 사용하여 원하는 출력 형식(예: HTML)을 지정합니다.FormattedTextOptions
.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// 서식이 지정된 텍스트를 판독기로 추출합니다.
using (TextReader reader = parser.GetFormattedText(new FormattedTextOptions(FormattedTextMode.Html)))
{
// 추출이 지원되는지 확인
if (reader == null)
{
Console.WriteLine("Formatted text extraction isn't supported.");
}
else
{
// 추출된 텍스트 읽기 및 표시
Console.WriteLine(reader.ReadToEnd());
}
}
}
결론
축하해요! .NET용 GroupDocs.Parser를 사용하여 문서에서 서식 있는 텍스트를 추출하는 방법을 배웠습니다. 이 다재다능한 라이브러리는 애플리케이션 내에서 텍스트 처리 및 분석 가능성을 열어줍니다.
FAQ
Q: GroupDocs.Parser는 암호로 보호된 문서에서 텍스트를 추출할 수 있습니까?
A: 예, GroupDocs.Parser는 암호로 보호된 문서에서 텍스트 추출을 지원합니다.
Q: GroupDocs.Parser는 어떤 문서 형식을 지원합니까?
답변: GroupDocs.Parser는 PDF, DOCX, XLSX, PPTX 등을 포함한 광범위한 형식을 지원합니다.
Q: GroupDocs.Parser의 임시 라이센스를 얻으려면 어떻게 해야 합니까?
A: 다음에서 임시 라이센스를 얻을 수 있습니다.여기.
Q: GroupDocs.Parser는 문서에서 이미지 추출을 지원합니까?
A: 예, GroupDocs.Parser는 텍스트 추출과 함께 이미지 추출도 지원합니다.
Q: GroupDocs.Parser에 대한 추가 지원이나 질문은 어디서 찾을 수 있나요?
답: 다음을 방문하세요.GroupDocs.Parser 포럼지원과 토론을 위해.