3B VLM 기반 문서 인식

문서의 구조를
완벽하게 이해하다

레이아웃 분석부터 텍스트 추출, SVG 변환까지. 어떤 언어, 어떤 문서든 하나의 모델로 파싱합니다.

core-ocr parse output
<title>
AI 현황 보고서 2025
</title>
<table>
I. AI와 사회 변화 ···· 4
II. 주류 연구방향 ··· 22
III. AI 플레이어 ···· 36
</table>
파싱 완료
12페이지 · 3.2초
3B
파라미터
100+
지원 언어
8
파싱 모드
17
tok/s (MPS)

하나의 모델, 여섯 가지 능력

3B 파라미터 비전-언어 모델이 다양한 문서 인식 작업을 처리합니다.

문서 레이아웃

표, 수식, 그림 등 복잡한 레이아웃을 정확하게 감지하고 구조화된 JSON으로 출력합니다.

텍스트 추출

한국어, 영어, 중국어, 일본어 등 세계 모든 언어의 텍스트를 정확하게 인식합니다.

이미지→SVG

차트, 다이어그램, 로고 등 구조화된 그래픽을 편집 가능한 SVG 벡터로 변환합니다.

장면 텍스트

간판, 포스터, 사진 속 자연 환경의 텍스트를 감지하고 인식합니다.

웹페이지 파싱

웹 스크린샷에서 UI 구성요소와 레이아웃 구조를 분석합니다.

일반 질의응답

이미지에 대한 자유로운 질문에 AI가 답변합니다. 문서 요약, 분석 등.

01

업로드

이미지 또는 PDF 파일을 드래그 앤 드롭하거나 선택합니다.

02

파싱 모드 선택

레이아웃 분석, 텍스트 추출, SVG 변환 등 목적에 맞는 모드를 선택합니다.

03

결과 확인

레이아웃 시각화와 마크다운 결과를 나란히 비교하며 확인합니다.