하나의 모델, 여섯 가지 능력
3B 파라미터 비전-언어 모델이 다양한 문서 인식 작업을 처리합니다.
문서 레이아웃
표, 수식, 그림 등 복잡한 레이아웃을 정확하게 감지하고 구조화된 JSON으로 출력합니다.
텍스트 추출
한국어, 영어, 중국어, 일본어 등 세계 모든 언어의 텍스트를 정확하게 인식합니다.
이미지→SVG
차트, 다이어그램, 로고 등 구조화된 그래픽을 편집 가능한 SVG 벡터로 변환합니다.
장면 텍스트
간판, 포스터, 사진 속 자연 환경의 텍스트를 감지하고 인식합니다.
웹페이지 파싱
웹 스크린샷에서 UI 구성요소와 레이아웃 구조를 분석합니다.
일반 질의응답
이미지에 대한 자유로운 질문에 AI가 답변합니다. 문서 요약, 분석 등.