계약서-재무제표 분석 등 강점
LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론할 수 있는 멀티모달 인공지능(AI) 모델 ‘엑사원 4.5’를 공개했다고 9일 밝혔다. 멀티모달은 텍스트, 이미지, 음성, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 AI다.
엑사원 4.5는 자체 개발한 비전 인코더와 거대언어모델(LLM)을 결합해 글과 이미지를 함께 이해할 수 있다. 계약서나 기술 도면, 재무제표처럼 실제 산업 현장에서 쓰이는 복잡한 자료를 읽고 분석하는 데 강점이 있다. LG AI연구원은 이번 모델이 독자 파운데이션 모델인 ‘K-엑사원’이 향후 더 다양한 형태의 데이터를 처리할 수 있도록 하는 발전 단계라고 설명했다.
성능 측면에서도 경쟁력을 입증했다. 과학·기술·공학·수학(STEM) 분야 5개 지표 평균 점수는 77.3점으로, 오픈AI ‘GPT-5 미니’(73.5점)와 앤스로픽 ‘클로드 소넷 4.5’(74.6점), 알리바바 ‘큐웬3’(77.0점)를 웃돌았다. 13개 시각 능력 평가 지표 평균 점수에서도 GPT-5 미니와 클로드 소넷 4.5 등을 상회했다. LG AI연구원은 “AI가 이미지와 텍스트의 맥락을 함께 이해하고 질문에 답할 수 있는 수준에 도달한 것”이라고 설명했다.
이민아 기자 omg@donga.com
© dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
댓글 0