LG, 문서-이미지 추론 ‘엑사원 4.5’ 공개… 성능 GPT-5 미니 앞서

동아일보

이민아 기자

계약서-재무제표 분석 등 강점

LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론할 수 있는 멀티모달 인공지능(AI) 모델 ‘엑사원 4.5’를 공개했다고 9일 밝혔다. 멀티모달은 텍스트, 이미지, 음성, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 AI다.

엑사원 4.5는 자체 개발한 비전 인코더와 거대언어모델(LLM)을 결합해 글과 이미지를 함께 이해할 수 있다. 계약서나 기술 도면, 재무제표처럼 실제 산업 현장에서 쓰이는 복잡한 자료를 읽고 분석하는 데 강점이 있다. LG AI연구원은 이번 모델이 독자 파운데이션 모델인 ‘K-엑사원’이 향후 더 다양한 형태의 데이터를 처리할 수 있도록 하는 발전 단계라고 설명했다.

성능 측면에서도 경쟁력을 입증했다. 과학·기술·공학·수학(STEM) 분야 5개 지표 평균 점수는 77.3점으로, 오픈AI ‘GPT-5 미니’(73.5점)와 앤스로픽 ‘클로드 소넷 4.5’(74.6점), 알리바바 ‘큐웬3’(77.0점)를 웃돌았다. 13개 시각 능력 평가 지표 평균 점수에서도 GPT-5 미니와 클로드 소넷 4.5 등을 상회했다. LG AI연구원은 “AI가 이미지와 텍스트의 맥락을 함께 이해하고 질문에 답할 수 있는 수준에 도달한 것”이라고 설명했다.