LG AI연구원, 북미전산언어학회 최고논문상

  • 동아일보
  • 입력 2025년 5월 1일 03시 00분


코멘트

생성형 AI 성능 평가 ‘빅젠 벤치’ 개발
NAACL 1400여편 논문중에서 선정

LG 인공지능(AI)연구원이 자연어처리(NLP) 분야의 3대 학회 중 하나로 꼽히는 북미전산언어학회(NAACL)에서 최고논문상을 수상했다고 30일 밝혔다.

LG AI연구원이 수상한 최고논문상은 올해 NAACL에 채택된 1400여 편의 논문 가운데 하나의 논문만 선정해 주는 상이다. LG AI연구원은 생성형 AI 모델의 성능을 평가하는 ‘빅젠 벤치’를 개발해 이 상을 수상했다. 논문 1저자인 김승원 카네기멜런대 박사과정 연구생을 비롯해 이문태 LG AI연구원 초지능랩장, 이경재 데이터스쿼드 리더, 서민준 KAIST 교수 연구팀 등이 연구에 참여했다.

기존 생성형 AI 모델 평가 방식은 ‘유용성’, ‘무해성’과 같은 추상적 지표를 기준으로 해 실제 사용자가 체감하는 성능과 평과 결과의 괴리가 있을 수 있다. 빅젠 벤치는 이를 보완해 AI가 갖춰야 할 역량을 지시 사항 수행, 논리적 추론, 도구 사용 능력, 안전성, 다양한 언어·문화적 맥락 이해 등 9가지로 분류하고 77개의 세부 역할의 수행 능력을 평가하는 765개의 문항을 만들었다. 실제 AI를 사용하는 사람들의 평가 방식을 모방한 것이다.

LG AI연구원은 “빅젠 벤치로 103개의 AI를 평가한 결과 전문가 집단의 평가와 교차 검증에서 높은 수준의 신뢰도와 타당도를 보였다”고 밝혔다.

#빅젠 벤치#LG#AI연구원#북미전산언어학회 최고논문상
© dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스