딥시크 훈련 방식 네이처에 공개
인간 지도없이 스스로 ‘강화 학습’
자기 검증하며 고차원 추론 진화
중국 대형언어모델(LLM) 개발사 딥시크 로고.
사진 출처 딥시크 홈페이지
저비용·고효율 대형언어모델(LLM)을 구현해 올해 초 전 세계를 놀라게 한 중국의 인공지능(AI) 모델 ‘딥시크-R1’의 훈련 방식이 공개됐다. 딥시크는 사람이 만든 학습 샘플 없이 순수 강화 학습(reinforcement learning)만으로 추론 능력을 향상시킨 것으로 나타났다. 인간의 개입을 크게 줄이면서도 복잡한 문제 해결 능력을 강화했다는 점에서 주목된다.
량원펑 연구원을 포함한 딥시크-AI 연구팀은 딥시크의 구체적인 훈련 방식을 국제학술지 ‘네이처’에 17일(현지 시간) 처음으로 자세히 기술했다. 사실 AI가 사람처럼 문제를 단계적으로 사고하는 능력을 학습시키는 것은 오랫동안 난제였다. 수학이나 코딩 같은 복잡한 문제를 풀 때 AI 모델이 중간 과정을 스스로 만들어 내기 어렵기 때문이다. 사람이 ‘단계별로 생각하라’는 지시를 내리거나 사람이 작성한 추론 예시 데이터를 제공해야 했다. 방대한 계산 자원과 인력 투입이 필요한 방식이다.
딥시크-R1은 이 과정을 바꿨다. 연구진은 모델에 단순히 정답 여부만을 기준으로 보상을 주는 강화 학습 방식을 적용했다. 마치 아이가 게임을 하면서 시행착오를 통해 점수를 얻는 방법을 터득하듯 모델은 수학 문제나 코딩 문제를 풀 때 정답을 맞히면 보상을 받고 틀리면 감점을 받는 구조 속에서 스스로 문제 해결 과정을 발전시켰다. 그 결과 별도의 인간 예시가 없어도 모델이 스스로 추론 단계를 만들어 내는 능력이 나타났다.
실험 결과 딥시크-R1은 미국 중고교 및 수학경시대회 수준 문제로 구성된 대표 AI 평가 시험에서 79.8%의 정확도를 기록했다. 국제 코딩 대회 문제나 생물 물리 화학 등 대학원 수준의 과학 문제에서도 우수한 성적을 보였다.
단순히 정답을 맞히는 데 그치지 않고 문제 해결 과정에서 자기 점검(self-reflection)과 검증, 전략 변경 같은 고차원적 추론 패턴을 스스로 학습하기도 했다. 강화 학습을 통해 모델이 인간 사고 방식과는 다른 독자적인 추론 행동을 만들었다는 점에서 주목된다.
예를 들어 스스로 답안을 검토하며 “잠깐, 여기서 새로운 접근을 떠올렸다”는 식의 중간 표시를 삽입하기도 했다. 연구팀은 “시행착오를 거치며 보상을 극대화하려는 과정에서 자연스럽게 나타난 현상”이라고 설명했다.
이 과정에서 일부 한계도 드러났다. 중국어와 영어를 섞어 쓰거나 추론 과정을 지나치게 길게 늘여 1만 단어 이상으로 이어가는 경우가 나타났다. 또 강화 학습은 수학, 프로그래밍 등 정답이 명확히 검증 가능한 문제에는 효과적이지만 정답이 모호하거나 주관적인 문제에는 적용하기 어렵다는 점도 확인됐다.
이 같은 문제를 해결하기 위해 연구팀은 강화 학습과 감독 학습을 번갈아 적용하는 다단계 훈련 방식을 도입했다. 강화 학습으로 모델의 추론력을 키우되 사람이 만든 데이터를 일정 부분 제공해 응답이 지나치게 복잡해지지 않도록 균형을 맞춘 것이다. 그 결과 수학과 코딩뿐만 아니라 사실 확인 문제와 일반 언어 이해에서도 최첨단 수준의 성능을 달성했다.
딥시크는 현재 중국어와 영어에 최적화됐다. 입력 문구(프롬프트)에 민감하게 반응한다는 한계가 있다. 연구팀은 향후 보상 체계를 정교하게 설계해 모델이 더욱 신뢰할 수 있는 추론 과정을 거치도록 개선하겠다고 밝혔다.
댓글 0