알베르 까뮈의 소설 ‘이방인’ 첫 문장을 오디오북으로 들어봤다. 마치 죽음의 의미를 곱씹듯 착 가라앉은 목소리가 분위기를 압도했다. 그런데 이 목소리는 성우가 읽은 게 아니다. 인공지능(AI)이 만든 목소리다.
최근 ‘듣는 독서’가 진화하고 있다. 텍스트를 자동으로 읽어주는 TTS(Text-To-Speech)와 AI가 결합하면서부터다. TTS는 일찍이 시각장애인이나 약시자 등을 돕기 위해 도입된 기술. 기존 TTS가 다소 기계음의 느낌이 강했다면, AI TTS는 사람이 읽는 것처럼 자연스럽고 휴지(休止)도 둔다. 취향에 따라 음색도 고를 수 있다.
● AI TTS로 ‘이방인’ 들어보니
최근 출판계는 AI 업계와 손잡고 AI TTS를 속속 도입하고 있다. 온라인서점 알라딘과 예스24, 전자책 플랫폼 밀리의 서재, 리디, 윌라 등이 현재 AI TTS를 제공한다. AI TTS를 기존 TTS와 비교해 보기 위해 ‘이방인’을 두 버전으로 모두 들어봤다. 차이는 확연했다. 기존 TTS는 ‘죽었다’는 단어에 아무 감정의 깊이가 담기지 않았다. 반면 AI TTS는 쉼표와 마침표에서 확실히 한번 쉬어가는 게 느껴졌다. 3개 문장을 충분히 띄어서 읽다 보니 도입부의 충격을 곱씹는 데 도움이 됐다.
하지만 문장이 길어지면 AI TTS도 살짝 ‘기계 티’가 났다. 황인찬 시인의 시 ‘밝은 방’을 AI TTS로 들어보면 더 확연히 느껴진다.
“사진사는 말한다 눈을 크게 뜨라고 하지만 나는 대답한다 이게 다 뜬 거예요”
독자들은 이 구절이 사진사와 ‘나’의 문답이며, 쉼표와 마침표가 없어도 띄어 읽어야 한다는 것을 자연스럽게 인지한다. 하지만 AI TTS는 통으로 붙여 읽었다. 사투리에도 약했다. 특유의 억양을 생략한 채 표준어처럼 읽었다. 한 전자책 업계 관계자는 “AI TTS가 아직 의미를 구별하는 데는 한계가 있다”며 “우리는 ‘세계보건기구(WHO)’라고 하면 WHO가 세계보건기구의 약자라는 걸 알지만, AI TTS로 돌리면 ‘후’라고 읽는다. 회사 이름 ‘3M’도 ‘3미터’라고 읽는 식”이라고 했다.
전문 성우를 대체하기는 여전히 역부족이다. 한 전자책 업계 관계자는 “AI TTS로 한 2시간 듣다 보면 알 수 없는 피로가 쌓인다”며 “성우라는 직업이 괜히 있는 게 아니다”라고 했다.
● 다가온 ‘듣는 독서’의 시대
보완할 점들이 적지 않지만, AI TTS는 산업적인 측면에서 ‘듣는 독서’의 시대를 성큼 앞당길 가능성이 크다. 제작 비용이나 시간을 대폭 줄일 수 있기 때문이다. AI TTS는 전자책 파일만 있으면 바로 적용할 수 있다. 지난달 29일부터 AI TTS를 도입한 예스24는 보유한 전자책(150만 권)의 70%가량(104만 권)을 바로 AI TTS로 들을 수 있도록 했다.
밀리의 서재 관계자는 “특히 경제경영서는 종이책을 출간하면서 전자책을 같이 공개하는 경우가 많다”며 “AI TTS 등을 도입하면 비용적으로도 효율성이 높다. 독자들 역시 새로운 콘텐츠를 빠르게 접할 수 있게 된다”고 말했다. 예스24 관계자는 “현재 명확하고 신뢰를 주는 ‘진우’, 밝고 다정한 ‘이나’ 등 6가지 AI 목소리를 제공하고 있다”며 “진우는 경제경영 서적에서, 이나는 2030세대를 타깃으로 에세이에서 반응이 좋다”고 했다.
AI TTS가 보편화되면 1인 창작자들도 손쉽게 오디오북을 낼 수 있다. 실제로 자가출판 플랫폼 ‘부크크’는 AI 전문 기업 ‘셀바스AI’와 협업해 1인 창작자들에게 셀프 오디오북을 만들 수 있게 지원하고 있다. 자신의 목소리 샘플을 녹음하면 음색과 말투를 복제해 오디오북을 만들어 주는 사이트도 등장했다.
다만 저작권 및 권리관계는 큰 숙제다. 6월 서울고등법원은 윌라가 배타적 오디오북 발행권을 가진 도서 6권에 밀리의 서재가 TTS 기능을 제공한 것에 대해 저작권 침해에 해당한다고 판결했다. 현재 대법원 판단을 기다리고 있다. 한 전자책 업계 관계자는 “AI TTS 기술을 개발할 때 사람의 목소리가 데이터로 학습된다”며 “성우들의 목소리 저작권도 새로운 화두가 될 것”이라고 내다봤다.
댓글 0