섹션

한동대 "감정표현 노래음성 합성 AI 개발", 세계 최초 개발

한동대에서 감정이 실린 표현이 가능한 다중화자 노래·음성 합성 AI(인공지능)를 개발했다고 2일 밝혔다.

노래·음성 합성이란 미리 입력된 악보를 분석하여 사람의 목소리를 악보에 맞게 생산하는 인공지능 기술이다.

노래를 부르는 사람의 목소리 합성은 기존의 인공지능도 일부분 가능한 영역이었으나 감정적 표현은 할 수 없어 실제 노래와는 큰 괴리감이 있었다.

한동대가 ‘뮤즈 SVS’라고 이름 붙인 노래·음성 합성 AI는 악보와 함께 화자나 감정 등 다양한 세부 설정을 입력하면 그에 맞는 음성을 자연스럽게 합성할 수 있다.

이렇게 감정표현 능력이 추가된 다중화자 노래·음성 합성 AI를 개발한 것은 세계 최초라고 학교 측은 밝혔다.

또 현재는 몇 가지 감정적인 옵션을 선택하여 생산하는 수준의 단계이지만 향후 개발이 진행됨에 따라 더 다양하고 미묘한 차이를 구현할 수 있도록 개발을 이어나갈 전망이다.

‘뮤즈 SVS’는 세계적 음성처리 분야 학술지인 국제전기전자공학회(IEEE)/컴퓨터학회(ACM) '소리·음성·언어처리 트랜잭션(TASLP)'에 발표됐다.

한동대 딥러닝연구실 지도교수인 김인중 교수는 "뮤즈SVS는 미세한 변화를 효과적으로 학습해 지정된 감정 종류와 강도에 따라 다르게 합성한다"라고 전했다.

세부 설정에 따라 변화하는 뮤즈 SVS의 인공지능 합성 노래
세부 설정에 따라 변화하는 뮤즈 SVS의 인공지능 합성 노래 [한동대 제공]