섹션

미디어젠·ETRI, 초고속 음성인식 시스템 ‘AIMZformer’ 개발

국내 음성 소프트웨어 솔루션 기업 미디어젠이 최근 한국전자통신연구원(ETRI)와 함께 최첨단 음성인식 시스템을 개발했다고 26일 밝혔다.

해당 시스템은 구글의 E2E 음성인식 시스템인 ‘컨포머(Conformer)’를 벤치마킹한 것으로 컨포머의 성능은 유지하면서도 처리 속도를 약 40% 높이는 기술이다.

ETRI는 개발한 시스템을 현재 ‘AIMZformer’라는 가칭으로 부르고 있으며, 성능 테스트 프로그램 LJSpeech 데이터셋을 통해 검증을 거쳤다고 밝혔다.

실험결과 구글의 컨포머가 CER 4.8%, WER 19.6%의 성능이고, ‘AIMZformer’는 CER 4.8%, WER 19.2%로 비슷하거나 약간의 향상을 나타냈다.

CER과 WER은 음성 시스템의 완성도를 판단하는 분석 지표이며, 먼저 CER은 원래 음성 문자와 컴퓨터가 인지한 음성 문자 사이의 오류 비율을 나타내는 지표이다.

이는 인식된 문자열에서 잘못된 문자의 개수를 총 문자의 개수로 나눈 비율로 계산되고, 예를 들어 ‘can’을 ‘man’으로 인식했을 경우 CER은 1/3인 33%가 된다.

미디어젠과 ETRI가 개발한 초고속 음성인식 시스템 구조도
미디어젠과 ETRI가 개발한 초고속 음성인식 시스템 구조도 [미디어젠 제공]

이어 WER은 단순 문자를 넘어 문장 속에서 몇 개의 단어에서 오류가 발생했는지를 나타낸다.

이는 인식된 단어열에서 잘못된 단어의 개수를 총 단어의 개수로 나눈 비율로 계산되고, 예를 들어 ‘this apple is red’를 ‘a apple is red’로 인식할 경우 WER은 1/4인 25%가 된다.

한편 구글 컨포머와 비슷한 정확도를 가진 ‘AIMZformer’의 처리 속도는 80ms(밀리초)인 컨모버의 2배인 40ms로 큰 향상을 보이며 학습시간도 약 40% 절약되었다.

미디어젠 윤종성 소장은 “음성인식 성능을 유지하면서도 처리 속도를 크게 높인 자체 컨포머 기술을 통해 음성인식 반응 속도가 불편했던 사용자들의 만족도를 제고할 수 있을 것”이라고 밝혔다.

이어 “향후 음성인식 기술이 활용되는 사업 전반의 속도 개선을 기대한다”라고 전했다.