섹션

네이버, AI 이미지·음성 처리 서비스 개발

네이버가 자사의 AI 에이전트 ‘클로바X’를 활용해 서비스 범위를 확장한다.

네이버는 오는 27일 서비스 업데이트를 통해 클로바X에 시각 정보 처리 능력과 음성 합성 기술을 도입한다고 22일 밝혔다.

이를 통해 대형언어모델(LLM) ‘하이퍼클로바 X’를 멀티모달 AI로 고도화하고 시장 경쟁력을 높인다는 목표다.

먼저 클로바X의 이미지 이해 기능은 사용자가 대화창에 업로드한 이미지에서 정보를 추출해 사용자와 대화할 수 있는 수준으로 적용됐다.

특히 사진 속 현상을 묘사하거나 상황을 추론하는 등 다양한 지시를 수행할 수 있는데, 예를 들어 이미지나 그림 형식으로 되어있는 표·그래프를 이해하고 분석할 수 있다.

네이버는 기존 클로바X의 장점이던 논리적 글쓰기와 코드 작성, 번역 등의 작업에 이미지 처리 능력이 더해지면서 개인의 생산성을 더욱 효과적으로 향상할 수 있을 것으로 기대했다.

시각 이미지를 이해하고 대화하는 '하이퍼클로바X' [네이버 제공]
시각 이미지를 이해하고 대화하는 '하이퍼클로바X' [네이버 제공]

또 이를 하이퍼클로바X에 결합하면서 문제 해결 능력이 더욱 향상돼 초·중·고등학교 검정고시 1480개 문항 중 84%의 정답률을 기록했다.

이는 오픈AI의 최신 LLM ‘GPT-4o’의 정답률 78%보다 더 높은 수치다.

한편 기존에도 음성 인식·합성 기술이 있었으나, 이번 업데이트로 문맥 이해 및 지시문 해석 능력이 향상돼 언어 발음 정확도가 개선되고 더욱 자연스러운 감정 표현이 가능해졌다.

향후 네이버는 하이퍼클로바X를 멀티모달 LLM으로 고도화하면서 AI 안정성 강화도 동시에 수행할 방침이다.

이를 위해 네이버는 지난 6월 AI 안전성 실천 체계 ‘네이버 ASF’를 공개하며 AI 시스템의 잠재적 위험을 평가하고 예방하는 업데이트를 진행한 바 있다.

네이버클라우드 성낙호 AI 기술 총괄은 “하이퍼클로바X는 앞으로 이미지 이해 능력을 더한 거대 시각 언어 모델, 나아가 음성 멀티모달 언어 모델로 발전할 것”이라고 강조했다.

이어 “발전된 AI 능력을 더 많은 네이버 서비스에 도입해 새로운 사용자 가치를 창출하고, 기업용 AI 솔루션으로도 제공할 방침이다”라고 덧붙였다.