한국전자통신연구원(ETRI)이 생성형 AI와 시각 지능 기술을 결합해 2초 안에 문장을 이미지화하는 기술을 26일 공개했다.
ETRI가 공개한 기술은 기존 이미지 생성 오픈 AI ‘달리(DALL-E) 3’보다 5배 빠른 ‘코알라(KOALA)’ 3종과 이미지·영상을 통한 질의응답이 가능한 대화형 시각 언어모델 ‘코라바(Ko-LLaVA)’ 2종이다.
먼저 코알라모델은 기존 오픈 AI에서 25억 개 규모로 사용되던 파라미터를 첨단 딥러닝 기술 ‘지식 증류’를 통해 7억 개 수준으로 줄인 모델이다.
파라미터 수가 늘어나면 연산할 수 있는 범위가 넓어지지만, 연산량이 많기에 시간이 오래 걸린다는 단점이 존재했다.
이에 ETRI 연구진은 같은 연산 능력을 갖추면서도 모델 크기를 1/3으로 축소해 고해상도 이미지 처리에서 ‘달리 3’보다 5배 더 빠른 속력을 얻을 수 있었다.
또 ETRI는 모델 생성 속도를 2초 내외로 만들어 막대한 메모리가 필요했던 AI 모델은 8GB(기가바이트) 규모의 저용량 메모리 GPU에서도 구동할 수 있게 했다고 설명했다.
아울러 연구진은 챗-GPT 같은 대화형 인공지능에 시각 지능 기술을 더해 이미지나 비디오를 불러와 한국어로 해당 정보에 대해 질의응답 할 수 있는 대화형 시각 언어모델인 '코라바'(Ko-LLaVA)를 공개했다.
코라바에는 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 탑재된 것으로 알려졌다.
연구진은 향후 생성형 인공지능이 문장 위주의 모델에서 점차 사진이나 영상을 문장으로, 문장에서 이미지나 비디오로 응답해주는 유형 등 멀티모달 모델로 변화가 이뤄질 것으로 예상했다.
향후 ETRI는 해당 기술을 이미지 생성·창작 교육 서비스, 콘텐츠 제작 및 사업자 등에 이전할 계획이다.
ETRI 이용주 시각지능연구실장은 "향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획"이라고 말했다.
이어 "거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정"이라고 덧붙였다.