국내 AI 스타트업 업스테이지가 최근 교육 솔루션 기업 매스프레소, KT와 함께 수학 도메인 특화 언어모델 ‘매스 GPT’를 개발했다고 8일 밝혔다.
이어 업스테이지는 개발 후 진행한 언어모델 수학 능력 평가 테스트에서 ‘매스 GPT’가 마이크로소프트의 수학 AI인 ‘토라 13B’를 뛰어넘는 성적을 나타냈다고 전했다.
매스 GPT는 13억 개의 매개변수를 가져 벤치마크 테스트 평균에서는 챗GPT도 일부 넘어서는 결과를 보였고, 시험 중 ‘MATH’ 벤치마크에서는 GPT-4보다도 성능이 높았다.
MATH 벤치마크 테스트에서 매스GPT는 1점 만점에 0.488점을 받아 130억 매개변수 이하 모델에서 역대 최고점을 기록했다.
한편 같은 시험에서 GPT-4는 0.425점, 챗GPT는 0.355점, 토라 13B는 0.481점, 토라 7B는 0.401점을 기록했다.
이외에도 GSM8K 벤치마크 테스트에서는 매스GPT가 0.782점을 기록해 토라 13B의 0.758점을 제치고 1위를 차지했다.
MATH 벤치마크 테스트는 1만 2500개의 고난도 수학 경시 문제로 구성되어 있으며, GSM8K 벤치마크의 경우 8500개의 초등학교 수학 문제로 산술 연산을 테스트한다.
업스테이지는 이처럼 난이도가 다른 두 테스트에서 모두 최고 성능을 달성한 것은 매스 GPT가 세계 최초라고 전했다.
향후 업스테이지는 전략적 파트너십을 통해 KT의 인프라 지원과 매스프레소의 고품질 학습 데이터를 제공받아 지속적으로 거대언어모델(LLM)을 개선할 방침이다.
업스테이지 김성훈 대표는 "콴다, KT와의 협력을 통해 챗GPT를 뛰어넘고 세계 최고 수준의 수학 특화 언어 모델을 개발하게 되어 뜻깊다"라고 말했다.
이어 "앞으로 글로벌 1위 LLM 기술력을 바탕으로 다양한 영역에서 생성형 AI 혁신을 주도해 나갈 것"이라고 밝혔다.
콴다 이용재 대표는 "AI 튜터를 통해 아시아를 넘어 전 세계 학생들의 교육 경험을 혁신할 것"이라고 강조했다.