네이버, 중국 AI 모델 걷어낸다…독자 비전 인코더 개발
정부 주도의 소버린(주권) 인공지능(AI) 개발 프로젝트 참여 당시 기술 독자성 논란에 휩싸였던 네이버가 자체 개발한 비전 인코더를 멀티모달 AI 모델에 전면 적용한다. 중국산 모델을 차용해 제기됐던 논란을 해소하는 동시에 한국어·한국 문화 특화 멀티모달 경쟁력을 확보하기 위한 행보로 풀이된다. 17일 업계에 따르면 네이버클라우드는 지난달 초 독자 비전 인코더 개발을 마치고 자사 멀티모달 모델 전반에 이를 탑재하기 위한 내재화 작업에 착수했다. 비전 인코더는 이미지·영상 정보를 AI가 처리 가능한 형태로 변환하는 모듈로, 텍스트·이미지·음성을 종합 처리하는 멀티모달 모델에서 시신경 역할을 담당한다. 네이버클라우드가 이번에 완성한 비전 인코더는 기존 자체 기술인 'VUClip'을 대폭 개선한 버전으로, 오픈소스 생태계에서 검증된 큐원 등 최상위권 인코더와 대등한 성능을 확보한 것으로 전해졌다. 특히 AI를 학습 단계부터 한국어로 훈련시켜 별도 번역 과정 없이 이미지와 한국어를 직접 연결하는 구조를 갖췄다. 글로벌 인코더들이 제주 '하르방' 이미지를 단순히 '석상(Statue)'으로 인식하는 것과 달리, 네이버 모델은 이미지 입력 즉시 '하르방'이라는 한글 단어를 직접 떠올리는 식이다. 앞서 네이버클라우드는 올해 초 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델(독파모)' 개발 사업에서 자사 멀티모달 모델 '하이퍼클로바X 시드 32B 싱크'에 큐원 2.5 모델의 비전 인코더와 가중치를 일부 활용했다가 논란을 빚었다. 학습 초기 단계부터 자체 기술로 구축하는 '프롬 스크래치' 원칙을 표방한 독파모 사업 취지와 맞지 않는다는 비판이 제기됐기 때문이다. 당시 네이버클라우드는 "비전 인코더는 언제든 교체 가능하며 교체 불가능한 핵심 영역도 아니다"라는 입장을 밝힌 바 있다. 이미 오픈소스로 공개된 하이퍼클로바X 시드 32B 싱크의 인코더 교체 여부는 아직 결정되지 않은 것으로 알려졌다. 네이버클라우드 관계자는 "자체 개발한 비전 인코더를 멀티모달 모델에 적용할 계획"이라며 "해당 시점은 아직 확정되지 않았다"고 말했다.