"한국 LLM 만들자"…업스테이지, '1T 클럽' 발족
업스테이지(대표 김성훈)는 '1T 클럽'을 발족한다고 14일 밝혔다. 한국어 데이터 부족 문제를 해결하고 한국형 거대언어모델(LLM) 개발을 위해서다. 1T 클럽은 텍스트, 책, 기사, 보고서, 논문 형태로 1억 단어 넘는 한국어 데이터를 생성, 개발하는 파트너사들로 이뤄졌다. 업스테이지는 1T 클럽으로 한국어 데이터를 확보, 공유함으로써 국내 문화 정서를 담아낼 수 있는 LLM을 개발할 것으로 기대한다. 업스테이지는 1T 클럽 파트너사에 혜택을 제공할 방침이다. 우선 데이터 제공량에 비례해 API 사용료를 할인할 계획이다. LLM의 API 사업으로 창출될 수익을 공유하는 혜택도 제공한다. API 사용료 할인의 경우, 파트너사는 기여 토큰 수에 비례해 업스테이지가 자체 제작한 LLM API를 할인된 가격에 사용할 수 있다. 예를 들어, 파트너사가 1억 단어 분량 토큰을 제공하면, 1억 토큰만큼의 API를 무료로 사용할 수 있다. 수익도 공유한다. 업스테이지는 LLM의 API 사업으로 수익을 창출할 경우 그중 일부를 파트너사들과 공유한다. 업스테이지는 이를 위해 LLM API 사업 수익 일부를 재원으로 활용, 1T 클럽 수익 공유에 할당할 예정이다. 각 파트너사는 자신이 기여한 데이터양에 비례해 수익을 받을 수 있다. 업스테이지 측은 데이터 보안과 개인정보보호에도 노력했다는 입장이다. 이 회사는 파트너사들이 주는 데이터를 모델의 한글 프리트레이닝 학습 용도로만 사용한다고 밝혔다. 일반적인 지식과 글을 요약, 정리하는 능력만 갖추게 된다. 원본 추출은 불가하다. 또 기타 용도로 사용하거나 외부로 유출하지 않을 방침도 알렸다. 자체적인 탈옥 방지 기술로 원문 유출을 원천적으로 차단할 계획이다. 업스테이지는 현재 여러 기업과 프라이빗 LLM 구축 협의도 진행 중이다. 앞으로 파트너사들과 협력을 추진할 계획이다. 김성훈 업스테이지 대표는 "국내 다양한 기업도 고성능 프라이빗 LLM을 자유롭게 이용할 수 있어야 한다"며 "1T 클럽은 데이터 제공자 권익을 지키고 한국문화 정서를 담아낼 수 있는 LLM을 개발해 국내 모든 기업이 AI 발전 수혜를 볼 수 있도록 최선을 다하겠다"고 밝혔다.