"가트너도 우리 솔루션 보고 놀라···'다투모'로 AI용 데이터시장 선도"
"AI도 (사람처럼) 평생학습을 해야 합니다. 우리는 AI를 위한 교과서를 만들어주는 회사입니다" 김세엽 셀렉트스타 대표는 30일 지디넷코리아와의 인터뷰에서 회사를 이렇게 소개했다. 셀렉트스타는 2018년 11월27일 설립된 회사다. AI에 필요한 학습데이터를 전문으로 제공한다. KAIST 출신 6명이 공동으로 설립했다. 특히 지난해 12월 국내 첫 '피처 스페이스(Feature Space) 툴'인 '다투모(DATUMO)'를 발표해 시선을 받았다. '다투모'는 AI가 필요로하는 데이터의 처음과 끝을 모두 제공해준다는 솔루션이다. 이를 셀렉트스타는 '올 인 원(all in one)'이라 부른다. AI의 첫 단계인 기획과 큐레이션부터 끝 단계인 분석까지를 모두 효율적으로 수행하게 해준다는 것이다. 김 대표는 '다투모'에 대해 "AI라이프 사이클(기획->큐레이션->데이터셋 구축->AI학습->분석)의 모든 학습 데이터 문제를 해결해준다"면서 "미국 가트너가 다투모를 보고 미국에도 없는 제품이라고 평가했다"고 강조했다. '다투모'는 오는 6월 정식 출시된다. 앞서 무료 알파 테스트와 유료 베타 테스트(글로벌, 4~5월)를 거친다. 김 대표를 만나 셀렉트스타의 현재와 미래를 들어봤다. 김 대표는 "다투모 같은 솔루션은 우리가 국내서 처음으로 출시하는 것"이라면서 "세계적으로도 2~3곳 밖에 안된다"고 말했다. -셀렉트스타를 소개해달라. 어떤 기업인가 "셀렉트스타는 국내 대표 AI 학습데이터 플랫폼 스타트업이다. AI를 더 똑똑하게 만들어 주는 회사로 생각하면 될 것 같다. 데이터센트릭 AI(Data-Centric AI, 데이터 중심 인공지능)라는 개념이 있다. 우수한 인공지능 학습 데이터를 통해 비교적 적은 비용과 시간을 들여 AI 성능을 향상시키는 것이다. AI 분야 석학 중 한명인 앤드류 응(Andrew Ng) 교수가 2021년 3월 주창했다. 현재 AI 업계의 가장 큰 패러다임 변화다. 국내에는 아직 대기업도 데이터센트릭 AI를 적합하게 구현하지 못했다고 본다. 우리는 기업에게 우수하고 정확한 학습 데이터를 제공해주는 플랫폼 기업이다. 기업이 필요로 하는 데이터셋을 분석하고-기획하고-수집하고-가공하는 솔루션을 제공하는 올 인 원(all in one) 데이터 센트릭 AI기업이다." -올 인 원(all in one)은 무슨 의미인가? "데이터를 한번 구축하고 이름붙이는 것(라벨링)에서 끝나지 않는다. AI도 평생 학습을 해야한다. 자율주행차를 예로 들어보자. 갑자기 사람이 튀어나오고, 비가 엄청 오고, 시야가 가려지는 등 무수히 많은 예측불허의 상황이 벌어진다. 지금은 AI가 이러한 상황 변화에 제대로 대처 못한다. 이런 AI의 오류를 계속 데이터화해 바로 잡아줘야 한다. 사람으로 치면 오답노트 같은 것이다. 오답노트처럼 AI가 잘못한 것을 수정해 다시 데이터를 입력하고, 이런 과정을 반복해야 한다. 우리는 이를 '데이터 플라이휠(flywheel)'이라 부른다. AI가 데이터 학습하는 과정이 마치 플라이휠이 회전하는 것과 같아 그렇게 붙였다. 멈춘 휠을 움직이는 것은 힘들지만 모멘텀이 마련되면 휠은 알아서 점점 더 빠르게 돈다. AI데이터도 마찬가지다. 기획->큐레이션->데이터셋 구축->AI학습->분석의 단계가 순환하면서 AI학습과 분석이 좋아진다." -AI를 하는데 기획이 왜 필요한가? "어떤 데이터를 학습하고 가공할 지, 또 이의 기준은 무엇으로 할 지를 정하는 게 기획이다. 자동차를 예로 들어보자. 모든 자동차를 다 모을 수 없다. 그러니 어떤 자동차 데이터를 모을 지 먼저 기준을 정해야 한다. 기획 다음은 큐레이션이다. 큐레이션은 굉장히 많은 데이터 중 어떤 데이터를 학습시킬 지를 정하는 것이다. AI한테 모든 내용(데이터)을 다 가르치면 좋겠지만 그렇게하면 비용(돈)이 너무 많이 들어간다. 지난해 말 우리가 내놓은 솔루션 '다투모'는 이런 기획과 큐레이션을 위한 툴이다. 기획과 큐레이션을 거쳐 데이터셋을 구축하고 AI가 학습 및 분석을 한다. 이 과정이 순환하는 거고, 이 과정에서 필요한 모든 데이터를 우리가 제공한다. 이런 단계는 필요상 구분한 거다. 실상은 거의 동시에 일어난다. 다른 AI기업의 기획은 데이터셋 구축에 한정돼 있다고 생각한다." -공동창업자가 6명이고 다 KAIST 출신이다. 회사 설립 동기는? "대학생 때 수행한 AI 개발 경험때문이다. 당시 데이터 수집과 가공 업무에 전체 AI서비스 개발 시간의 80% 이상을 소비했다. 낭비라는 생각이 많이 들었다. AI용 데이터 수집·가공은 인공지능을 훈련하는 데 사용하는 학습용 데이터셋을 만들어 주는 것으로 본래 노동집약적이다. 예컨대 사진을 보고 사람인지 자동차인지 분류하는 건데, 이는 수십만 건의 원천데이터를 처리해야만 하는 작업이다. 이 산업이 처음 언론에 소개됐을 때 '현대판 인형눈 붙이기'라고 불린 이유다. 이런 낭비 요인을 보고 데이터 수집과 가공 플랫폼을 기반으로 한 창업을 구상했다. 기업이 'AI 개발'이라는 본질에만 집중할 수 있게 우리가 해주자는 것이다. 그래서 누구나 데이터 수집과 가공 업무에 참여하고 또 적절한 보상을 받을 수 있는 크라우드소싱 플랫폼을 생각했고, 이 아이템으로 2018년 12월 KAIST 창업대회에서 우승했다. 이것이 바탕이 돼 신호욱 공동대표 등과 함께 셀렉트스타를 창립했다. 6명이 공동 창업을 했고 모두 KAIST 동문이다. 과학기술 전문사관학교를 마치고 2020년 6월 회사에 합류했다. 신호욱 공동대표와는 한성과학고부터 12년 지기다" -회사 이름 셀렉트스타는 무슨 뜻인가 "데이터를 다루는 SQL이라는 언어가 있다. 셀렉트는 컴퓨터에서 데이터를 선택하는 명령어다. '모든 데이터를 선택한다'라는 명령어가 셀렉트 스타인데, 여기서 착안해 회사 이름을 셀렉트스타로 지었다." -지난해 연말에 '다투모(DATUMO)'라는 피처 스페이스 툴(FST, Feature Space Tool)을 내놨다. 의미가 크다는데 어떤 제품인가? "피처 스페이스(feature space)는 각 이미지 데이터의 어떤 특징을 뽑아 평면에 나타낸 거다. 즉, 각 이미지 데이터의 어떤 특징점을 뽑아 평면에 표시한 것으로, 이미지 한 장을 평면의 점 하나로 표시한 거다. '다투모'는 국내 첫 피처 스페이스(Feature Space)를 기반으로 한 거다. 데이터셋 커버리지(Coverage)와 엣지 케이스(Edge Case)를 분석하고 선별(Curation)하는 툴이다. AI와 데이터셋을 기획할 때, 또 AI 성능을 데이터 센트릭(Data-centric) 접근으로 높여야 할 때 사용하는 도구다. 몇 가지 특징이 있다. 첫째, 기존 데이터셋 통계로는 단편적으로만 알 수 있던 데이터셋 커버리지(Coverage)를 직관적이고 자세히 확인할 수 있다. 둘째, 데이터 센트릭 AI 개발을 위해 AI 연구자들이 기존에 수행하던 데이터 처리와 분석의 반복 노동을 자동화했다. 셋째, 대용량 데이터셋 처리 기술과 데이터셋 특징을 잘 추출하는 기술을 적용했다. 미팅하는 고객들마다 좋다는 소리를 듣고 있다." -AI솔루션을 가진 AI공급 기업이 국내에 1천500개가 넘는다. '다투모' 같은 솔루션이 아직 국내에 없나? "아직 없다. 솔루션 공개를 기준으로 하면 우리가 국내에서 처음이다. 스페이스 툴을 내놓은 건 우리가 처음이다. '다투모'는 데이터 전주기를 커버한다." -피처 스페이스가 기술적으로 어렵나? 다른 AI기업들은 왜 피처 스페이스 툴을 아직 못 내놓고 있나? "수 많은 데이터를 시각화해 AI로 피처를 정확히 추출하는게 쉽지 않다. 무엇보다 AI기업 입장에서는 이게 본업이 아니여서 이걸 만들려면 공수가 너무 많이 들어간다." -국내는 처음이고 글로벌로는 어떤가? "우리가 조사하기로는 글로벌로는 두 개 회사 정도가 있다. 미국 스케일AI랑 레이블박스라는 회사가 있다. 이 두 회사가 우리 경쟁사이기도 하다." -'다투모'는 언제 시장에 나오나? 과금 방식은? "정식 출시는 6월쯤으로 생각하고 있다. 그 전에 무료 알파테스트를 하고 4월에는 글로벌로 유료 베타 서비스를 할 예정이다. 과금은 SaaS랑 온프레미스(구축형) 둘 다 생각하고 있다. 국내 대기업은 보안을 중요하게 생각하니 온프레미스 방식도 필요하다. 가격은 아직 정하지 않았다. 논의 중이다." -원래 주력이 AI용 데이터 구축이다. 이 분야에서 어떤 경쟁력을 갖고 있나? "AI 기업이 필요한 학습데이터 수집 및 레이블링을 자체 보유한 25만 작업자가 등록된 크라우드 소싱 플랫폼 '캐시미션'을 기반으로 구축해 제공한다. 우리 서비스 특장점은 첫째, 우수한 데이터셋 품질이다. 우리가 제공한 양질의 학습 데이터를 통해 AI 성능 개선을 경험한 고객사들이 우리와 지속적으로 계약을 맺고 있다. 데이터 품질은 셀렉트스타가 좋다는 입소문이 퍼지면서 여러 컨소시엄에서 러브콜도 받고 있다. 삼성, SK, LG 등이 공개 추천사를 남겨준 것도 우리 회사가 최초다. 뉴립스(NeurIPS), EMNLP, CVPR 등 글로벌 톱 AI 학회에 지속적으로 데이터셋을 공개하는 학습 데이터 플랫폼도 국내에서는 셀렉트스타가 유일하다고 생각한다. 둘째, 차별화한 데이터 라벨러 교육 및 관리다. 복잡한 데이터 수요가 늘면서 작업자 교육과 납품 데이터 검수 중요성이 더욱 커졌다. 셀렉트스타는 작업 데이터를 검수하는 알고리즘과 유사 데이터를 필터링하는 알고리즘, 크라우드 워커의 작업 정확도를 실시간으로 파악하는 알고리즘 등을 자체적으로 개발해 특허 등록까지 마쳤다. 또한 고난도 프로젝트 수행을 위한 데이터 라벨러 작업 및 교육 공간, 녹음실 등 관련 인프라와 인력도 갖추고 있다." -직원은 몇 명이며 어떤 기업 문화를 갖고 있나 "직원은 약 100명 정도다. 우리는 '젊은 회사'다. 구성원들의 평균 연령이 30대 초반이다. 공동설립자인 나도 아직 서른 살이 안됐다. 기업문화로 우리가 중시하는 건 '신충헌(신뢰-충돌-헌신)'이다. 먼저 신뢰를 말하면, 모든 '충돌'은 고객과 회사를 위한 과정이라는 서로에 대한 믿음을 강조한다. 신뢰를 얻기 위해 직책과 나이, 연차에 상관없이 노력해야 한다. 대표인 나도 끊임없이 구성원의 신뢰를 얻기 위해 최선을 다하고 있다. 두번째인 충돌은, 누구나 언제든 자유롭게 논쟁에 참여할 수 있다는 걸 말한다. 직책과 나이, 연차는 중요하지 않다. 마지막 헌신은, 논쟁 끝에 의사결정권자가 내린 결정에 모두 따라야 한다는 것이다. 대표와 의사결정권자 의견이 다르더라도, 그 결정이 최선이 되도록 대표는 헌신해야 한다고 생각한다. 이러한 제도를 구성하고 유지하기 위해선 구성원 개개인 역량이 탁월해야 하며, 회사는 이를 뒷받침해 주는 환경을 제공해야 한다. 하여, 우리는 임직원 출퇴근 시간을 통제하지 않는다. 재택근무와 출근 기준도 각 부서 내에서 자율적으로 정한다. 휴가도 협업에 무리가 가지 않는 선에서 자유롭게 사용할 수 있다." -기술 경쟁력을 말해준다면 "가장 강조하고 싶은 게 '데이터셋 품질'에 대한 공신력이다. 데이터셋 레이블링 기업은 국내에 많이 있다. 하지만 우리처럼 뉴립스(NeurIPS)와 EMNLP, CVPR 같은 글로벌 톱 AI학회에 지속적으로 데이터셋을 공개하는 기업은 드물다. 우리 회사 연구진으로만 이뤄진 논문이 SCI 저널 TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence) 심사에 통과, 곧 등재된다. 논문 내용은 반자동 라벨링 기술에 대한 연구다. TPAMI는 IF(영향력 지수)가 17.8인 컴퓨터 비전 분야 최고 저널이다. 이 저널에 등재되는 것만 봐도 우리 회사 기술력이 뛰어남을 알 수 있다." -수출 계획도 있나? "있다. 지난해 출시한 피쳐 스페이스 툴을 영어로 만들었다. 오는 4월 미국 등 글로벌 지역을 대상으로 유료 베타 서비스를 한다." -투자유치 현황이 궁금하다 "작년 여름에 시리즈A 익스텐션 라운드에서 90억원을 유치했다. 현재까지 누적 134억원을 투자 받았다. 올 하반기에는 시리즈B를 계획하고 있다. 상반기중 상장을 위한 주간사를 선정하려 한다." -올해 경영 목표는? 5년 후나 10년 후 비전은? "올해 이 분야 SaaS 시장에서 1위를 싶다. 장기적으로는 올인원(All-in-One) 데이터 플랫폼 회사로 도약하고 싶다. AI기술이 고도화하고 관련 시장이 커짐에 따라 AI도 평생 학습을 해야 한다는 게 명확해졌다. AI 학습 데이터를 수집하고 가공하는 사업에서 출발한 셀렉트스타는 이제 데이터셋을 분석하고 기획하고 선별하고 구축하고 관리할 수 있는 종합 플랫폼 회사가 되려 한다. 단순히 다양한 제품과 서비스를 공급하기 보다 AI 개발 방향성과 성능 개선 솔루션을 제시할 수 있는 파트너가 되고 싶다. 지난해 말 출시한 데이터셋 분석 소프트웨어 '피쳐 스페이스 툴(FST)'은 그 시작이다. 앞으로 10년 뒤에는 세계 무대에서 경쟁하고 활약하는 기업이 돼 있지 않을까 한다. 올해 목표를 달성한다면, 10년 뒤 글로벌 선도 기업도 결코 꿈이 아닐 것이다. 우리의 미국 경쟁사인 스케일AI는 유동성이 좋았을때인 2021년에 기업 가치를 8조 정도 인정 받았다. 우리도 이른 시일안에 유니콘이 되도록 노력하겠다."