"모든 데이터를 호출해 AI 산업 발전 돕겠다"
꿈은 삶의 이정표이자 동력이다. 꿈은 곧 미래의 삶이다. 꿈은 그래서 소중하다. 꿈은 사람마다 다르고 다른 만큼 다채롭다. 스타트업이 꾸는 꿈도 그럴 것이다. 소중하고 다채롭다. '이균성의 스타트업 스토리'는 누군가의 꿈 이야기다. 꿈꾸는 사람이 자신의 이야기를 들려주고 다른 꿈꾸는 사람을 소개하는 릴레이 형식으로 진행된다. [편집자주] “모든 데이터를 호출해 AI 산업 발전 돕겠다” 셀렉트스타(select *)는 데이터베이스시스템을 이용해 자료를 처리할 때 쓰는 언어인 SQL(Structured Query Language)이다. 이를 우리 언어로 번역한다면 “모든 데이터를 호출하라”는 명령 정도로 이해하면 된다. 김세엽 대표는 “회사 이름에는 우리 비전과 미션이 담겨 있다”며 “우리 사업이 AI 산업 발전을 이끈다는 믿음과 세상을 이롭게 하리라는 의지가 그것”이라고 설명했다. 세상을 이롭게 할 모든 데이터를 호출함으로써 “데이터로 AI 산업을 발전시켜 세상을 더 편하게 한다”는 게 이 회사의 미션이다. 셀렉트스타는 이를 위해 인공지능(AI) 모델을 개발하고 진화시키는 데 필요한 데이터를 모으고, 가공하고, 분석하는 일을 한다. ■딥러닝 모델 만들다 창업 필요성 느껴 김세엽 대표는 KAIST 전기및전자공학부를 졸업하고 국방과학연구소 AI 연구원으로 복무했다. 이때 딥러닝 모델을 직접 만들어본다. “AI를 연구개발하면서 가장 힘들었던 건 수작업이 너무 많다는 사실이었습니다. 일하는 시간의 거의 80%를 데이터를 수집하고 가공하는 데 써야 했지요. 정작 원하는, AI 모델을 기획하고 발전시켜가는 일에 쓸 시간이 부족했어요. 그것이 우리가 잘 할 수 있고 잘해야 하는 일인데도 말이죠. 그러면서 이 고통은 우리 만 느끼는 게 아니라는 생각이 들었습니다. 이 고통에 창업의 여지가 있다고 판단한 것이지요. 처음엔 AI 모델을 만들고자 했으나, AI 모델을 만드는 사람을 돕는 일로 바뀌게 된 거죠.” 김 대표는 원래 해외 박사 학위를 받고 연구자의 길을 걸을 생각이었으나 실전의 경험으로 인해 뜻밖의 창업의 길로 나선 셈이다. 핵심은 AI 모델을 잘 만들도록 필요한 데이터를 공급하는 것이다. ■크라우드 리워드 방식을 이용하다 AI 모델을 개발하고 진화시킬 때 관건은 어떻게 필요한 데이터를 모으고 그것을 이용해 어떤 방식으로 적절한 데이터셋(data set)을 구성하느냐이다. 이때 수작업이 불가피해 AI 모델 개발 및 진화가 고통스럽게 되는 것이다. “우리는 이 문제를 크라우드 소싱 방식으로 해결하고자 했어요. 대중에게 아웃소싱한다는 의미죠. 리워드(reward) 방식으로요. 아르바이트로 틈틈이 돈을 벌고자 하는 분이 계시고 이분들이 데이터를 생성할 수 있게 하는 겁니다. 이를 위해 '캐시미션'이란 리워드앱을 만들었어요. 현재 24만 명이 여기서 활동하지요.” 이렇게 활동하는 사람들을 데이터 라벨러라고 한다. AI 모델 개발을 원하는 곳이 있을 경우 AI에게 학습시킬 데이터가 무엇인지 알아내고 라벨러를 통해 그것을 수집하여 AI가 공부하기 쉽도록 데이터 묶음 만들어내 공급하는 것이다. 이 과정이 AI 학습 데이터 구축 서비스이다. 데이터셋 품질이 AI 학습에 영향을 미치리라는 것은 쉽게 짐작할 수 있다. “셀렉트스타는 기업 뿐 아니라 AI 연구에 활용되는 데이터셋도 제공하고 있어요. 우리 데이터셋을 활용한 연구가 국제 주요 학회인 NeurlPS, EMNLP, CVPR 등에 꾸준히 등재되고 있지요. 벤치마크 데이터셋이라는 것도 있습니다. 한국어 자연어처리 분야에는 KoQuad와 KLUE라는 데이터셋이 주로 활용되는데, 국내 AI 학습 데이터 구축 서비스 가운데 이 두 가지를 모두 구축한 곳은 셀렉트스타 뿐이지요.” ■“AI 모델도 반복 학습이 필요합니다” AI 모델은 한 번 학습시켰다고 완성되는 게 아니다. AI 모델도 사람의 뇌와 같아서 반복학습을 통해 더 나은 상태로 진화해나간다. 셀렉트스타는 이를 위해 'DATUMO SCOPE'라는 데이터셋 분석 솔루션을 개발했다. 제공된 데이터셋이 원하는 AI 모델에 어떻게 적용되고 있으며 무엇이 부족한 지 등을 눈으로 볼 수 있게 시각화해서 보여주는 게 핵심이다. “데이터셋 분석 솔루션을 개발함으로써 우리는 'AI 데이터 플라이휠(AI Data Flywheel)'을 갖추게 됐습니다. 이게 국내 AI 학습 데이터 구축 서비스 기업 가운데 우리만의 장점이라고 생각해요. 데이터를 모으고 가공해 AI를 학습시키는 과정을 반복적으로 실행하기 위해 문제를 파악하고 보완할 수 있게 해주는 것이죠.” ■챗GPT 대응 위해 다양한 사업 준비 챗GPT 같은 초거대 AI의 출현은 셀렉트스타와 비슷한 국내 AI 학습 데이터 구축 서비스 기업들에게 어떤 영향을 미치게 될 것인가. 김세엽 대표는 긍정적일 것으로 기대하고 다양한 사업을 준비 중이다. “챗GPT가 나오면서 AI 열풍이 몰아치고 긴가민가했던 기업들도 AI 모델 구축에 더 나설 것으로 봅니다. 챗GPT 같은 대규모 언어 모델을 목적에 맞게 조정해 활용하는 방식을 취하는 기업도 많을 듯해요. 그렇게 목적에 맞게 조정하는 것을 파인 튜닝(Fine-tuning)이라고 하는데 이 과정에 필요한 것이 AI 학습 데이터죠. 사업 분야별로, 또 기업별로 파인 튜닝을 위한 학습 데이터 시장을 더 커질 걸로 봐요.” ■“2025년엔 손익분기점 넘길 듯해요” 셀렉트스타는 2018년 11월에 설립됐다. 이듬해 카카오벤처스에서 4억원의 시드 투자를 받았고, 2020년에는 시리즈A로 40억원, 2022년에는 다시 90억원을 투자 받았다. 누적 투자금은 134억원이다. 현재 직원은 82명이고, 지난해 매출은 43억원이다. 대기업 계약 수주가 2021년 대비 38% 증가하는 등 성장성이 기대된다. “아직은 적자지만 2025년에는 손익분기점을 넘길 것으로 예상하고 있습니다. 내년에는 시리즈B 투자를 계획하고 있구요. 예상대로 손익분기점을 넘긴다면 2025년이나 2026년에 기업공개(IPO)를 할 계획으로 준비하고 있습니다.” 덧붙이는 말씀: 김세엽 셀렉트스타 대표가 다음 인터뷰 대상으로 추천한 사람은 패션 AI 기업인 옴니어스 전재영 대표입니다.