알체라 "AI학습용 데이터 경쟁력 우수···4년 연속 바우처 공급기업 선정"
"알체라는 2021년부터 4년연속 데이터 바우처 공급기업에 선정됐습니다. 지금까지 총 36개 데이터 바우처 구축 실적을 보유하고 있습니다. 특히 지난해 우리와 연관을 맺은 수요기업 중 한 곳은 장관상을 받았고 7개 기업은 우수기업에 선정됐습니다." 이강의 알체라 최고매출임원(CRO)은 최근 지디넷코리아와 인터뷰에서 "AI에 대한 높은 기술력을 보유한 알체라는 AI 학습용 데이터 이해도가 매우 뛰어나다"며 이 같이 밝혔다. 이 회사는 지난 2021년 AI학습용 데이터 구축 사업 전담 조직인 '알체라DS' 본부를 신설했다. 출범 이전에는 데이터를 수집하고 가공하는 작은 팀이었다. 하지만 AI 학습용 데이터 구축 시장이 커지고, 또 외부 고객 데이터 구축 요청이 늘면서 자연스레 데이터 구축 사업을 시작했고 조직이 커졌다. ■ 영업팀·운영팀·개발팀·국내 및 베트남 데이터센터로 구성..."고객사 만족도 높아" 이 CRO는 "알체라DS의 직접적인 고객은 AI를 연구하는 기업이다. 특히 AI 연구원들"이라면서 "이들의 연구 성과와 목표 달성이 대한민국AI의 미래라는 사실을 잘 알고 있기 때문에 대한민국 AI를 책임진다는 사명감을 갖고 AI 학습용 데이터 사업을 진행하고 있다"고 밝혔다. AI성능을 높이려면 양질의 학습데이터 구축이 필수다. 이에, AI 학습용 데이터를 먼저 잘 구축해야 하고, 또 데이터 구축 PM 역량이 매우 중요하다. 이 CRO는 "알체라DS PM들은 내부 AI연구원들과 긴밀히 협업하며 AI성능을 향상시킨 경험과 노하우를 보유하고 있다"면서 "이런 부분을 고객사들이 매우 만족해한다"고 들려줬다. '알체라DS' 조직은 영업팀과 운영팀 그리고 개발팀과 국내 및 해외 베트남 데이터 센터로 구성돼 있다. 특히 운영팀은 데이터 품질(퀄리티)을 보장하기 위해 팀 내에 검수 조직을 별도로 구성해 운영하고 있다. 또 베트남 조직은 수년간 다양한 데이터 가공을 다루면서 조직원들이 높은 업무 숙련도를 유지하고 있다. 알체라가 AI 학습용 데이터 구축 사업에서 다루고 있는 데이터 형태는 영상, 음성, 텍스트, 빅데이터 등 거의 전 분야를 커버한다. 데이터 구축 사례도 다양하다. 전 세계 동전과 LLM 음성 전사, 생성형 이미지 캐릭터, 실내화재, 산불, 피부톤, 주차장 셀, 북미와 유럽의 자율주행 데이터를 수집하고 구축했다. 이 CRO는 "최근에는 데이터 다양성은 물론 높은 구축 난이도를 요구하고 있다. AI학습용 데이터 구축 전문성이 더 강조되고 있다"면서 "알체라는 프로젝트 매니저의 데이터 구축 전문성과 함께 최상의 데이터 품질을 위한 별도 검수 조직을 보유하고 있다. 여기에 수집부터 가공 검수까지 전 과정의 프로세스가 잘 구축돼 있다"고 설명했다. 이어 "이런 노력은 고객 이탈율 0%라는 성과 달성으로 돌아왔다"면서 "고객들 사이에서 입소문을 타며 직접 데이터 구축을 의뢰하는 경우도 증가하고 있다"고 덧붙였다. ■ 대기업부터 중견, 중소, 스타트업 등 다양한 고객 확보...도로 데이터 1억개 이상, 안면 데이터 100만개 이상 구축 알체라의 AI 학습용 데이터 고객사는 대기업부터 중견, 중소 스타트업까지 골고루 분포돼 있다. 산업별로는 반도체 회사부터 자동차, 통신사, 포털 등 내로라하는 국내 대형 기업들이 고객이다. 이 CRO는 "특히 알체라는 영상, 이미지, 텍스트, 오디오 등 다양한 형태의 데이터를 취급하기 때문에 전 산업 분야에 우리 서비스가 사용된다"면서 "교육, 헬스케어, 모빌리티 등 AI 연구가 활발히 이뤄지는 분야에서 많은 성공사례가 만들어지고 있다. 현재 도로 데이터는 1억 개 이상, 안면 데이터는 100만 개 이상을 구축했다"고 밝혔다. 알체라는 자체 구축한 데이터 어노테이션(data annotation, 데이터 라벨링) 솔루션 '트리디'도 보유하고 있다. '트리디'는 AI 학습용 데이터를 구축하기 위한 툴로 포인트, B-BOX, 큐보이드, 폴리곤, 폴리라인, 세그멘테이션 등 다양한 기능을 갖췄다. 클라우드 사용자를 대상으로 데이터를 수집하고 스케쥴링과 정산기능까지 원스톱으로 데이터를 수집 및 가공할 수 있다. 이 CRO는 "우수한 솔루션과 우수한 맨파워에 더해 AI학습용 데이터 구축에 대한 고객과의 약속은 반드시 지킨다는 데 우리 강저이 있다"면서 "이를 실현하려면 초반 데이터 수집과 가공 및 검수에 대한 프로젝트 기획 및 설계가 매우 중요한데 알체라는 이런 능력을 보유하고 있다"고 덧붙였다. 데이터 구축과 설계 기획력 및 실행력은 다양한 경험과 노하우가 있어야 하는데 알체라는 이런 '파워'가 충분하다는 것이다. ■ 고객사서 "열정에 감동받았다"는 피드백 보내와...데이터 검사 주관사업도 수행 실제 알체라는 도로주행 데이터 수집을 위해 유럽과 북미 전역을 다닌 경험이 있다. 현지 사이트 교통 통제는 물론 국가별 행정도시와 사전 협약을 맺는 등 다양한 시나리오를 예측해 변수를 통제함은 물론 갑작기 발생할 수 있는 문제에도 대비, 플랜B까지 수립하며 작업을 했다. 이에 최종 데이터를 무사히 구축하고 고객사가 요구하는 데이터를 안전하게 납기일에 맞춰 전달할 수 있었다고 이 CRO는 회고했다. 이 대목에서 그는 고객사 연구원이 보내왔다는 코멘트를 들려줬다. "이렇게까지 데이터를 수집하고 열정적으로 일할 줄 몰랐다. 감동 받았다. 마치 할리우드에서 영화를 촬영하는 것 같은 느낌을 받았다"고 말했다는 것이다. 알체라는 한국정보통신기술협회(TTA)가 시행하는 '인공지능 학습용 데이터 검사' 주관사이기도 하다. 3년간 이 프로젝트를 수행하며 약 1000 종의 데이터를 검수했다. 이 CRO는 "AI학습용 데이터 구축 사업을 영위하는 기업들이 데이터를 잘 구축했는지를 최종 확인해 주는 사업을 우리가 했다"면서 "이는 데이터 구축 사업자를 대표한다고 할 수 있으며, 누구보다 데이터 품질에 대한 노하우와 역량을 갖췄다는 방증"이라고 짚었다. 현재 데이터 구축을 위한 기술 접근방식과 솔루션 툴은 많이 평준화됐다. 이 CRO는 "양질의 데이터를 구축하는 핵심은 역시 사람"이라면서 "고객 니즈와 AI 성능 향상을 위해 얼마나 진정성 있게 노력하는 지와 프로젝트를 운영하는 PM의 역량과 노하우가 사업 성패를 좌우한다"고 진단했다. 알체라는 영상과 비전AI 전문기업이다. 이런 데이터 사업을 하는 것과 어떤 연관이 있을까. 이에 대해 이 CRO는 "알체라는 국내 AI기업 중 유일하게 RGB 카메라 기반으로 미국 아이베타(iBeta)가 시행하는 '얼굴 위변조 탐지 테스트'를 통과해 인증서를 받은 기업이다. 이는 국내 뿐 아니라 해외 기준에 부합하는 얼굴인식 AI 모델 성능을 보유하고 있다는 증거"라면서 "이렇게 높은 성능을 유지한 이유는 바로 AI학습용 데이터 구축에 대한 전문조직을 보유했기에 가능했다. 양질의 데이터 구축 노하우를 갖고 있다보니 AI를 누구보다 잘 이해하고 실제 고객사 연구원들과 깊이 있는 커뮤니케이션이 가능했다"고 밝혔다. 알체라는 수년간 자체 데이터를 구축한 노하우를 기반으로 자연스레 학습용 데이터 구축 사업에 참여했다. 매출이 매년 50% 정도 성장을 하고 있다. 회사 전체 매출 향상과 지속 성장에 큰 힘이 되고 있다. 이 CRO는 "데이터 양과 구축 방식이 다양해지고 난이도가 갈수록 높아지고 있어 초기 워크플로우 설계가 매우 중요하다. 초기에 방향성과 설계를 잘못하면 허비하는 돈과 시간이 크고 결국 해당 프로젝트는 돌이킬 수 없는 길로 빠질 수 있다. 이를 방지하려면 AI 학습용 데이터를 구축하는 고객사가 초기부터 데이터 구축 프로젝트 매니저와 함께 충분한 커뮤니케이션과 기준점을 맞춰 가야 한다"면서 "데이터 검수 등 데이터 품질에 대한 컨트롤도 중요하다. 내부에 검수 조직이 있는지 반드시 확인하고 프로젝트를 의뢰해야 한다. 특히 다양한 레퍼런스와 PM 역량을 확인하는게 반드시 필요하다"고 제언했다. 이 CRO는 삼성종합기술원 출신으로 알체라에 오기전 삼성전자 의료기기사업부에서 프로젝트 리더로도 일했다. 알체라에는 2017년 합류했다. 이후 알체라 선행기술 연구와 안면분석기술연구 총괄, 기술연구소 총괄을 거쳐 2021년부터 DS사업본부를 맡고 있다.