메타의 공격적 AI 인재 사냥, 핵심은 '데이터 전쟁'
메타와 마크 저커버그의 행보가 심상치 않다. 무차별 인공지능(AI) 인력 사냥으로 연일 뉴스를 장식하고 있다. 지난 주말엔 챗GPT로 유명한 오픈AI 인력을 무더기 영입하면서 관심이 집중됐다. IT 전문매체 디인포메이션은 지난 달 28일 메타가 자오성자, 런훙위, 위자후이, 비수차오 등 오픈AI 인재 4명을 한꺼번에 영입했다고 보도했다. 이미 오픈AI 취리히 연구원 등 4명을 영입한 데 이어 또 다시 핵심 인재를 빼간 것이다. 그러자 샘 알트먼 오픈AI 최고경영자(CEO)는 "오픈AI 일부 직원들에게 메타가 최대 1억 달러(약 1300억원) 규모 보상 패키지'를 제시했다”고 폭로했다. 데이터 라벨링 전문가가 메타 초지능연구소 이끌어 국내외 많은 언론들은 오픈AI와 메타 간의 AI 인력 전쟁에 관심을 보였다. 과열된 AI 경쟁 상황을 이보다 더 잘 보여주는 사례는 찾기 힘들 터이기 때문이다. 천문학적인 인재 스카우트 전쟁은 충분히 관심을 가질 만하다. 하지만 그보다 더 중요한 건 “도대체 어떤 인재들을 그렇게 쓸어담고 있느냐”는 점이다. 최근 메타가 공들여 인수한 인재들은 한 가지 공통점이 있다. '데이터 전문가'들을 집중 영입하고 있다는 점이다. 메타의 이런 행보는 이번 주 야심적으로 출범한 '메타 초지능 연구소(MSL)'만 봐도 알 수 있다. MSL은 '모든 사람을 위한 초지능을 개발한다'는 메타의 비전을 실현할 싱크탱크다. 사실상 메타 AI 전략의 핵심 기지인 셈이다. MSL의 책임자는 알렉산더 왕이다. 1997년생인 알렉산더 왕은 메타가 지난 달 인수한 스케일AI 설립자다. 2016년 출범한 스케일AI는 AI 모델이 스스로 학습할 수 있도록 이미지·텍스트 등을 가공하고 정리하는 '데이터 라벨링' 기술을 보유한 업체로 유명하다. 메타는 이런 비즈니스 모델을 갖고 있는 스케일AI 지분 49%를 인수하기 위해 143억 달러(약 19조6천억원)를 투자했다. 페이스북 시절인 2014년 190억 달러에 왓츠앱을 합병한 이후 가장 큰 규모다. 당시 메타가 스케일AI에 과감하게 투자한 데는 창업자인 알렉산더 왕 때문이었다. 스케일AI를 '데이터 주석 허브'로 키워낸 왕의 노하우는 차세대 AI 경쟁의 핵심 축이 될 것으로 기대했다는 것이다. 메타에 합류한 알렉산더 왕은 라마 등 ▲거대언어모델(LLM) 성능 개선 ▲초지능 AI 전략 수립 ▲AI 인력 영입 전략 등을 담당하다가 MSL 책임자를 맡게 됐다. '데이터 라벨링' 전문가가 MSL 책임자를 맡게 됐다는 건 예사롭지 않은 것으로 풀이된다. 합성 데이터·멀티 모달 전문가도 대거 영입 왕과 함께 MSL을 이끌 냇 프리드먼도 주목할만한 인물이다. 깃허브 CEO로 '깃허브 코파일럿' 개발을 주도했던 프리드먼은 오래 전부터 메타 외부 자문위원으로 활동해 왔다. 특히 깃허브가 마이크로소프트에 인수된 이후 'AI 기능'에 초점을 맞춘 변신을 성공적으로 수행해낸 것으로 유명하다. 프리드먼이 AI에 초점을 맞춘 NFDG란 펀드 공동 설립자란 점도 주목해 볼 부분이다. 메타가 AI 스타트업과 긴밀한 관계를 맺고, AI 지형도에 위상을 구축하는 발판이 될 수도 있기 때문이다. 오픈AI 핵심 연구원인 트라핏 반살도 MSL에 합류했다. 2022년부터 오픈AI에 근무했던 반살은 공동창업자인 일리야 수츠케버와 함께 강화학습 연구 프로젝트를 시작했던 인물이다. 특히 반살은 오픈AI 첫 추론 모델인 o1 개발 작업에서 중요한 역할을 했다. 지난 주말 오픈AI 퇴사 사실이 공개된 인재 4명도 데이터 전문가로 꼽히는 인물들이다. 위자후이는 오픈AI 03, 04-미니, GPT-4.1, GPT-4o 공동 개발자다. 이전에는 오픈Al에서 '인지' 팀을 이끌었다. 런홍위는 o1-미니, o3-미니, 03, o4-미니 공동 개발자다. 특히 그는 오픈Al에서 사후 학습 그룹을 이끌었다. 정교한 데이터 관리가 필수적으로 요구되는 분야다. 더 눈길을 끄는 인물은 자오성자다. 챗GPT, GPT-4를 비롯한 다양한 모델 공동 개발자인 자오성자는 오픈Al에서 합성 데이터 부문을 이끌었다. 이들 외에도 구글 딥마인드 출신인 잭 래, AI 음성 스타트업 머신러닝 부분 리더인 요한 살비크도 합류했다. 후발 주자인 메타는 왜 데이터 전문가를 대거 영입할까? LLM 개발 경쟁이 속도를 내면서 '데이터 수요'가 갈수록 커지고 있기 때문이다. 데이터 확보와 정제 작업에서 한 발 앞서 나가지 않으면 경쟁 우위를 갖기 힘들다. 특히 최근 제기되고 있는 '데이터 고갈' 위험에도 대비할 필요가 있다. AI 모델들이 학습할 고품질 데이터가 갈수록 사라지고 있는 상황에 지금부터 대비해야 하는 상황이다. "2026년엔 AI 학습에 필요한 데이터 고갈" 경고 나오기도 시장 조사업체 마켓앤마켓(MarketsandMarkets)에 따르면 AI 학습 데이터 시장은 2029년까지 연평균 27.7% 성장할 전망이다. 이에 따라 2024년 28억2천만 달러 수준이던 학습 데이터 시장 규모는 2029년에는 95억 8천만 달러에 이를 것으로 예상됐다. 문제는 이런 상황이 계속될 경우 '데이터 고갈' 가능성도 적지 않다는 점이다. 데이터 생성 속도보다 학습 속도가 더 빨라지면서 의미 있는 데이터를 찾는 것이 갈수록 힘들어지고 있기 때문이다. AI 전문 연구기관인 에포크AI의 전망은 좀 더 충격적이다. 에포크AI는 "2026년부터는 고품질 인공지능(AI) 데이터가 고갈될 것이다”고 경고했다. 데이터 생산 속도가 학습 속도를 제대로 따라가지 못하고 있기 때문이다. 생성형 AI 모델들이 무서운 속도로 학습하면서, 쓸만한 데이터가 사라지고 있다는 경고였다. 여기에다 유럽연합(EU)을 중심으로 AI의 개인정보 침해 문제를 거론하면서 '양질의 데이터 확보' 문제가 초미의 관심사로 떠올랐다. 마켓앤마켓은 이런 상황을 타개할 해법으로 합성 데이터와 멀티모달(multi modal) 데이터를 꼽았다. 합성 데이터란 실제 데이터에서 뽑아내 인위적으로 생성한 데이터를 의미한다. 이와 함께 기존 데이터의 활용성을 높이는 것도 중요한 과제 중 하나로 꼽힌다. 메타가 왜 '데이터 주석 허브'인 스케일AI를 만든 알렉산더 왕을 공들여 영입했는지 짐작할 수 있는 대목이다. 메타가 최근 오픈AI에서 '합성 데이터'와 '멀티모달' 전문가를 데려간 것 역시 비슷한 차원에서 이해할 수 있다. 데이터는 21세기의 석유다…문제는 정교한 정제와 가공 요즘 '데이터는 21세기의 석유다'는 말이 널리 회자되고 있다. 석유가 20세기 경제 성장을 주도했던 것처럼, 21세기는 데이터가 경제 성장의 촉매가 될 것이란 주장이다. "데이터는 새로운 석유"란 말은 2006년 영국 데이터 과학자 겸 수학자인 클라이브 험비가 미국 전국광고주협회(ANA) 컨퍼런스에서 처음 사용했다. 하지만 이 말은 경제 주간지 '이코노미스트'가 2017년 5월 6일자 커버스토리로 다루면서 대중적인 금언으로 자리잡았다. 험비는 석유와 데이터는 각각 원유(crude oil)와 가공되지 않은 자료(raw data)에서 만들어진다는 공통점이 있다고 주장했다. 원유를 정제해야만 가치 있는 석유를 만들어낼 수 있는 것처럼, 데이터 역시 가공되지 않은 자료를 정교하게 가공하고 처리해야만 가치를 극대화할 수 있다는 것이다. 그런 점에서 메타의 탐욕스러운 AI 인재 사냥은 시사하는 바가 적지 않다. 데이터를 찾아내고, 정교하게 가공하는 기업이 AI 경쟁의 최종 승리자가 될 수 있다는 것을 그대로 보여주는 행보이기 때문이다.