클라우드의 데이터 전쟁은 어떻게 흘러갈까
올해 기업의 데이터 관리 시장이 치열한 경쟁을 보일 것으로 예상된다. 아마존웹서비스(AWS)도 전에 없던 긴장감을 보이며 새 흐름에 심기일전하는 모습이다. 아마존웹서비스(AWS)의 공고한 클라우드 독점체제에 균열이 나타난 건 데이터 분석 영역이었다. AWS가 엔터프라이즈 시장을 겨냥해 데이터 서비스 포트폴리오를 강화할 무렵부터다. 모든 퍼블릭 클라우드 서비스 기업들이 데이터를 외치고 있다. 최강자를 겨냥한 교묘한 전략과 전술이 데이터 클라우드 시장에서 나타나고 있다. 데이터 클라우드 전쟁이다. ■ 데이터 전쟁은 왜 벌어졌나 모든 기업이 데이터에 막대한 투자를 감행하고 있다. 코로나19 대유행은 비대면 경제를 촉발했고, 비대면 경제에서 경쟁력은 디지털 고객의 수요를 파악해 적시에 대응하는 능력이었다. 그 능력의 근원이 데이터다. 2011년 하둡과 함께 빅데이터란 용어가 등장했고, 당시 전문가들의 예측대로 비정형 데이터의 규모는 기하급수적으로 늘어났다. 과거 가치없는 쓰레기로 여겼던 데이터도 효과적으로 활용하면 가치를 뽑아낼 수 있다는 게 빅데이터다. 과거엔 버려졌던 데이터도 이제 분석 대상에 넣게 됨으로써 전과 비교할 수 없을 정도의 구모로 데이터를 저장하고 활용해야 한다. 쓸 데이터는 늘어나고 활용하려는 기업 내 수요자도 늘어나고 있다. 데이터 수요자도 전과 달라졌다. 데이터웨어하우스(DW)만 해도 과거 데이터 분석 담당자만 쓰던 게 회사 조직 내 누구나 데이터를 활용하게 됐다. 데이터는 사후 분석 용도만 아니라 예측과 자동화를 위한 머신러닝에도 쓰인다. 기업들은 주로 각 사용자별로 데이터 플랫폼을 그때그때 구축했다. 이같은 데이터 사일로는 기업에 비효율적 데이터 모델을 야기하며, 이미 데이터를 갖고도 제대로 활용하지 못하는 일도 벌어진다. 단순히 하나로 합치는 방안도 중앙집중화된 구조 탓에 급증하는 수요를 따라잡을 정도의 확장성을 확보하기 어렵게 한다. 이에 등장한 데이터 메시는 도메인 중심으로 데이터 아키텍처를 분산시키면서 데이터 가상화로 사용자에게 셀프서비스 환경을 제공해 이용자 접근성을 높인다. 기업은 명확하게 정리된 데이터 거버넌스를 수립해 무분별하고 불법적인 데이터 활용을 차단하고, 단일화된 관리 체계를 운영한다. 궁극적 목표는 누구나 쉽게 데이터에 접근하는 '데이터 민주화'다. 데이터 민주화 과정에서 정부 규제에 대응하기 위한 영역도 대두됐다. 기업 내부뿐 아니라 외부 조직과 협력하기 위해 데이터를 서로 공유하는 상황이 나타나고, 우리나라의 가명정보 비식별화 조치 같은 해싱 작업을 수행하는 데이터 클린룸이 필요해졌다. 개인정보 보호와 데이터 가치 극대화란 두마리 토끼를 잡으려면 기업이 신경써야 하는 부분이 더 늘어난 것이다. 기업에서 활용하고자 하는 데이터의 범주는 갈수록 확대되고 있다. 비즈니스 애플리케이션에서 생성하는 정형 데이터, 소셜미디어나 사물인터넷(IoT) 센서 데이터 같은 비정형 데이터는 이제 구분없이 '데이터'로 다뤄진다. 여기에 동영상, 이미지, 지리정보, 위성데이터, 기후정보, 메타버스 등도 이제 파일 레벨을 벗어나 데이터 레벨로 취급받는다. 다뤄야 할 데이터 범주의 확대는 데이터 플랫폼의 또 다른 진화를 유도한다. ■ 오픈소스 데이터베이스의 급성장 기업의 데이터 관리 시장은 일차적으로 데이터베이스(DB)를 중심으로 움직인다. DB엔진에 따르면, 지난해 12월 기준 세계 DB 시장에서 오픈소스 소프트웨어는 상용 소프트웨어를 소폭 앞서고 있다. 일단 규모 면에서 399개 DB 가운데 오픈소스는 208개로 상용 제품의 191개보다 조금 더 많다. 대중성 점수에서 오픈소스 라이선스가 51.6%로 상용의 48.4%보다 높다. 이같은 역전 현상은 2021년부터 나타났다. 2013년 전까지 오픈소스를 압도하던 상용 DB의 대중성은 이후 계속 하락세를 기록하더니, 2021년 오픈소스에 역전당했다. 전체 DB 시장의 1위는 여전히 오라클DB지만, 2위는 오픈소스인 마이SQL이다. 3위에 마이크로소프트 SQL서버가 자리했지만, 4위는 포스트그레SQL이고, 5위는 몽고DB이며, 6위는 레디스다. 오라클과 마이SQL이 조금씩 하락한 가운데 포스트그레SQL의 2014년 이후 성장세가 가파르다. 이같은 흐름의 기저엔 클라우드 서비스 대중화가 흐르고 있다. 클라우드 사용은 기업에게 IT 소비의 파편화를 가져왔다. 중앙집중화된 IT부서의 통제를 벗어난 현업 부서의 IT소비가 그림자속에서 늘어나고, 데이터도 그와 함께 파편화됐다. 컨테이너로 소프트웨어 기능을 잘게 쪼개는 마이크로서비스 아키텍처(MSA)는 아예 DB의 분산까지 강조한다. 이에 대규모 라이선스를 필요로 하는 상용 DB보다 자유롭게 사용할 수 있는 오픈소스 DB가 인기를 얻었다. 마이SQL과 포스트그레SQL의 성장은 관계형DB의 강점을 유지하며 클라우드의 장점을 활용하기 위한 최적의 선택지였다. 오라클DB의 하락은 정해진 수순이었다. 트랜잭션데이터처리(OLTP)뿐 아니라 분석용 DB에서도 오라클DB의 아성이 무너졌다. AWS 레드시프트가 그 균열의 선봉장이었고, 뒤이어 나온 클라우드 기반 DW가 큰 파열음을 내며 시장에 들어왔다. DB엔진 랭킹에서 오픈소스만큼 눈에 띄는 그래프가 있다. 스노우플레이크다. 2016년 첫 등장후 스노우플레이크는 6년만에 11위까지 뛰어올랐다. 스노우플레이크는 기업의 데이터 관리 부문을 플랫폼 관점에서 SaaS 관점으로 틀었다. 이용자는 더 이상 데이터웨어하우스(DW) 활용에 필요한 컴퓨팅 자원의 유지 관리에 신경쓰지 않아도 되며, 오토스케일링으로 자원을 무제한으로 확장할 수 있다. 구조화된 데이터를 분석하고 머신러닝에 활용하기까지 여정이 스노우플레이크는 필요한 때 켜는 애플리케이션 수준으로 단순하다. 스노우플레이크는 현재 정형 데이터를 넘어 비정형 데이터와 인공지능 및 머신러닝 워크로드로 지원 범위를 확장하고 있다. 기업 내부 데이터센터에 저장된 데이터도 커넥터로 간단히 연결해 클라우드에서 언제든 분석하게 한다. 이용자는 데이터 볼륨 규모에 따라 비용을 지불하면 된다. 초기의 스노우플레이크는 오라클 엑사데이터 시장을 잠식하는 듯 했는데, 오히려 AWS 레드시프트 시장 잠식이 두드러졌다. 이제 기업들은 데이터 저장은 아마존 S3에 하지만 각종 데이터 연산은 스노우플레이크서 수행하기 시작했다. ■ 경쟁과 협업의 줄타기 스노우플레이크는 AWS와 경쟁하면서도 AWS의 인스턴스와 데이터 저장소를 사용하는 전략을 취함으로써 교묘한 줄타기를 하고 있다. 스노우플레이크의 이런 행보는 일종의 매니지드서비스프로바이더(MSP)처럼 보이기도 한다. 이처럼 경쟁과 협력의 줄타기는 후발주자에게 상당한 힌트를 준 모양이다. 작년 오라클은 오라클클라우드인프라스트럭처(OCI)의 매니지드형 마이SQL서비스인 '히트웨이브'를 AWS 고객에게도 제공한다고 발표했다. AWS와 파트너십을 맺어서 AWS의 정식 서비스로 '마이SQL 히트웨이브'를 출시한 게 아니었다. 오라클은 AWS의 클라우드 자원을 선구매하고, AWS 고객에 접근해 AWS 인프라에 마이SQL 환경을 구축해주는 MSP 전략을 선보였다. 마이SQL이 클라우드에서 널리 쓰이는 상황에서 인프라 선택 고민 없이 더 빠르게 관계형 DB를 구축할 수 있다는 오라클의 주장은 매력적이다. 경쟁자의 인프라에 편승하는 전략과 별개로 후발주자 간 연합 전선 구축도 활발하다. 마이크로소프트와 오라클은 인터커넥트 협정을 맺어서 애저 컴퓨팅 인스턴스를 OCI 환경과 함께 쓸 수 있게 했다. 애저와 OCI란 전혀 다른 서비스는 내부 통신망의 상호 연결로 경험의 이질감 없이 쓸 수 있게 됐다. 21세기 데이터의 최강자 구글클라우드는 2010년대 빅데이터 트렌드를 촉발했던 '빅쿼리'를 경쟁사에서 쓸 수 있게 했다. 구글클라우드 '빅쿼리 옴니'는 AWS에 저장된 데이터도 구글클라우드의 빅쿼리에서 분석할 수 있게 한다. ■ 앞으로 벌어질 일 데이터 활용을 가로막는 여러 장애물이 있지만, 그중에서도 데이터 이동은 가장 골치아픈 문제다. 데이터 ETL은 언제나 가장 기초적이지만 까다로운 작업이었다. OLTP 데이터를 분석하기 위해 가져와야 하고, 조직 내외부의 비정형 데이터를 가져와야 쓸모가 있기 때문이다. 아예 데이터 이동을 아예 없애버리는 시도도 있다. 엄밀히 말해 데이터 이동이 없는 것처럼 보이게 하는 시도다. 데이터 가상화는 그 첫발이었고, 백엔드에서 보이지 않게 데이터를 계속 동기화하는 방식이 많이 쓰인다. 2년전 출시된 마이크로소프트 애저 시냅스는 운영DB와 항상 동기화된 데이터 계층이 있어서 원천 데이터를 가져올 필요없이 분석과 머신러닝에 돌입할 수 있다. 스노우플레이크도 이와 비슷하다. AWS는 작년 '제로ETL'의 미래를 거론하면서, 내부 서비스 간 데이터 이동 자동화를 빼들었다. 그러면서 외부 서비스와 AWS를 연동하는 데이터 커넥터 활용 방식을 평가절하했다. AWS 밖으로 데이터를 갖고 나가지 말라는 것이다. 데이터 클린룸, 데이터 거버넌스 등 데이터 활용과 규제준수란 조건을 모두 충족하기 위한 새 구성요소에 대한 해법이 경쟁적으로 올해 쏟아질 것으로 예상된다. 이미 AWS는 프리뷰로 관련 서비스를 선보였고, 머지 않은 시간 내 마이크로소프트 애저, 구글클라우드도 유사 서비스를 선보일 것으로 보인다. 데이터 구조화를 자동화하는 기술, 적정 가격을 찾아 비용을 최적화하는 기능도 경쟁 지점으로 읽힌다. 이미 고객들은 AWS 기반 데이터 비용이 감당하기 힘들정도로 부담스러울 수 있다는 것을 경험했다. 단순한 사용성과 저렴한 비용을 앞세운 경쟁사들의 공격적인 영업, 데이터 플랫폼을 애플리케이션 수준의 온디맨드로 진화시키는 매니지드 서비스의 증가 등 새해의 '데이터 클라우드 전쟁'은 이제 막이 올랐다. 사용자는 여러 서비스를 면밀히 비교하고, 자신의 수요에 최적화된 서비스를 취사선택할 수 있는 시기를 맞았다.