"HPE 통합 데이터 플랫폼, 생성 AI도 준비됐다"
"HPE는 데이터의 위치에 상관없이 원하는 곳에 하이브리드 통합 데이터 플랫폼을 애즈어서비스로 제공한다. HPE 에즈메랄은 데이터 패브릭, 애널리틱스, 인공지능(AI) 및 머신러닝에 이르는 모든 데이터 관련 기술을 통일된 경험으로 접근하게 한다. 인프라부터 소프트웨어와 OS, 컨테이너, 분석 등의 엔드투엔드 플랫폼을 애즈어서비스로 제공하는 건 HPE 에즈메랄이 전세계에서 유일하다. HPE 에즈메랄은 오늘날 화두인 생성형 AI에도 완벽히 준비돼 있다." 마하얀 리드하브 HPE APAC 에즈메랄 헤드 겸 CTO는 13일 개최된 한국HPE 주최 '포캐스트(ForCast) 2023' 컨퍼런스 현장에서 본지와 만나 이같이 밝혔다. HPE 에즈메랄은 데이터 수집, 저장, 처리, 분석, 시각화 등 일련의 데이터 워크플로우를 구성할 수 있는 통합 데이터 플랫폼이다. HPE가 시장에서 주류를 형성하는 오픈소스 데이터 기술을 검증해 플랫폼 형태로 제공한다. 크게 데이터 저장 및 처리 영역의 '데이터 패브릭'과 데이터 활용 영역인 '유니파이드 애널리틱스'로 구성된다. HPE 에즈메랄 플랫폼 전반은 쿠버네티스 기반 컨테이너 플랫폼으로 운영된다. 퍼블릭 클라우드나 데이터 플랫폼 전문업체의 상용 서비스는 편리함이란 장점과 함께 비용과 데이터 소유권 문제 등의 단점을 갖는다. 반면, 오픈소스 기술은 낮은 비용과 통제력을 장점으로 하지만 표준화와 유지보수를 하기 어렵다는 단점을 가졌다. HPE는 오픈소스 소프트웨어와 상용 서비스 각각의 장점에 플랫폼 유지 및 기술지원을 더해 에즈메랄을 만들어왔다. 마하얀 리드하브 CTO는 “현재 분석이나 AI 기술과 관련해 고객에게 가장 문제되는 게 레거시 하둡을 현대화할 수 없다는 것”이라며 “HPE 에즈메랄은 분석, AI를 현대적 기술 스택 위에 구축되도록 함으로써 온프레미스든 퍼블릭 클라우드든 데이터 위치에 관계없이 동일한 경험을 누리게 한다”고 설명했다. 그는 “HPE 에즈메랄은 수년간 투자를 거쳐 만들어졌는데, 데이터 패브릭 레이어를 위해 맵알을 인수하고 분석을 위해 다수의 스타트업과 기술을 인수했다”며 “데이터 엔지니어링, 데이터 사이언스, 시각화 등 관련 기술과 엔지니어링 인력을 확보해 다양한 기술을 하나로 묶어 통합된 인터페이스를 구축하고, 고객은 버튼 하나만 누르면 원하는 앱을 마음대로 만들게 하는 게 목표”라고 강조했다. HPE 에즈메랄 데이터 패브릭은 파일, 오브젝트, 스트림, 하둡 및 NoSQL 데이터베이스 등 다양한 유형의 데이터를 저장하는 데이터레이크다. 어떤 형태의 API로 데이터를 줘도 저장할 수 있다. 맵알의 고성능 빅데이터 기술을 포함하고, 델타레이크나 아파치 아이스버그 등의 데이터레이크 형식도 자유롭게 선택할 수 있다. 데이터 스트림은 카프카로 조율한다. 쿼리 엔진으로 프레스토나 아파치 스파크를 활용할 수 있고, 데이터 엔지니어링 툴로 에어플로우와 슈퍼셋을 쓸 수 있다. 모니터링과 트레이싱 등을 위한 가시성 도구를 제공하며, 데이터사이언스 툴로 쿠브플로우(Kubeflow), ML플로우, Feast, 레이 등을 쓸 수 있다. 그는 “엣지든 코어든 위치에 관계 없이 수백페타바이트 규모의 데이터를 처리하고자 하는 요구가 있다면 그에 대한 대응을 애즈어서비스로 제공할 수 있다”며 “실제로 BMW가 250페타바이트 규모의 데이터 플랫폼을 운영하는데 HPE 에즈메랄을 사용하고 있다”고 말했다. 그는 “HPE가 인프라와 데이터 플랫폼에 전사적 역량을 동원해 집중 지원하므로 고객은 기술적 내용을 알 필요도 없어진다”며 “고객이 이미 활용중인 자체 툴이나 기술을 가져올 수도 있고, 여러 오픈소스 대규모언어모델(LLM)이나 벡터 데이터베이스, 프롬프트 엔지니어링, 프롬프팅 툴 등 다양한 오픈소스 도구도 마음껏 붙여 쓸 수 있다”고 설명했다. 그는 “에즈메랄의 규모는 200~300페타바이트급에 이르며, 머신 한대당 1페타바이트까지 가능하다”며 “기존 하둡 기술로 구현한 경쟁 서비스 대비 규모에서 10배 크며, 대규모로 핫, 웜, 콜드 등의 데이터 환경을 한번에 구축할 수 있다”고 덧붙였다. HPE는 에즈메랄 플랫폼에 주요 오픈소스 기술을 지속적으로 병합하고 있다. 고객사에서 많이 사용되는 특정 기술이 있다고 판단되면, 직접 에즈메랄 플랫폼 내에 포함시킨다. 작년까지 제공하지 않았던 피스트나 레이가 올해부터 지원되기 시작했고, 그전엔 쿠브플로우(Kubeflow)와 ML플로우 등이 추가됐다. HPE의 오픈소스 엔지니어링팀은 에즈메랄 플랫폼의 다양한 기술에 24시간 7일의 기술지원을 제공한다. 그는 “고객은 어떤 것을 원하든 해결하고자 하는 문제에 집중하고, HPE는 모든 기술 통합 플랫폼을 제공하는 것”이라고 강조했다. 그는 “디터민드AI와 파키덤 같은 회사를 인수해 에즈메랄 플랫폼에 통합시켰고, 각종 첨단의 도구를 한 플랫폼에서 제공함으로써 단일 인터페이스, 싱글사인온, 완벽한 보안 등을 갖춘 임베디드 쿠버네티스로 제공한다”며 “아마존 EMR이나 구글 빅쿼리, 스노우플레이크 같은 기술은 인프라단의 쿠버네티스와 상호작용하기 어렵게 돼 있는데, HPE 에즈메랄은 쿠버네티스로 긴밀히 연결돼 있다”고 말했다. 그는 HPE 에즈메랄로 고객의 다양한 수요에 대응할 수 있다고 했다. 레이크하우스 구축이든, 데이터 가상화든, ML옵스 든 다양한 아키텍처를 지원할 수 있다고 강조했다. 수년전부터 쿠브플로우(Kubeflow)와 ML플로우에 투자하면서 ML옵스 아키텍처에 필요한 모든 구성요소를 구비했다고 했다. 이는 생성형 AI에서 HPE 에즈메랄의 강점과 연결된다. 그는 “2020년 업계에서 ML옵스가 화두였고, 각종 ML 프레임워크, 데이터 엔지니어링, 워크플로우, 모델 레지스트리, 매니지멘트. 모델 서빙, 모니터링 등의 측면의 역량을 갖춰왔다”며 “오픈AI 챗GPT 등장 후 기업의 CEO가 자신만의 챗GPT를 원한다고 말하고 있는데, 생성형 AI에서도 데이터 플랫폼의 아키텍처는 바뀌지 않는다”고 설명했다. 현재 각 기업의 생성형 AI 도입 방안은 세가지로 나뉜다. 아예 파운데이션 모델을 처음부터 새로 개발하는 것과 시중의 오픈소스 모델을 가져다 미세조정해 활용하는 것, LLM을 건드리지 않고 프롬프트에 초점을 맞추는 '인컨텍스트 러닝(in context learning, ICL)'을 시도하는 것 등이다. 그는 “세 방식 모두 컨텍스트가 중요하며, 그를 실행하려면 반드시 데이터 준비 도구가 필요하다”며 “여전히 데이터를 정제해 적절하게 가공해야하고, GPU 환경도 관리해야 하며, ML 프레임워크를 데이터 사이언티스트에게 제공해야하고, 프로덕션 배포 후 운영도 해야 한다”고 말했다. 그는 “생성형 AI로 간다고 해도 ML옵스가 이뤄져야 한다는 건 여전히 변함없다”며 “새롭게 나오고 있는 LLM 스택은 HPE의 ML옵스 스택과 같은 방향성을 보여주며, 새로운 LLM 기술 스택은 이미 에즈메랄의 ML옵스 상에서 구동될 수 있다”고 덧붙였다. BMW는 HPE 에즈메랄을 통해 자율주행, ADAS 등에 필요한 데이터 환경을 운영하고 있다. 데이터 인입부터 ML 모델의 프로덕션 배포에 이르기까지 에즈메랄로 수행한다. 리드하브 CTO는 그밖에 통신기업, 은행, 제조업, 공공부문 등에서 다양한 고객을 확보했다고 강조했다. 그는 “한국 시장은 데이터 분석과 AI에서 상당히 성숙한 시장이며, 다수의 한국 고객과 함께 협력해왔다”며 “HPE는 고객의 AI 이니셔티브를 지원해 그 가치를 더 하고, 각 조직의 AI 이니셔티브를 성공적 수행하게 할 것”이라고 말했다. 국내의 HPE 에즈메랄 공식 총판 및 파트너는 에티버스다. 에티버스는 하드웨어 기술 역량과 데이터 플랫폼 구축 역량을 갖추고 고객사와 도메인 전문 파트너의 에즈메랄 플랫폼 활용을 지원하고 있다. 박용관 에티버스 하이브리드IT 사업부 솔루션서비스팀 상무는 “에티버스는 도메인 지식을 보유한 1차 파트너와 HPE 사이에서 에즈메랄 플랫폼의 원활한 도입과 활용을 위한 기술을 지원하고 있다”며 “현장의 전문성과 HPE의 데이터 플랫폼이 잘 융합되도록 엔지니어링 역량을 구축했다”고 밝혔다.