스노우플레이크, 아이스버그용 오픈소스 카탈로그 공개
[샌프란시스코(미국)=김우용 기자] 스노우플레이크가 아파치 아이스버그 호출 API를 표준화할 수 있는 데이터 카탈로그를 공개했다. 스노우플레이크는 3일(현지시간) 미국 샌프란시스코에서 개최한 '스노우플레이크 서밋 2024'에서 '폴라리스 카탈로그(Polaris Catalog)'를 발표했다. 폴라리스 카탈로그는 개방형 데이터 카탈로그 서비스로, 데이터 레이크하우스, 데이터 레이크 및 기타 모던 아키텍처를 구현하는 데 주로 사용되는 오픈소스 데이터 테이블 포맷인 아파치 아이스버그를 지원한다. 아마존웹서비스(AWS), 컨플루언트, 드레미오, 구글 클라우드, 마이크로소프트 애저, 세일즈포스 같은 주요 클라우드 서비스 플랫폼과 상호 호환된다. 론 올트로프 스노우플레이크 데이터레이크&아이스버그 제품 매니저는 “폴라리스 카탈로그는 아파치 아이스버그 API의 참조 구현”이라고 요약했다. 그는 “아파치 아이스버그는 개방형 테이블 형식으로 운영 또는 메타데이터 카탈로그 서비스를 사용한다”며 “스노우플레이크 테이블을 만들 때 ACID를 준수하는 메타데이터 스냅샷을 통해 일관된 데이터를 쿼리할 수 있는데, 이러한 메타데이터 스냅샷은 아이스버그 카탈로그에 대한 API 호출을 통해 얻을 수 있다”고 설명했다. 그는 “아파치 아이스버그 오픈소스 사양에 REST API가 있지만, 해당 사양의 오픈소스 참조 구현은 없다”며 “이 때문에 고객은 API가 호출에 응답할 수 있도록 엔드포인트와 인프라, API 작동 코드 등을 자체적으로 구축해야 하는데, 이제 스파크, 트리노, 스노우플레이크 등과 상호 운용 가능한 컴퓨팅 엔진에서 아파치 아이스버그를 활용하려는 모든 사람은 폴라리스에서 동일한 API를 사용할 수 있다”고 밝혔다. 폴라리스 카탈로그를 이용하면 아파치 아이스버그 테이블을 쿼리하기 위한 API 호출 코드를 구글 클라우드 내부에서, 마이크로소프트 패브릭 내부에서 동일하게 사용할 수 있다. 사용자는 아이스버그의 오픈소스 REST 프로토콜을 기반으로 하는 폴라리스 카탈로그를 통해 중앙화된 서비스에서 보안과 개방된 상호 운용성을 보장 받으며, 아파치 플링크, 아파치 스파크, 드레미오, 파이썬, 트리노 등 아이스버그 REST API를 지원하는 모든 엔진의 데이터를 액세스하고 검색할 수 있다. 기업들은 스노우플레이크의 AI 데이터 클라우드 내에서 폴라리스 카탈로그를 빠르게 실행할 수 있으며, 도커나 쿠버네티스 같은 컨테이너를 사용해 자체 인프라에서 직접 호스팅 할 수도 있다. 백엔드 구현을 오픈소스로 제공하는 폴라리스 카탈로그를 통해 보안은 유지하면서 자유롭게 호스팅 인프라를 교체하고 특정 공급자에 종속되는 것을 방지할 수 있다. 슈리다 라마스워미 스노우플레이크 CEO는 스노우플레이크서밋 2024 기조연설에서 “AI 데이터 클라우드의 범위와 기능 확장에 따라 많은 고객, 특히 대기업이 보안과 데이터 액세스를 중앙 집중화할 수 있는 더 나은 방법을 요청해 왔다”며 “올바른 엔진 또는 올바른 작업을 적용하고 새로운 사용 사례에 스노우플레이크를 테스트할 수 있는 간단하고 효율적인 방법을 원한다”고 말했다. 그는 “폴라리스 카탈로그는 개방형 카탈로그 인터페이스로 AWS, 구글, 마이크로소프트 애저, 기타 여러 리더 등과 호환성을 제공하게 한다”며 완벽한 제어와 유연성을 제공하며, 향후 90일 이내에 카탈로그 인터페이스를 오픈소스화할 것”이라고 밝혔다. 폴라리스 카탈로그 서비스는 특정 공급자가 제품을 임의로 통제할 수 없는 벤더 중립으로 향후 90일 이내에 오픈소스로 공개될 예정이다. 이를 통해 다양한 기업과 아이스버그 커뮤니티에서 새로운 기능과 유연성, 철저한 기업 보안을 유지하며 데이터를 활용할 수 있을 것으로 전망된다. 아파치 아이스버그는 2020년 5월 인큐베이션 단계를 마치고 아파치 소프트웨어 재단의 최상위 프로젝트로 등록됐다. 이후 개발자들의 높은 관심을 받으며 대표적인 오픈소스 데이터 테이블 포맷으로 자리 잡았다. 아파치 아이스버그는 커뮤니티 구성원들이 활발하게 도입하고 상업적 서비스로 활용하면서 빠른 속도로 발전하고 있다. 스노우플레이크는 폴라리스 카탈로그가 커뮤니티를 확장하고 점차 높아지는 사용자 기대치를 충족하기 위해 아이스버그 생태계와 협력해 나가고 있다. 스노우플레이크의 적극적인 커뮤니티 지원은 최근 마이크로소프트와 확장한 파트너십과도 연결된다. 양사는 업계를 주도하는 오픈 스토리지 포맷 표준인 아파치 아이스버그와 아파치 파케이를 지원하고, 이에 따라 스노우플레이크와 패브릭 간 상호 운용성 또한 원활해졌다. 이제 양사는 폴라리스 카탈로그를 통해 데이터의 저장 위치에 상관없이 모든 사용자가 엔터프라이즈 데이터를 활용해 AI 기반 애플리케이션을 대규모로 생성하도록 협업해 나갈 예정이다. 스노우플레이크는 전 세계 수천 개 고객의 크로스 클라우드 데이터 및 AI 워크로드를 지원하는 데이터 기반으로서의 전문성과, 빠르게 성장하는 아이스버그 커뮤니티의 혁신 및 오픈소스 기술을 바탕으로 서로 다른 엔진 간 데이터 상호 운용성을 간소화할 계획이다. 폴라리스 카탈로그는 아이스버그 테이블에 대한 투자와 마찬가지로 오픈소스의 발전을 향한 스노우플레이크의 의지이기도 하다. 이를 통해 스노우플레이크 고객은 아파치 아이스버그 포맷으로 각자의 스토리지에서 데이터 작업을 수행할 수 있으며, 스노우플레이크의 사용 편의성, 성능 및 통합 거버넌스의 혜택도 누릴 수 있다. 최근 스노우플레이크는 개방형 엔터프라이즈급 LLM 스노우플레이크 아크틱을 발표했다. 오픈소스 생태계를 지원하기 위해 아크틱은 아파치 2.0 라이선스 기반 오픈소스로 공개됐으며 매뉴얼 개념인 쿡북을 통해 자세한 내용을 소개하고 있다. 스노우플레이크는 현재 매월 27만 5천명 이상의 현역 개발자와 매월 600만 건 이상의 애플리케이션 조회수를 보유한 스트림릿 오픈소스 커뮤니티를 지원한다. 스트림릿은 2022년 3월 스노우플레이크에 인수된 후 지난 2년 동안 500% 이상 성장해 왔다. 스노우플레이크와 스트림릿은 개발자를 위한 최첨단 오픈소스 발전에 아낌없는 투자를 이어가고 있다.