AI가 데이터 찾아 분석…'마이크로소프트 패브릭'의 정체
마이크로소프트가 애저를 비롯한 자사의 모든 데이터 관련 제품과 서비스를 한데 묶은 통합 데이터 분석 플랫폼을 내놨다. 데이터 수집부터 분석, 시각화에 이르는 일련의 데이터 프로세스를 단일 환경의 소프트웨어에서 할 수 있다. 차별점은 마이크로소프트답게 생성 AI 기반의 '코파일럿'이다. 마이크로소프트는 지난 23일 미국 시애틀에서 개최한 '마이크로소프트 빌드 2023' 컨퍼런스에서 통합 데이터 분석 플랫폼 '마이크로소프트 패브릭'을 공개했다. 마이크로소프트 패브릭은 데이터 분석에 필요한 수집, 처리, 저장, 통합, 분석, 시각화, 보안, 거버넌스 등 각종 하위 시스템을 망라해 구성된 데이터 플랫폼이다. 서비스형 소프트웨어(SaaS) 형태로 제공되며 일련의 분석 프로세스를 자동화해 데이터 엔지니어, 데이터웨어하우스 담당자, 데이터 과학자, 분석가, 비즈니스 사용자 등이 함께 활용할 수 있다. 스콧 거스리 마이크로소프트 클라우드+AI 기업부사장(CVP)은 기조연설에서 "데이터는 AI를 실제로 강화하는 연료이며, AI는 데이터에 따라 우수해지므로 훌륭한 데이터 분석과 관리 기반을 마련하는 게 어느때보다 중요해졌다"며 "마이크로소프트 패브릭은 AI 시대를 위해 설계된 통합 데이터 분석 플랫폼"이라고 소개했다. 그는 "패브릭은 전체 계층에서 모든 분석 도구를 하나의 공통 아키텍처와 단일 경험을 가진 완벽한 제품으로 통합한다"며 "조직의 모든 사람에게 단일 정보 소스를 제공하고, 이를 보호하는 단일 방법을 제공하며, 모든 리소스를 가장 비용 효율적인 방식ㅇ로 사용할 수 있도록 지원한다"고 강조했다. 마이크로소프트 패브릭은 크게 8가지 요소로 이뤄졌다. 모든 데이터를 모으는 데이터저장소는 데이터레이크인 '원레이크(OneLake)' 위에 데이터팩토리, 시냅스 데이터 엔지니어링, 시냅스 데이터 애널리틱스, 시냅스 데이터웨어하우징, 시냅스 리얼타임 애널리틱스, 파워BI, 데이터 액티베이터 등이 존재한다. ■ 데이터 프로세스 자동화, 보안 및 거버넌스 적용까지 데이터팩토리는 클라우드나 온프레미스 데이터 원본에 대한 150개 이상의 커넥터, 데이터 변환을 위한 끌어서 놓기 환경, 데이터 파이프라인 오케스트레이션 기능 등을 제공한다. 시냅스 데이터 엔지니어링은 아파치 스파크 작성 환경, 라이프풀로 즉시 시작, 공동 작업 등의 기능을 제공한다. 시냅스 데이터 사이언스는 데이터 과학자를 위한 요소로, 정교한 AI 모델을 구축해 공동 작업하며 머신러닝 모델을 교육, 배포, 관리할 수 있는 워크플로우를 제공한다. 시냅스 데이터웨어하우징은 통합된 DW와 데이터레이크하우스 환경을 제공한다. 개방된 데이터 형식에서 SQL 성능을 활용할 수 있다. 시냅스 리얼타임 애널리틱스는 사물인터넷(IoT) 장치, 원격 분석, 로드 등의 스트리밍 데이터를 처리하는 요소다. 고성능과 짧은 대기시간으로 반정형 데이터를 분석할 수 있다. 패브릭의 파워BI는 비즈니스 분석가와 사용자를 위한 분석 및 시각화 도구다. 마이크로소프트365와 통합돼 엑셀, 팀즈, 파워포인트, 셰어포인트 등 비즈니스 사용자의 데이터를 분석할 수 있다. 데이터 액티베이터는 데이터 실시간 감지와 모니터링을 제공한다. 코드 없는 환경에서 데이터의 지정된 패턴을 찾아 알림과 작업 트리거를 수행한다. 데이터레이크인 '원레이크'는 마이크로소프트 패브릭의 모든 사용자에게 제공되는 데이터를 담는 곳이다. 다중 클라우드 데이터레이크로서, 모든 패브릭 내 워크로드는 마이크로소프트365 원드라이브처럼 자동으로 원레이크에 연결된다. 데이터는 직관적 데이터 허브에서 구성되고, 검색, 공유, 거버넌스, 규정준수 등을 위해 자동으로 인덱싱된다. 데이터 사용자에 따라 별도의 스토리지 환경을 구성, 할당하지 않아도 된다. 그러면서 중앙에서 정책과 보안설정을 할 수 있다. 원레이크는 API 계층에서 애저 데이터레이크 스토리지 젠2(ADLSg2)를 기반으로 호환되며, ADLSg2의 애플리케이션과 도구, 개발자 생태계를 바로 사용할 수 있다. 마이크로소프트는 원레이크의 핵심 기능으로 '바로기기'를 꼽았다. 원레이크는 데이터 이동이나 복제 없이 사용자 애플리케이션 간 데이터 공유를 쉽게 할 수 있다. 일종의 데이터 가상화 기능인 '바로가기'를 이용해 ADLSg2, 아마존 심플스토리지서비스(S3), 구글스토리지 등의 데이터레이크 스토리지에 대한 데이터를 구성하고 분석할 수 있게 한다. 데이터 패브릭의 기본 데이터 포맷은 오픈소스 형식인 '파케이(Parquet)'와 '델타(Delta)'를 사용한다. 파케이는 하둡의 창시자인 더그 커팅 주도로 개발된 로레이턴시 데이터 포맷이다. 이용자는 패브릭에 한번만 데이터를 로드하면 되고, 모든 워크로드는 데이터를 별도로 수집하지 않고 동일한 데이터에서 작동할 수 있다. 원레이크는 모든 정형 데이터와 비정형 데이터를 지원해 유연성도 제공한다. 마이크로소프트는 "서로 다른 데이터 엔진에서 테이블, 열, 행 수준 등의 데이터 보안을 관리하는 것은 지속적인 악몽일 수 있다"며 "패브릭은 원레이크에서 관리되는 범용 보안 모델을 제공하고, 모든 엔진은 쿼리와 작업을 처리할 때 균일하게 적용한다"고 설명했다. ■ 생성 AI가 수행하는 데이터 분석 업무 마이크로소프트 패브릭처럼 모든 데이터 처리 요소를 하나의 플랫폼으로 제공하는 회사는 많다. 단일한 데이터레이크와 통합된 아키텍처를 사용해 데이터 사일로를 줄이고, 적절한 보안과 거버넌스를 운영할 수 있다는 점도 경쟁사의 시도와 유사하다. 단, 마이크로소프트 패브릭은 현존하는 여러 데이터 플랫폼에 존재하지 않는 생성 AI로 차별화됐다. 마이크로소프트 패브릭 코파일럿은 사용자의 데이터 인사이트 확보를 돕는 부조종사다. 사람의 언어로 대화하면서 데이터 흐름과 데이터 파이프라인을 생성하고, 코드와 전체 기능을 만들 수 있으며, 머신러닝 모델을 구축하거나 결과를 시각화할 수 있다. 개발자는 애저 오픈AI 서비스 모델과 데이터를 결합하고 플러그인을 게시하는 고유한 코파일럿도 만들 수 있다. 스콧 거스리 부사장은 "패브릭의 코파일럿 지원을 통해 AI를 사용해 매우 새로운 방식으로 데이터를 이해하고 추론할 수 있다"며 "패브릭의 서버리스 데이터 관리 엔진은 고급 시나리오에 맞게 조정됐다"고 강조했다. 기조연설에서 공개된 패브릭 코파일럿의 데모 영상 속 모습은 놀랍다. HR 분석가는 경영진의 새로운 분석 요청에 보고서를 작성해야 한다. 일반적으로 HR분석가는 사내 DW나 빅데이터 시스템에서 원하는 데이터를 검색 및 조회한다. 이때 최신으로 업데이트되지 않은 데이터를 얻게 되면, 데이터 엔지니어 조직에 최신 정보를 요청한다. 데이터 엔지니어가 최신 데이터를 찾아 넘겨줄 때까지 HR분석가의 업무는 중단된다. 이렇게 데이터를 확보했다면 분석가는 자신의 도구를 활용해 데이터에서 인사이트를 뽑아내게 된다. 만약 흐름을 충분히 인지했다면 좋지만, 아니라면 데이터 분석에 많은 시간을 들인다. 분석한 결과는 경영진을 위해 일목요연하게 시각화해야 한다. 이런 일반적 작업은 몇시간, 심지어 며칠씩 걸릴 수 있다. 패브릭 파워BI의 코파일럿은 작성하려는 보고서를 간단히 설명하고 몇 초 만에 인사이트를 제공한다. 인구 통계나 고용 추세를 이해하기 위해 일부 직원 데이터에 대한 분석을 해야 한다면, 원하는 것을 자연어로 설명하고 코파일럿이 데이터를 자동으로 분석하고 새 보고서를 작성해준다. 데이터를 쪼개면서 더 깊이 있게 탐색할 수도 있다. 요청한 차트와 슬라이서에서 필요한 만큼 출력을 조정할 수도 있다. 약간 다른 레이아웃에서 측정 항목과 추세를 요청하도록 하면, 코파일럿이 자동으로 보고서를 업데이트한다. 실질적인 의사결정에 도움되는 분석 요청도 가능하다. 가령 회사의 감소율 증가 이유를 물어보는 식이다. 코파일럿이 보고서에 새 페이지를 추가해 파워BI의 고급분석 기능을 활용해 데이터 변수에 대한 주요 영향 요인을 찾아준다. 다양한 직원 유형에 따른 이직률을 요약하고, 주요 영향 요인의 시각적 객체를 찾아 무엇 때문에 이직률이 증가하는지 확인할 수 있다. 가장 중요한 부분을 강조표시해주기도 한다. 보고서를 임원 대시보드처럼 만들 수도 있다. 코파일럿은 기존의 대시보드와 동일한 서식과 스타일을 적용하고 레이아웃을 조정해준다. 코파일럿으로 팀내 동료가 보고서를 쉽게 이해하도록 데이터에 대한 텍스트 설명을 추가할 수 있다. 통찰력 강조뿐 아니라 데이터 새로 고침이나 동료의 보고서 필터링 때마다 요약을 업데이트한다. 사티아 나델라 마이크로소프트 회장은 마이크로소프트 패브릭에 대해 "수년에 걸쳐 작업해온 제품이며 SQL서버 출시 이후 가장 큰 데이터 제품 출시"라고 강조했다. 그는 "컴퓨팅과 스토맂를 통합하고 모든 전체 분석 스택 제품의 경험을 통합하며, 거버넌스를 분석과 통합한다"며 "SQL, 머신러닝 등 다양한 유형의 분석 워크로드 전반에 걸쳐 비즈니스 모델을 통합하며, 어떤 작업을 원하는 동일한 컴퓨팅 인프라를 사용할 수 있다"고 덧붙였다. 마이크로소프트 패브릭의 대부분 기능은 미리보기로 이용가능하고, 데이터 액티베이터만 추후 출시될 예정이다. 애저 사용자라면 무료로 평가판을 이용할 수 있다.기존 파워BI 프리미엄 가입자는 관리포털에서 간단히 패브릭을 활성화할 수 있다. 7월1일 이후 모든 파워BI 가입자는 패브릭을 활성화할 수 있다. 현재 퍼거슨, T모바일, 에이온 등이 마이크로소프트 패브릭의 사전테스트에 참여해 활용중이다. 기존의 애저 시냅스 애널리틱스, 애저 데이터팩토리, 애저 데이터 익스플로러 등의 서비스는 계속 PaaS 형태로 이용가능하다. 마이크로소프트 패브릭은 도입 기간을 단축하고 곧바로 활용할 수 있는 형태로 보면 된다.