데이터 컨설팅 터줏대감 엔코아, 챗GPT에 꽂힌 이유
“데이터 자산화 중 콘텐츠를 만드는 건 노동집약적 일이다. 챗GPT를 활용한 AI 기능은 데이터 표준화, 모델 현행화, 비즈니스 분류 등을 거의 자동으로 수행해 노동직약적 일을 대폭 줄여준다. 컨설턴트 열명이 할 일을 한명이, 10개월 걸릴 작업을 1개월만에 할 수 있게 된다. 컨설팅 업무는 챗GPT를 만나 '노 컨설턴시(No Consultancy)'가 된다.” 김범 엔코아 전략사업본부 전무는 최근 본지와 인터뷰에서 지난 4월 출시한 챗GPT 기반 데이터 모델링 도구를 설명하며 이같이 밝혔다. 데이터 컨설팅 및 솔루션 전문업체 엔코아는 데이터 모델링 도구에 챗GPT 등 생성 AI 기반 기능을 탑재한 '데이터웨어 디에이샵(DA#) AI 파워드 팩'을 4월 출시했다. 엔코아의 디에이샵은 엔터프라이즈급 데이터 모델링 툴로 기업 데이터 아키텍처 전 과정을 체계적으로 설계하고 관리하며 IT 시스템 메타 데이터와 자동 매핑을 지원하는 솔루션이다. 디에이샵 AI 파워드팩은 데이터 표준화 담당자의 수작업으로 수행하던 데이터 논리명 분석부터 표준사전 생성 등에 이르는 자산화 프로세스를 챗GPT를 활용해 수행할 수 있다. 디에이샵 AI 파워드팩은 자연어로 원하는 작업을 요청하면 ▲DBMS 리버스 ▲표준 사전을 활용한 논리명 분석 ▲챗GPT를 활용한 논리명 분석 ▲챗GPT를 활용한 표준사전 생성 ▲챗GPT를 활용한 표준사전 출력 ▲챗GPT를 활용한 테이블 업무 분류 등 다양한 데이터 표준 자동화 기능을 수행한다. 기업이 데이터를 분석하거나 인공지능(AI) 워크로드를 운영하려면 데이터 자산화가 필수적이다. 조직 내외부의 다양한 IT시스템에서 만들어내는 데이터는 형식이나 위치, 형태 등 각각 다르고, 각 이용자별로 적절하게 데이터 접근을 허용 혹은 차단하는 정책도 필요하다. 이런 관리의 틀을 짜고 나서야 데이터 활용의 단계로 들어갈 수 있다. 데이터 관리는 쉽지 않다. 일단 하나의 틀안에 데이터의 흐름을 일관되게 담는게 어렵다. 데이터소스가 다양하기 때문이다. 계정계, 정보계 등 현재 운영중인 시스템과 애플리케이션이 있고, 차세대 시스템으로 이전하기도 한다. 시스템을 이전하면 이동할 데이터의 이사 계획도 있어야 한다. 데이터 자산화는 조직, 전략과 지침, 프로세스, 콘텐츠, 기반시스템 등을 모두 필요로 한다. 김범 엔코아 전략사업본부 전무는 “기업이든 공공기관이든 기존 업무 시스템, 차세대 시스템, 데이터 분석 시스템 등의 데이터를 고품질로 관리하고, 적절한 거버넌스로 활용 체계를 통제 해야 데이터를 제대로 활용할 수 있다”며 “어디에 어떤 데이터가 있고, 서로 어떤 관계가 있으며, 실제로 그 데이터에서 불필요한 것을 제거한 고품질 데이터여야 하는 등 이런 모든 걸 통틀어 데이터 거버넌스라 한다”고 설명했다. 그는 “데이터 거버넌스는 일종의 통제 개념으로, 데이터는 형태, 위치, 표준 등을 갖췄을 때야 비로소 정보로서의 의미를 갖게 되고, 데이터 거버넌스는 궁극적으로 데이터 자산화를 위한 것”이라며 “전체적인 데이터 표준을 데이터 콘텐츠라 하며, 데이터 콘텐츠가 문서 상으로만 존재하는 게 아니라 기반 시스템에서 돌아가고 확인될 수 있어야 데이터 거버넌스를 업무에 쓸 수 있는 것”이라고 덧붙였다. 엔코아의 AI 파워드팩은 중소, 중견 기업이 쉽게 시도하지 못했던 '데이터 자산화'를 대중화한다. 많은 기업이 데이터를 활용하고 싶어 하지만, 야심찬 데이터 플랫폼 구축 사업은 많은 투자를 수반한다. 프로젝트의 주요 고비 중 하나는 데이터 자산화 단계다. 데이터 소스들을 플랫폼에 연결하면서 형식을 표준화 하는 과정에 많은 노동력이 요구되는 탓이다. 하위 사업인 데이터 자산화 프로젝트가 본사업인 플랫폼 구축 프로젝트보다 더 커질 정도다. 데이터 자산화 프로젝트가 수억, 수십억원 규모에 이르므로, 웬만한 대기업 아니면 시도할 엄두도 내지 못하는 게 현실이다. 데이터 콘텐츠를 만들어내는 작업은 주로 수작업이고, 사람이 수천, 수만, 수십만개의 테이블을 일일이 들여다보며 해야 한다. 오래 걸리고, 많은 인원이 필요할 수밖에 없다. 오늘날 많은 데이터 프로젝트에서 컨설턴트가 투입돼 이 수작업을 하고 있다. 김 전무는 “기업이 고유한 영문 약어를 많이 쓰는데 주석이나 표준사전도 없으면 이를 식별하는 것부터 고된 일”이라며 “챗GPT에게 약어 투성이인 테이블을 넣으면 알아서 한글로 바로 변환 해준다”고 말했다. 그는 “정확도는 80%를 상회하며, 이를 기간이나 비용으로 따지면 70~80%를 줄일 수 있다”며 “테이블에서 데이터 간의 관계를 찾는 작업도 조직에서 쓰는 업무 SQL을 넣으면 유사컬럼이나 유상명칭을 찾아 자동으로 관계를 설정해주는 등 표준화, 모델 현행화를 금방 수행해 바로 거버넌스 프로세스로 넘어갈 수 있다”고 덧붙였다. 챗GPT를 활용하면 데이터 분류도 금방 끝난다. 각 테이블을 기업이나 기관의 도메인 날리지에 따라 자동으로 분류해준다. 가령, 대학교의 데이터라면, 각 테이블에서 학적관리, 인사관리, 장학관리 등을 알아서 찾아낸다. 김 전무는 “이런 분류는 데이터 포털, 카탈로그 같은 서비스로 데이터를 찾아주고 싶을 때 필요하다”며 “또한, 마이크로서비스 아키텍처에서 각자 쪼개진 수만, 수십만개 컬럼들을 분류하는 게 매우 복잡하고 힘든 일인데, 챗GPT로 이를 자동화할 수 있다”고 말했다. 이렇게 노동 집약적 업무를 챗GPT가 수행하고, 컨설턴트나 기업 데이터 거버넌스 담당자는 생성된 콘첸츠를 검수하면 된다. 오늘날 생성 AI가 문서작업의 노동을 대폭 줄이는 것과 동일하다. 엔코아 개발팀은 챗GPT를 데이터 모델링 도구에서 사용할 수 있는 자체적인 UX와 인터페이스를 만들었다. 디에이샵에서 챗GPT로 명령어를 날릴 때 백엔드에서 프롬프트를 생성하는 '프롬프트 생성기'도 넣었다. 때문에 채팅하듯 작업하는 대신 자연스러운 데이터 모델링 작업 방식을 그대로 유지하게 했다. 데이터 컨설팅으로 성장한 엔코아가 오히려 컨설팅의 대부분 작업을 자동화하는 도구를 내놓다니 의아할 수 있다. 제살 깎아먹기로 볼 수 있기 때문이다. 김범 전무는 “엔코아 입장에서 데이터 자산화 사업 하나에 컨설턴트 열명을 투입해 5개월하는 대신, 단순 노동 집약적 작업을 생성 AI로 대체해 더 적은 기간에 더 많은 데이터 프로젝트를 수행할 수 있다”며 “고객 입장에서도 비용을 대폭 줄이고, 컨설턴트의 더 좋은 지식을 활용해 더 나은 프로젝트를 만들어갈 수 있다”고 설명했다. 데이터 표준화, 한글화, 모델 현행화 등의 작업 외에도 속성과 컬럼의 유사 데이터를 찾아내는 모델 검토, 데이터를 주제 영역에 맞게 필터링하고 비즈니스별로 분류하는 매핑 등도 가능하다. 심지어 회사의 주사업, 사업내용 등 말로 이뤄진 요구사항을 챗GPT에게 알려주면 알아서 분석해 엔티티와 속성, 타입 등을 도출해주기도 한다. 인덱스와 새 SQL을 추천하는 성능 튜닝 가이드까지 제시할 수 있다. 김 전무는 “주니어 컨설턴트나 모델링 지식을 갖지 못한 사람도 데이터 설계를 할 수 있는 가이드 역할을 챗GPT가 하는 것”이라고 강조했다. 디에이샵 AI 파워드팩은 구독형 서비스로 이용가능하다. 사용하는 기간만 쓰고, 쓴 만큼 비용을 지불하면 된다. 프로젝트 진행중에만 이용하다 종료하면 구독을 끝내면 된다. 생성 AI 기능을 사용하기 위해 챗GPT 계정을 입력하는 게 필요하다. 챗GPT는 유료든 무료든 상관없다. 김 전무는 “일단 챗GPT부터 시작했지만, 국내 기업이든 외국 기업이든 계속 나오는 초거대 AI 모델을 고객 원하는 바에 따라 변경할 수 있게 구조를 만들었다”고 설명했다. 그는 데이터 자산화 과정에서 챗GPT에 고객 데이터를 입력하는 게 아니라고 강조했다. 그는 “보안을 감안한 조치를 취했다”며 “데이터를 표시하는 단순한 메타 정보가 외부망으로 나가는 것이고, 스크램블링을 해서 외부에서 아예 알아볼 수 없게 한다”고 밝혔다.