[기고] 성공적인 AI의 핵심은 데이터
생성형 AI는 최근 몇 달간 다양한 산업을 혁신할 잠재력으로 많은 주목을 받았다. IT 대기업들은 이러한 트렌드를 바탕으로 AI를 중점으로 한 사업 운영 방침을 정립하고 있다. 마이크로소프트는 생성형 AI를 통해 매출이 400억 달러(약 52조 3천억원) 정도 증가할 수 있다고 예측했다. 생성형 AI 시장이 전세계 GDP를 7조 달러(약 9천152조원) 가까이 증가시킬 수 있다는 전망도 나온다. 기업의 약 75%는 향후 5년 이내에 생성형 AI 기술을 도입할 계획을 가지고 있는 것으로 나타났다. 챗GPT(ChatGPT)는 출시 두 달 만에 사용자 1억명을 돌파하고 가장 빠르게 성장한 소비자 애플리케이션으로 자리매김하는 중이다. 그러나 그 어떠한 우수한 AI 모델도 데이터 없이는 무용지물이다. ■ 예전에 없었던 인사이트 위한 빅데이터 중요성 대두 기업이 이전에는 활용되지 않았던 정보에서 인사이트와 가치를 도출하기 위해 AI 모델을 학습시킬 방대한 데이터가 필요하다. 미래의 AI 도구가 과거에는 데이터를 통해 얻을 수 있을 것이라고 상상하지도 못했던 인사이트를 도출하기 위해서는 기업이 최대한 많은 데이터를 보유하는 것이 필요하다. 챗봇이나 이미지, 영상 생성 기술을 비롯한 생성형 AI 기술 도입으로 기업이 관리해야 할 데이터는 더욱 증가할 것이며, 이들에 연관된 추론은 향후 알고리즘을 위해 저장되어야 한다. 시장조사업체 가트너는 현재 데이터 생산량 중 1% 미만을 차지하는 생성형 AI의 데이터 생성량이 2025년에 이르면 전체의 10%까지 증가할 것으로 예측했다. 가트너의 예측과 IDC의 글로벌 데이터스피어 예측 연구(Global DataSphere Forecast)를 바탕으로 추론해보면, 챗GPT, 달리(DALL-E), 바드(Bard), 딥브레인AI(DeepBrain AI)와 같은 생성형 AI 기술은 향후 5년간 제타바이트(ZB) 급의 데이터를 생성할 것이다. 이때, 기업의 데이터 저장 전략이 단순하면서도 비용 효율적인 방식으로 AI 애플리케이션을 학습시키고 도입할 수 있어야만 AI의 이점을 누릴 수 있을 것이다. 대량의 데이터를 저장하기 위해서는 대용량의 저장 공간이 필요하다. 데이터는 지금 당장 저장되어야 한다. ■ 데이터 저장 없이는 AI 모델 학습도 불가능 IDC에 따르면, 2022년에 생성된 기업 데이터의 84%는 분석에 적합했지만, 그 중 24%만이 실제로 분석되거나 인공지능(AI)나 머신러닝(ML) 알고리즘에 입력됐다. 이는 기업이 활용 가능한 데이터 대부분을 제대로 활용하지 못하고 있다는 것을 의미한다. 즉, 비즈니스 가치의 손실을 뜻한다. 마치 전기자동차를 가지고 있으면서 배터리 충전을 하지 않아 목적지에 도달하지 못하는 것과 같다. 데이터가 저장되어 있지 않으면, 아무리 똑똑한 AI 도구도 활용할 수 없다. 기업이 AI 모델을 학습시키기 위해서는 원본 데이터와 생성 데이터를 모두 저장할 수 있는 대용량 저장장치가 필요하다. 이를 가능케 할 강력한 데이터 스토리지 전략 역시 필수적이다. 일부 AI 워크로드와 저장장치는 클라우드로 전환해야 하며, 일부 데이터는 온프레미스에 저장하고 처리해야 한다. 퍼블릭 클라우드 스토리지의 약 90%를 차지하는 하드디스크 드라이브(HDD)는 대량의 데이터 세트를 위해 구축된 비용 효율적이고 내구성이 뛰어나며 신뢰할 수 있는 솔루션이다. HDD는 AI의 지속적인 학습을 위해 공급할 방대한 데이터를 모두 저장할 수 있다. 데이터를 처리한 이후에도 원본 데이터를 보관하는 것은 매우 중요하다. AI가 생성한 콘텐츠와 관련해 지적 재산권 분쟁이 일어날 수 있기 때문이다. AI가 도출한 인사이트의 근거에 대한 문의나 소송에서 저장된 원본 데이터를 제시하면 소유권과 결론의 건전성을 입증하는 데에 도움이 될 것이다. 데이터의 품질 역시 인사이트의 신뢰성에 영향을 미친다. 따라서, 데이터 품질을 개선하기 위해 기업은 데이터 전처리, 데이터 라벨링, 데이터 증강, 데이터 품질 측정방법 모니터링, 데이터 거버넌스, 관련 분야 전문가의 검토 등의 방법을 활용해야 한다. ■ 저장 비용과 AI 인사이트 증대 사이 균형 찾아야 데이터 보존 비용의 문제로 기업들이 데이터를 삭제하는 경우가 발생한다. 기업은 비용과 비즈니스 가치를 창출할 수 있는 AI 인사이트의 필요성 사이에서 균형을 잘 맞춰야 한다. 선도 기업은 데이터 비용을 절감하기 위해 클라우드 비용을 비교하고 예측할 수 있는 인프라를 구축한다. 이 때, 온프레미스 스토리지의 경우, HDD로 구축된 총소유비용 최적화 스토리지 시스템을 고려해야 한다. 또한, 시간 경과에 따른 데이터 및 워크로드 패턴 모니터링을 우선적으로 진행하면서 가능한 경우에는 워크플로우를 자동화해야 한다. AI 모델 학습에 필요한 데이터를 식별하기 위해서는 포괄적 데이터 분류가 필수적이다. 포괄적 데이터 분류에는 개인 정보나 금융 데이터와 같은 민감한 데이터가 규제를 준수하며 처리되도록 보장하는 것이 포함된다. 그 뿐만 아니라, 철저한 데이터 보안 관련 규정이 필요하다. 많은 기업에서 데이터를 안전하게 보관하기 위해 암호화하는데, AI 알고리즘은 암호화된 데이터에서 학습할 수 없기 때문에 AI 학습을 위해 데이터를 안전하게 해독하고 다시 저장할 때 재암호화 할 수 있는 프로세스가 필요하다. ■ 성공적인 AI 분석을 위한 데이터 처리 지침 ▲ AI 시대에 들어서며 데이터의 중요성이 더욱 커졌기 때문에, 더 많은 데이터를 저장하는 습관을 들여야 한다. 원본 데이터와 인사이트를 모두 보관하는 것이 중요하며, 저장할 수 있는 데이터에 제한을 두는 것이 아니라 삭제할 데이터에 제한을 두어야 한다. ▲ 데이터 품질을 개선하는 프로세스를 수립해야 한다. ▲ 데이터 비용을 절감하기 위해 검증된 방법을 도입해야 한다. ▲ 데이터 분류와 규정 준수를 철저하게 해야 한다. ▲ 데이터를 안전하게 보관해야 한다. 위와 같은 조치 없이는 아무리 뛰어난 생성형 AI 모델일지라도 그 효용이 떨어진다. ■ 데이터 저장·관리 전략, AI 성공 좌우할 것 생성형 AI가 등장하기 전에도 데이터는 혁신을 위한 열쇠였다. 멀티클라우드를 능숙하게 관리하는 기업들은 그렇지 못한 기업에 비해 목표 매출 달성 가능성이 5.3배 높다. 생성형 AI 클라우드는 기업 간 혁신의 격차를 더 크게 벌릴 수 있다. 현재 생성형 AI를 둘러싼 가장 큰 화두는 혁신 잠재력이다. 하지만 비즈니스 리더는 머지않아 데이터 저장 및 관리 전략이 AI 성공의 성패를 좌우하는 요소라는 것을 깨닫게 될 것이다.