"생성형 AI의 보안은 '안전'과' 정확성'을 함께 원한다"
“기업은 AI를 활용할 때 관리 가능하고 안전할 뿐만 아니라, 매우 정확하고 관련성 높은 결과물을 요구한다. 이미 챗봇이 '환각' 현상으로 인해 고객에게 부정확한 답변을 제공하고, 이로 인해 기업이 어려움을 겪은 사례도 많이 존재한다. 좋은 AI 전략을 세우려면 강력한 데이터 전략이 필요하다. 기업은 사내에서 자체 AI 모델을 구축하고, 기업 내부 데이터로 해당 모델을 학습시켜 부정확한 답변을 생성하지 않도록 하며, 궁극적으로 지적재산(IP)에 대한 소유권을 갖기를 원하고 있다.” 페르민 세르나 데이터브릭스 최고보안책임자(CSO)는 본지와 서면인터뷰에서 최근 생성형 인공지능(AI) 트렌드 속에서 나타나는 데이터 보안 분야의 체크포인트를 이같이 요약했다. 그는 “AI는 자동화로 생산성을 향상시키고, 데이터에 기반한 의사 결정을 통한 효율성 증대와 성공적인 비즈니스 등 다양한 이점을 제공한다”며 “미국을 비롯한 전 세계 조직이 이러한 이점을 인지함에 따라 AI를 도입하는 사례가 늘고 있지만 동시에 보안과 개인정보 보호에 관한 우려로 인해 AI 프로젝트를 실제 업무에 적용할 때 신중을 기하는 추세”라고 설명했다. 기업의 데이터 보안 전략은 생성형 AI 환경에서 새롭게 업그레이드돼야 하는 상황이다. 데이터 통제 및 관리, 규제 준수 같은 안전을 보장하는 생성형 AI를 만들면서도, 맥락에 적합한 정확한 답변과 성능을 구현해야 한다. IT 보안이 생성형 AI를 맞아 전보다 더 넓은 범위를 고려해야 하는 것이다. 이에 대해 페르민 세르나 CSO는 중요한 조언을 몇가지 제시했다. 그는 단일한 데이터 플랫폼을 구축해 통합적인 보안과 거버넌스 체계를 갖춰야 한다고 강조했다. 데이터 및 AI에 대한 통합 가시성, 데이터 및 AI에 대한 단일 권한 모델, AI 기반 모니터링 및 통합 가시성 등의 접근 방안을 소개하기도 했다. Q. 기업용 생성형 AI에 대해 내부 데이터를 접근할 때 권한 및 보안등급 관리, 규제 준수 등 거버넌스와 컴플라이언스 이슈가 있다. 이에 대한 조언을 한다면? 지난해 JP 모건 체이스, 버라이즌, 삼성전자 등이 고객 정보 및 소스 코드에 대한 통제권을 잃을 수 있는 잠재적 위험을 줄이기 위해 챗GPT 사용을 금지한다고 발표한 바 있다. 이는 거버넌스 도구를 '데이터의 세계'에서 '데이터와 AI의 세계'로 확장해야 하는 이유를 보여주는 대표적인 예다. 서로 다른 여러 플랫폼, 시스템 및 공급업체에 걸쳐 데이터와 AI를 관리하는 일은 매우 복잡하다. 모든 조직이 직면하고 있는 가장 큰 과제 중 하나는, 데이터 사일로와 데이터 개인정보 보호 및 제어에 관한 문제다. 조직에서 사용하는 시스템이나 플랫폼마다 데이터가 중복되거나 시스템 간에 이동될 수 있으며, 또 플랫폼마다 보안 및 거버넌스에 대한 접근 방식이 다를 수 있다. 레이크하우스 아키텍처에 구축된 데이터브릭스 데이터 인텔리전스 플랫폼과 같은 단일 통합 플랫폼을 선택하면 통합 보안 및 거버넌스를 통해 하나의 데이터 사본을 AI에서 비즈니스 인텔리전스(BI)에 이르는 다양한 사용 사례에 저장하고 사용할 수 있어, 이러한 보안 위험을 완화할 수 있다. Q. 데이터브릭스는 생성 AI 시대의 데이터 거버넌스와 컴플라이언스에 어떤 해법을 제시할 수 있나? 데이터브릭스는 2020년에 데이터 웨어하우스와 데이터 레이크의 장점을 결합하고 통합하기 위해 레이크하우스를 분야를 개척했다. 레이크하우스는 (1) 조직 내 모든 데이터 소스(정형, 반정형, 비정형 데이터)를 함께 쿼리하고 (2) 데이터를 사용하는 모든 워크로드(BI, AI 등)를 통합된 방식으로 관리할 수 있는 통합 시스템을 제공한다. 레이크하우스는 독자적인 데이터 플랫폼 범주로 자리 잡았으며, 현재 기업에서 널리 채택되어 대부분의 벤더 스택에 통합되어 있다. MIT 테크놀로지 리뷰 인사이트 보고서에 따르면, 전 세계 CIO의 74%가 자사의 레이크하우스를 보유하고 있다고 답했다. 레이크하우스 도입은 이미 시장에서 대세로 자리 잡았지만, 데이터브릭스는 레이크하우스와 생성형 AI를 결합해 데이터 인텔리전스 플랫폼이라는 새로운 범주의 데이터 플랫폼을 만들었다. 데이터 인텔리전스 플랫폼을 통해 기업은 자연어를 사용하여 한 곳에서 데이터를 통합, 관리 및 활용할 수 있다. 데이터 인텔리전스 플랫폼은 생성형 AI 모델을 사용하여 기업 데이터의 의미를 파악하고 플랫폼의 모든 부분에서 이렇게 이해한 내용들을 활용한다. 데이터브릭스의 통합 거버넌스 솔루션인 유니티 카탈로그를 통해 조직은 모든 클라우드 및 플랫폼에서 정형 및 비정형 데이터, 머신러닝 모델, 노트북, 대시보드 및 파일을 원활하게 관리할 수 있다. Q. 회사 내부 보안조직의 대응법이 있으면 소개해달라. 데이터브릭스의 데이터 및 AI 거버넌스 접근 방식은 아래와 같다 1. 데이터 및 AI에 대한 통합 가시성: 조직은 생성형 AI를 통해 자연어를 사용하여 데이터와 AI를 안전하게 검색하고, 이해하고, 인사이트를 추출하여 생산성을 높일 수 있다. 2. 데이터 및 AI에 대한 단일 권한 모델: 통합 인터페이스로 액세스 관리를 간소화해 데이터 및 AI 자산에 대한 액세스 정책을 정의하고 모든 클라우드 또는 데이터 플랫폼에서 이러한 정책을 일관되게 적용 및 감사할 수 있다. 또한, 조직은 행과 열을 세밀하게 제어하여 보안을 강화하는 동시에 원활하게 확장되는 로우코드 속성 기반 액세스 정책을 통해 액세스를 효율적으로 관리할 수 있다. 3. AI 기반 모니터링 및 통합 가시성: AI를 사용하면 모니터링을 자동화하고 오류를 진단하며 데이터 및 ML 모델 품질을 유지할 수 있다. 조직은 개인 식별 정보(PII) 데이터를 자동으로 감지하고, 모델 드리프트를 추적하며, 데이터 및 AI 파이프라인 내의 문제를 효과적으로 해결하여 정확성과 무결성(integrity)을 유지하는 사전 예방적 알림의 이점을 누릴 수 있다. Q. 방어자 입장에서 AI를 어떻게 받아들여야 바람직할까? AI는 조직이 방대한 양의 데이터를 선별해 패턴을 모니터링하고 분석하는 데 도움을 준다. AI는 이렇게 학습된 패턴을 기준선으로 삼아 비정상적인 행동을 감지하고 시스템에 대한 무단 액세스를 제한할 수 있다. 또한, AI는 위험의 우선순위를 정하고 멀웨어와 침입의 가능성을 즉시 감지하여 분석가의 1차 작업을 보강하는 데 도움을 줄 수 있다. 데이터 인텔리전스 플랫폼과 생성형 AI를 사용하면 조직 내 사이버 보안 팀들은 자연어를 사용하여 사고의 영향과 보안 속성에 대해 질문을 할 수도 있다. Q. 세계 각국에서 AI 안전에 대한 규제가 나오기 시작했다. 조직에서 AI 안전을 담당하는 주체는 누가 돼야 하고, 어떻게 무수한 규제에 대응하고 정책변경에 빠르게 적응할 수 있을까? 새롭게 생겨나는 AI 규제는 다양하고 복잡한 요구 사항을 가지고 있지만, 한편으로는 반복되는 주제를 담고 있다. 일반적으로 5가지 주요 영역에서 의무가 발생한다: 1. AI 개발 및 배포 주기의 모든 단계에서 필요한 데이터 및 모델 보안과 개인 정보 보호 2. 출시 전 위험 평가, 계획 및 완화 - 데이터 학습과 가드레일 구현에 중점을 두고 편향성, 부정확성 및 기타 잠재적 피해를 해결 3. 출시 시 필요한 문서 - 개발 과정에서 수행한 단계와 AI 모델 또는 시스템의 특성(기능, 제한 사항, 학습 데이터 설명, 위험, 완화 조치 등)에 관한 내용 포함 4. 출시 후 모니터링 및 지속적인 위험 완화 - 부정확하거나 기타 유해한 결과물 생성 방지, 보호 대상 그룹에 대한 차별 방지, 사용자가 AI를 다루고 있음을 인지하도록 하는 데 중점을 둠 5. 대규모 모델을 학습하고 실행하는 데 사용되는 에너지가 환경에 미치는 영향 최소화 이러한 목표를 달성하려면 모든 조직이 데이터와 AI 모델에 대한 완전한 소유권과 통제권을 확보하고 AI 개발 및 배포의 모든 단계에서 포괄적인 모니터링, 개인정보 보호 제어, 거버넌스를 이용할 수 있어야 한다. 조직은 데이터 품질을 제공하고, 더 안전한 애플리케이션을 제공하며, 규제 표준을 준수하는 데 도움이 되는 책임 있는 AI 목표를 달성하기 위한 통합된 접근 방식을 필요로 한다.