[기고] AIOps 기반 데이터센터 운영 자동화
데이터센터 최적화와 자동화, 무중단을 위해서는 인공지능(AI) 기반 지능형 IT 운영 관리 소프트웨어인 AI옵스(AIOps)가 필수다. IDC 설문 조사에 따르면 설문 대상 기업들의 68%는 잠재적인 문제가 시스템에 영향을 미치기 전에 식별하는 AIOps를 더 많이 사용하고 있다고 응답했다. 또 AIOps로 다운타임을 연 평균 201시간 예방할 수 있다고 추정했다. 인프라 증가에 대응하고 AI, 클라우드 등 신기술 이니셔티브까지 지원하려면 IT 인프라 관리 및 운영 자동화가 가능한 AIOps 솔루션이 필요하다. 생성형 AI, 클라우드 등 데이터 수요 기술의 중요성이 높아짐에 따라 데이터를 수용하고 수집, 저장, 분석해 고도화한 서비스를 제공할 수 있는 데이터센터는 신기술의 핵심 인프라가 됐다. 기존 개별 전산실에서 유지하던 정보 시스템이 클라우드 기반으로 전환하는 환경에서 빅데이터의 폭발적인 증가, AI와 클라우드 응용 확산 등으로 데이터센터 수요가 늘고 있다. 국내 데이터센터 개수는 2022 년 12월 기준 147개이며 오는 2029년까지 신설될 것으로 예상되는 신규 데이터 센터는 총 732개로 수요를 공급이 따라가지 못하는 상황이다. 데이터센터 내 장애를 사전에 예방, 복구할 수 있는 AIOps가 더욱 필요한 시기다. 최근 몇 년사이 데이터센터 먹통 사태들이 발생하면서 기업들은 재난 가능성을 미리 예방하고자 재난 관리 시스템을 구축하고 운영 관리 체계를 보완하고 있다. 올해 6월에는 데이터센터를 재난 관리 의무 대상에 포함해 재난 재발을 막기 위한 '디지털 안전' 관련 3개 법의 시행령 개정안이 국무회의를 통과해 7월부터 시행되고 있다. ■ 데이터센터 내 AIOps 활용 효과 AI 기반의 지능형 IT 운영 관리 소프트웨어가 모든 IT 인프라와 시스템을 실시간 모니터링하고 자동으로 제어, 해결할 수 있다면, 데이터센터는 효율성, 가용성을 극대화할 수 있다. AIOps를 도입하면 데이터센터의 24시간 365일 무장애, 무중단 시스템을 구현해 성능 최적화, 운영 효율화, 비즈니스 안정화를 실현하면서 투입 운영 인력과 시간, 비용 등 리소스를 최소화할 수 있어 기업은 비즈니스 혁신에 더욱 집중할 수 있다. 먼저 AIOps는 데이터센터의 다양한 인프라를 통합 관리하고 실시간 이상 탐지와 장애 예측, 근본 원인 파악 및 분석, 해결을 자동화할 수 있다. 데이터센터 내 서버, 스토리지, 네트워크, 보안 시스템과 SMS, APM, DPM 등 각종 인프라 및 시스템 전반의 방대한 데이터들을 인공지능 학습을 통해 이상이나 서비스 중단 등의 장애를 사전에 탐지해 조치한다. 기존의 데이터센터는 인력 중심의 대규모 시스템 점검으로 과다한 시간이 소요되고, 점검 시에만 이상 여부를 인지할 수 있으며, 점검 결과 분석과 후속 조치 수준이 운영자의 능력에 따라 차이가 날 수밖에 없다. AIOps는 상시 위험요소를 사전 파악하고 서비스 영향 정도를 즉시 인지할 수 있게 한다. 후속 조치 방안도 제시, 일관적이고 신속한 조치가 가능하므로 점검 투입 인력과 시간을 절감해준다. 데이터센터 내 장비들의 신규 도입, 패치, 개선 등 변경 관리 수행 시 기존에는 동일 유형의 변경 작업에 대해 장비별 운영인력이 투입됐다면, AIOps는 동일 유형의 변경작업을 일괄 자동 수행한다. 성능 관리에 있어 부하 테스트, 구조 진단 등 성능 점검을 별도로 수행하고, 장애 발생 이후에 성능을 개선했다면, AIOps는 실시간 성능 모니터링을 수행하면서 평상시 성능 부족 위험을 인지해 자동으로 최적의 성능 향상 방안을 관리자에게 제시해준다. 이 외에도 자원 사용량을 AI가 분석해 최적의 자원 관리 방안을 자동으로 제시하고 이상 자원 또한 사전에 파악해준다. 전력사용 제어, 항온, 항습 등 기반 시설 관리에 있어서도 최적의 관리 방안을 제시한다. 필자 회사인 엑셈은 AIOps 솔루션 '싸이옵스(XAIOps)'로 데이터센터의 최적의 운영 관리를 지원한다. '싸이옵스'는 데이터센터 내 서버, 스토리지, 네트워크, 클라우드, 보안 시스템, DPM, APM/E2E, ITSM 등 인프라 및 시스템 전반의 방대한 데이터를 수집, 저장, 처리한 다음, 최신 AI기술 기반 이상 탐지 및 예측, 근본 원인 분석을 제시해 선제적인 장애 대응을 가능케 한다. 앞으로 엑셈은 자체 AI 전문 인력풀 기반의 커스터마이징 및 고품질 기술 지원 서비스를 제공하면서 데이터센터에 최적화된 AIOps 솔루션을 제공할 것이다. 모쪼록 AIOps 기반 데이터센터 분야에서도 엑셈같은 전문기업이 큰 역할을 했으면 한다.