챗GPT·X·스포티파이 등 글로벌 다운…원인은 'AI'
챗GPT와 X, 리그오브레전드 등 전세계 주요 인터넷 서비스가 수시간 동안 대규모 접속 장애를 겪었다. 원인은 네트워크 인프라를 제공하는 클라우드플레어에서 사용 중이던 인공지능(AI) 봇의 설정 오류로 나타났다. 매튜 프린스 클라우드플레어 최고경영자(CEO)는 19일 클라우드플레어에서 발생한 장애의 구체적인 원인을 밝혔다. 클라우드플레어는 전세계에 분산된 데이터센터를 운영하면서 수많은 웹사이트와 앱의 트래픽을 대신 받아 처리하는 기업이다. 전세계 웹사이트 가운데 약 20%가 클라우드플레어의 보안·네트워크 서비스를 사용하는 것으로 알려졌다. 매튜 프린스 CEO는 이번 장애의 직접 원인으로 봇 관리 기능이 사용하는 '피처(feature) 설정 파일'에서 발생한 오류를 지목했다. 클라우드플레어는 기계학습(ML) 기반 봇 탐지를 위해 각 요청에 대해 수십 개의 특징값을 계산해 점수를 매긴다. 이 과정에서 어떤 피처를 어떻게 사용할지 정의한 설정 파일을 몇 분 간격으로 전세계 서버에 배포한다. 18일 내부 데이터베이스 권한 변경 과정에서 발생한 오류로 이 파일에 중복 항목이 대량으로 포함됐다. 그 결과 파일 크기가 기존의 약 두 배로 불어났고 해당 파일을 읽어들이던 코어 프록시 소프트웨어가 설계된 한계를 넘기면서 비정상 종료됐다는 설명이다. 이로 인해 국내시간 기준 18일 오후 9시 30분경 전세계 네트워크에서 핵심 트래픽 전달이 제대로 이뤄지지 않는 장애가 발생했다. 약 4시간 동안 챗GPT, 스포티파이, 리그오브레전드, X 등 클라우드플레어를 사용하는 수많은 웹사이트와 서비스 접속 시 오류가 발생했다. 장애를 확인한 클라우드플레어는 잘못된 피처 파일 생성과 전파를 중단하고 정상 동작하던 기존 파일을 수동으로 배포하며 문제 해결에 나섰다. 회사 측은 이번 사고를 2019년 이후 최악의 장애라고 평가했다. 그동안에는 대시보드나 일부 신기능이 일시적으로 중단된 사례는 있었지만 네트워크 전체의 코어 트래픽이 이 정도 규모로 멈춘 적은 없었다는 설명이다. 클라우드플레어는 재발 방지 대책도 제시했다. 자체 생성 구성 파일도 엄격하게 검증하고 문제가 생긴 기능을 전세계적으로 즉시 끌 수 있는 '킬 스위치'를 확대하겠다고 밝혔다. 또한 코어 덤프나 에러 리포트가 시스템 자원을 잠식하지 못하도록 설계를 바꾸고 프록시 모듈 전반의 실패 모드를 재검토해 단일 설정 오류가 인터넷 전반 장애로 이어지지 않도록 구조를 손질하겠다고 덧붙였다. 매튜 프린스 CEO는 "현재 이런 장애가 다시 발생할 경우를 방지하기 위해 시스템을 어떻게 강화할 것인지에 대한 작업이 진행 중"이라며 "클라우드플레어 전체 팀을 대표해 오늘 인터넷에 끼친 피해에 대해 진심으로 사과드린다"고 말했다.