검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'인프라 장애'통합검색 결과 입니다. (2건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

국정자원 복구는 두 달, 민간은 몇 시간…왜 차이 날까

지난 9월 26일 발생한 국가정보자원관리원(국정자원) 대전센터 화재는 단순한 사고를 넘어 정부 디지털 인프라의 구조적 취약성을 드러낸 사건으로 평가된다. 주요 핵심 서비스가 멈춰 서면서 행정 전반이 장기간 혼란에 빠졌고 화재 발생 두 달이 돼가는 현재까지 최종 복구 작업이 이어지고 있다. 업계에서는 이번 사태를 계기로 공공 정보시스템의 복원력 강화와 재난 대응 체계 전면 재설계가 필요하다는 지적이 커지고 있다. 22일 행정안전부에 따르면 국정자원 대전센터 정보시스템 709개 중 697개 시스템이 복구돼 총복구율은 98.3%로 나타났다. 정부는 대구센터 민관협력형 클라우드(PPP) 이전 대상 시스템 복구에 박차를 가하고 있다. 이번 사태가 던진 질문은 "왜 정부 디지털서비스는 멈추면 다시 돌아오는 데 몇 주·몇 달이 걸리는가"라는 점이다. 같은 기간 글로벌 클라우드 사업자 아마존웹서비스(AWS), 마이크로소프트(MS), 클라우드플레어 등도 잇따라 장애를 겪었지만 대부분 수 시간 내 복구를 완료했다. AWS 미국 동부 리전에서 발생한 도메인 시스템 장애는 약 15시간 만에 정상화됐고 MS 애저 클라우드의 전역 네트워크 장애 역시 수 시간 내 복구됐다. 클라우드플레어는 내부 데이터베이스(DB) 권한 변경 과정에서 발생한 오류로 전 세계 네트워크 서비스가 피해를 입었지만 약 3시간 만에 문제를 해결했다. 글로벌 사업자들 역시 장애 자체는 피하지 못했지만 복구 속도는 국정자원과 비교하기 어려울 만큼 빨랐다. 속도 차이는 기술 인프라와 운영 체계의 구조적 차이에서 비롯된다. 민간 클라우드 기업들은 장애 발생 즉시 자동화된 재해복구(DR) 체계가 작동하도록 설계돼 있고 리전·가용영역(AZ)을 다중화해 단일 장애 지점(SPOF)을 최소화했다. 반면 국정자원은 물리적으로 세 곳의 센터를 운영해 왔지만, 전력·네트워크·장비 구성 요소가 한 센터 내부에 집중돼 있어 대전센터 화재처럼 물리적 재난이 발생했을 때 대체 시스템으로의 전환이 원활히 작동하지 않았다. 운영 구조도 여전히 전통적 방식에 머물러 있다. 서버·스토리지·네트워크 등 장비 제조사 다양화를 위한 정책은 운영 복잡성을 높였고 구성의 표준화가 부족해 신속한 대응이 어려운 환경이다. 특히 각 부처의 정책·사업·보안 규정이 분절돼 있어 새로운 기술을 도입하고 운영 방식을 개선하는 데도 한계가 있다. 전문가들은 정부 디지털 인프라가 '중앙집중형=안전'이라는 오래된 인식에서 벗어나야 한다고 지적한다. 민간 클라우드는 지리적으로 분산된 여러 리전 기반 위에서 운영되기 때문에 특정 데이터센터에서 문제가 발생해도 서비스 전체가 중단되지 않는 구조를 갖췄다. 국정자원은 특정 센터에 문제가 생기면 주요 행정서비스가 한꺼번에 멈추는 위험을 드러냈다. 정부는 센터 간 이중화 시범 사업을 신속히 완료하고 DR 전용 공주 백업센터를 운영한다는 방침이다. 미국은 이미 민간 클라우드 기반의 공공 전용 존을 확대하며 멀티클라우드 전략을 기반으로 공공 인프라를 운영 중이다. 연방조달청(GSA)이 AWS·구글·MS·오라클 등과 대규모 계약을 체결해 클라우드 자원을 정책적으로 통합 조달하고 페드램프 인증으로 보안 기준을 표준화한 것이 대표적 사례다. 한국 공공 클라우드 환경과의 구조적 차이가 나타나는 지점이다. 국내에서도 민간 클라우드 활용 확대 움직임은 이미 시작됐다. 국정자원 대구센터에 PPP 모델이 구축되며 삼성SDS·KT클라우드·NHN클라우드 등 민간 클라우드 서비스 기업(CSP)들이 국가 중요 시스템 대상 서비스를 개시한 상태다. 하지만 실제 공공 전반을 놓고 보면 클라우드 전환 속도는 여전히 더딘 수준이다. 예산·보안 규제·조달 절차 등 제도적 장벽 역시 장애 요인으로 지적되고 있다. 이번 사태 이후 업계에서는 국정자원을 민간 클라우드 수준의 가용성과 복원력을 갖춘 '정부형 CSP'로 전환해야 한다는 목소리가 커지고 있다. 다중 리전 기반 멀티클라우드 전략을 도입해 단일 장애 지점을 제거하고 자동화 기반 DR 시스템을 갖춘 구조로 재편해야 한다는 데 의견이 모아진다. 장애는 어떤 인프라에서도 발생할 수 있다. 문제는 복구 속도와 그 과정에서 국가 기능이 어디까지 유지될 수 있는가다. 공공의 디지털 복원력을 민간 수준으로 끌어올리지 못한다면 정부 디지털서비스는 앞으로도 위기 때마다 장기간 멈춰 설 수밖에 없다는 경고가 나온다. 클라우드 업계 관계자는 "전 세계 어디에서도 장애는 피할 수 없지만 복구를 몇 시간 내 끝낼 수 있는 구조를 갖추는 것이 공공의 필수 과제"라며 "국정자원도 단일 센터 중심 구조에서 벗어나 멀티클라우드 기반 복원력 체계로 전환해야 한다"고 강조했다.

2025.11.22 10:33한정호 기자

AWS 15시간 먹통 후 복구…업계 "소수 클라우드 집중 구조 한계"

세계 최대 클라우드 서비스인 아마존웹서비스(AWS)에 대규모 장애가 발생해 전 세계 주요 인터넷 서비스가 마비됐다. 현재 대부분 복구가 완료됐지만 일부 서비스는 여전히 불안정한 상태로, 인터넷 인프라 집중화의 구조적 취약성이 다시 드러났다는 평가가 나온다. 21일 업계와 주요 외신에 따르면 이번 장애는 지난 20일 미국 버지니아 북부 리전(US-EAST-1)에서 발생했다. AWS의 핵심 데이터베이스(DB) 서비스 '다이나모DB'의 도메인 네임 시스템(DNS) 오류가 근본 원인으로 지목됐다. DNS는 인터넷의 전화번호부 역할을 하는 핵심 인프라로, 주소(URL)를 실제 서버의 IP로 연결해주는 기능을 한다. 이 시스템이 멈추자 수많은 앱과 웹사이트가 데이터 접근을 잃고 동작을 멈췄다. AWS 측은 "아마존 EC2 서버 내부 네트워크의 트래픽 분산 모니터링 서브시스템 문제로 인해 네트워크 부하가 급증했다"며 "DNS 오류와 맞물리면서 연쇄 장애가 확산됐다"고 설명했다. AWS는 15시간가량 이어진 복구 작업 끝에 대부분의 서비스를 정상화했다. 회사는 "현재 모든 AWS 서비스에서 복구가 진행 중이며 일부 백로그 메시지는 몇 시간 내 처리될 예정"이라고 밝혔다. 다만 일부 지역에서는 여전히 접속 오류가 간헐적으로 발생 중이며 AWS의 서버 임대 서비스 '람다'와 일부 데이터 분석 서비스는 복구가 지연되고 있는 것으로 알려졌다. 이번 장애로 슬랙·퍼플렉시티·스냅챗·포트나이트·로블록스·챗GPT·스타벅스·디즈니플러스·페이팔·코인베이스·유나이티드항공 등 수천 개의 글로벌 서비스가 일시적으로 중단됐다. 국내에서도 삼성월렛·배틀그라운드·네이버웹툰·배달의민족 등 다수 기업 서비스가 멈춰 업무와 이용에 불편이 발생했다. 현재는 대부분 서비스가 정상화됐지만 일부 기업은 캐시 데이터 손상과 API 지연으로 복구 점검을 이어가고 있는 것으로 전해졌다. 장애가 발생한 US-EAST-1은 AWS에서 가장 오래되고 많은 서비스가 연결된 리전으로, 일종의 허브 역할을 한다. DNS 오류로 다이너모DB 접근이 막히자 리전 간 장애 복구 시스템도 제대로 작동하지 못했다. 트래픽을 다른 리전으로 우회하려던 복구 시도마저 DNS가 마비되며 실패했고 복구에 최대 15시간이 소요됐다. 메흐디 다우디 캐치포인트 최고경영자(CEO)는 "이번 사태로 인한 생산성 손실과 사업 중단 등을 고려할 때 경제적 피해는 수천억 달러 규모에 이를 수 있다"고 전망했다. 이는 지난해 크라우드스트라이크 장애 이후 최대 규모의 IT 대란으로 평가된다. 업계는 이번 사건을 계기로 멀티 클라우드 전략과 독립적 DNS·네트워크 복원 구조의 중요성을 재조명하고 있다. 특히 정부·공공기관도 긴급 복구 체계와 데이터 이중화, 리전 분산 아키텍처를 도입해야 한다는 목소리가 커지고 있다. AWS뿐 아니라 구글 클라우드, 마이크로소프트 애저 등 다른 사업자들도 최근 유사한 장애를 겪으면서 집중형 인프라의 한계가 업계 전반의 공통된 고민으로 떠올랐다. 업계 관계자는 "세계 인터넷 서비스 대부분이 3~4개의 클라우드 기업에 의해 운영된다"며 "하나의 사업자가 멈추면 전 세계가 영향을 받는 구조 자체가 문제"라고 지적했다. 이어 "대형 사업자 중심의 클라우드 의존을 낮추고 서비스 복원력과 다중 리전 분산 전략을 강화하는 것이 앞으로의 핵심 과제"라고 덧붙였다.

2025.10.21 11:02한정호 기자