• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
2026전망
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'인프라 장애'통합검색 결과 입니다. (3건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

국정자원 복구는 두 달, 민간은 몇 시간…왜 차이 날까

지난 9월 26일 발생한 국가정보자원관리원(국정자원) 대전센터 화재는 단순한 사고를 넘어 정부 디지털 인프라의 구조적 취약성을 드러낸 사건으로 평가된다. 주요 핵심 서비스가 멈춰 서면서 행정 전반이 장기간 혼란에 빠졌고 화재 발생 두 달이 돼가는 현재까지 최종 복구 작업이 이어지고 있다. 업계에서는 이번 사태를 계기로 공공 정보시스템의 복원력 강화와 재난 대응 체계 전면 재설계가 필요하다는 지적이 커지고 있다. 22일 행정안전부에 따르면 국정자원 대전센터 정보시스템 709개 중 697개 시스템이 복구돼 총복구율은 98.3%로 나타났다. 정부는 대구센터 민관협력형 클라우드(PPP) 이전 대상 시스템 복구에 박차를 가하고 있다. 이번 사태가 던진 질문은 "왜 정부 디지털서비스는 멈추면 다시 돌아오는 데 몇 주·몇 달이 걸리는가"라는 점이다. 같은 기간 글로벌 클라우드 사업자 아마존웹서비스(AWS), 마이크로소프트(MS), 클라우드플레어 등도 잇따라 장애를 겪었지만 대부분 수 시간 내 복구를 완료했다. AWS 미국 동부 리전에서 발생한 도메인 시스템 장애는 약 15시간 만에 정상화됐고 MS 애저 클라우드의 전역 네트워크 장애 역시 수 시간 내 복구됐다. 클라우드플레어는 내부 데이터베이스(DB) 권한 변경 과정에서 발생한 오류로 전 세계 네트워크 서비스가 피해를 입었지만 약 3시간 만에 문제를 해결했다. 글로벌 사업자들 역시 장애 자체는 피하지 못했지만 복구 속도는 국정자원과 비교하기 어려울 만큼 빨랐다. 속도 차이는 기술 인프라와 운영 체계의 구조적 차이에서 비롯된다. 민간 클라우드 기업들은 장애 발생 즉시 자동화된 재해복구(DR) 체계가 작동하도록 설계돼 있고 리전·가용영역(AZ)을 다중화해 단일 장애 지점(SPOF)을 최소화했다. 반면 국정자원은 물리적으로 세 곳의 센터를 운영해 왔지만, 전력·네트워크·장비 구성 요소가 한 센터 내부에 집중돼 있어 대전센터 화재처럼 물리적 재난이 발생했을 때 대체 시스템으로의 전환이 원활히 작동하지 않았다. 운영 구조도 여전히 전통적 방식에 머물러 있다. 서버·스토리지·네트워크 등 장비 제조사 다양화를 위한 정책은 운영 복잡성을 높였고 구성의 표준화가 부족해 신속한 대응이 어려운 환경이다. 특히 각 부처의 정책·사업·보안 규정이 분절돼 있어 새로운 기술을 도입하고 운영 방식을 개선하는 데도 한계가 있다. 전문가들은 정부 디지털 인프라가 '중앙집중형=안전'이라는 오래된 인식에서 벗어나야 한다고 지적한다. 민간 클라우드는 지리적으로 분산된 여러 리전 기반 위에서 운영되기 때문에 특정 데이터센터에서 문제가 발생해도 서비스 전체가 중단되지 않는 구조를 갖췄다. 국정자원은 특정 센터에 문제가 생기면 주요 행정서비스가 한꺼번에 멈추는 위험을 드러냈다. 정부는 센터 간 이중화 시범 사업을 신속히 완료하고 DR 전용 공주 백업센터를 운영한다는 방침이다. 미국은 이미 민간 클라우드 기반의 공공 전용 존을 확대하며 멀티클라우드 전략을 기반으로 공공 인프라를 운영 중이다. 연방조달청(GSA)이 AWS·구글·MS·오라클 등과 대규모 계약을 체결해 클라우드 자원을 정책적으로 통합 조달하고 페드램프 인증으로 보안 기준을 표준화한 것이 대표적 사례다. 한국 공공 클라우드 환경과의 구조적 차이가 나타나는 지점이다. 국내에서도 민간 클라우드 활용 확대 움직임은 이미 시작됐다. 국정자원 대구센터에 PPP 모델이 구축되며 삼성SDS·KT클라우드·NHN클라우드 등 민간 클라우드 서비스 기업(CSP)들이 국가 중요 시스템 대상 서비스를 개시한 상태다. 하지만 실제 공공 전반을 놓고 보면 클라우드 전환 속도는 여전히 더딘 수준이다. 예산·보안 규제·조달 절차 등 제도적 장벽 역시 장애 요인으로 지적되고 있다. 이번 사태 이후 업계에서는 국정자원을 민간 클라우드 수준의 가용성과 복원력을 갖춘 '정부형 CSP'로 전환해야 한다는 목소리가 커지고 있다. 다중 리전 기반 멀티클라우드 전략을 도입해 단일 장애 지점을 제거하고 자동화 기반 DR 시스템을 갖춘 구조로 재편해야 한다는 데 의견이 모아진다. 장애는 어떤 인프라에서도 발생할 수 있다. 문제는 복구 속도와 그 과정에서 국가 기능이 어디까지 유지될 수 있는가다. 공공의 디지털 복원력을 민간 수준으로 끌어올리지 못한다면 정부 디지털서비스는 앞으로도 위기 때마다 장기간 멈춰 설 수밖에 없다는 경고가 나온다. 클라우드 업계 관계자는 "전 세계 어디에서도 장애는 피할 수 없지만 복구를 몇 시간 내 끝낼 수 있는 구조를 갖추는 것이 공공의 필수 과제"라며 "국정자원도 단일 센터 중심 구조에서 벗어나 멀티클라우드 기반 복원력 체계로 전환해야 한다"고 강조했다.

2025.11.22 10:33한정호

AWS 15시간 먹통 후 복구…업계 "소수 클라우드 집중 구조 한계"

세계 최대 클라우드 서비스인 아마존웹서비스(AWS)에 대규모 장애가 발생해 전 세계 주요 인터넷 서비스가 마비됐다. 현재 대부분 복구가 완료됐지만 일부 서비스는 여전히 불안정한 상태로, 인터넷 인프라 집중화의 구조적 취약성이 다시 드러났다는 평가가 나온다. 21일 업계와 주요 외신에 따르면 이번 장애는 지난 20일 미국 버지니아 북부 리전(US-EAST-1)에서 발생했다. AWS의 핵심 데이터베이스(DB) 서비스 '다이나모DB'의 도메인 네임 시스템(DNS) 오류가 근본 원인으로 지목됐다. DNS는 인터넷의 전화번호부 역할을 하는 핵심 인프라로, 주소(URL)를 실제 서버의 IP로 연결해주는 기능을 한다. 이 시스템이 멈추자 수많은 앱과 웹사이트가 데이터 접근을 잃고 동작을 멈췄다. AWS 측은 "아마존 EC2 서버 내부 네트워크의 트래픽 분산 모니터링 서브시스템 문제로 인해 네트워크 부하가 급증했다"며 "DNS 오류와 맞물리면서 연쇄 장애가 확산됐다"고 설명했다. AWS는 15시간가량 이어진 복구 작업 끝에 대부분의 서비스를 정상화했다. 회사는 "현재 모든 AWS 서비스에서 복구가 진행 중이며 일부 백로그 메시지는 몇 시간 내 처리될 예정"이라고 밝혔다. 다만 일부 지역에서는 여전히 접속 오류가 간헐적으로 발생 중이며 AWS의 서버 임대 서비스 '람다'와 일부 데이터 분석 서비스는 복구가 지연되고 있는 것으로 알려졌다. 이번 장애로 슬랙·퍼플렉시티·스냅챗·포트나이트·로블록스·챗GPT·스타벅스·디즈니플러스·페이팔·코인베이스·유나이티드항공 등 수천 개의 글로벌 서비스가 일시적으로 중단됐다. 국내에서도 삼성월렛·배틀그라운드·네이버웹툰·배달의민족 등 다수 기업 서비스가 멈춰 업무와 이용에 불편이 발생했다. 현재는 대부분 서비스가 정상화됐지만 일부 기업은 캐시 데이터 손상과 API 지연으로 복구 점검을 이어가고 있는 것으로 전해졌다. 장애가 발생한 US-EAST-1은 AWS에서 가장 오래되고 많은 서비스가 연결된 리전으로, 일종의 허브 역할을 한다. DNS 오류로 다이너모DB 접근이 막히자 리전 간 장애 복구 시스템도 제대로 작동하지 못했다. 트래픽을 다른 리전으로 우회하려던 복구 시도마저 DNS가 마비되며 실패했고 복구에 최대 15시간이 소요됐다. 메흐디 다우디 캐치포인트 최고경영자(CEO)는 "이번 사태로 인한 생산성 손실과 사업 중단 등을 고려할 때 경제적 피해는 수천억 달러 규모에 이를 수 있다"고 전망했다. 이는 지난해 크라우드스트라이크 장애 이후 최대 규모의 IT 대란으로 평가된다. 업계는 이번 사건을 계기로 멀티 클라우드 전략과 독립적 DNS·네트워크 복원 구조의 중요성을 재조명하고 있다. 특히 정부·공공기관도 긴급 복구 체계와 데이터 이중화, 리전 분산 아키텍처를 도입해야 한다는 목소리가 커지고 있다. AWS뿐 아니라 구글 클라우드, 마이크로소프트 애저 등 다른 사업자들도 최근 유사한 장애를 겪으면서 집중형 인프라의 한계가 업계 전반의 공통된 고민으로 떠올랐다. 업계 관계자는 "세계 인터넷 서비스 대부분이 3~4개의 클라우드 기업에 의해 운영된다"며 "하나의 사업자가 멈추면 전 세계가 영향을 받는 구조 자체가 문제"라고 지적했다. 이어 "대형 사업자 중심의 클라우드 의존을 낮추고 서비스 복원력과 다중 리전 분산 전략을 강화하는 것이 앞으로의 핵심 과제"라고 덧붙였다.

2025.10.21 11:02한정호

카카오, 비즈니스 연속성 경영시스템 'ISO 22301' 인증 받아

카카오가 글로벌 수준의 비즈니스 연속성 경영 체계를 인정받았다. 카카오(대표 정신아)는 지난 13일 경기도 성남시 카카오 판교 아지트에서 한국경영인증원(KMR) 황은주 대표와 카카오 인프라기술 고우찬 성과리더를 비롯한 관계자가 참석한 가운데 ISO 22301 인증서 수여식을 진행했다고 19일 밝혔다. ISO 22301은 국제표준화기구(ISO)에서 제정한 비즈니스 연속성 관리(BCMS)를 위한 표준이다. 장애 및 재난 발생으로 서비스가 중단되는 상황에서 체계적 대응과 신속한 복구로 서비스를 정상화할 수 있는 관리 시스템을 갖춘 기업에 부여된다. 카카오는 서비스 영향분석과 리스크 평가를 통해 핵심 서비스와 리스크를 사전에 식별 및 위기상황의 인식부터 대응까지 단계적 프로세스를 고도화 했다. 또 핵심업무 복구계획을 수립해 실행 및 운영하며 조직의 문화로 내재화하기 위해 지속적인 교육과 훈련을 반복하고 있다. 이를 바탕으로 예기치 못한 장애나 재해 상황에서도 빠르게 대응하고 복구할 수 있는 시스템을 마련해 서비스 연속성을 강화하고 있다. 고우찬 카카오 인프라기술 성과리더는 "ISO 인증은 결과가 아니라 안정성을 최우선으로 관리하겠다는 의지의 표현이자 시작"이라며 "이용자의 소중한 일상과 비즈니스가 차질없이 이어질 수 있도록 최선을 다하겠다"고 말했다.

2024.11.19 10:36백봉삼

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

K-게임, '중독' 오명 벗고 글로벌 시장 도약

美서 완전자율 비행기 날았다…'조종사 없는 하늘' 열리나

"스트리머 자리 비워도 AI가 방송"…서수길 SOOP 대표, AI 매니저 ‘쌀사 2.0’ 공개

SOOP ‘김민교·감스트·봉준’ 스트리머 대상...'철구' 스폰서상

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.