[기고] 100% 복구에 도전하는 데이터센터 재해복구 전략
기업의 주요 자산인 데이터를 관리하는 인프라에 발생하는 재해는 자산 손실과 매출 감소를 넘어, 서비스 사용자 또는 사회적인 불편과 혼란을 초래하는 '재난'이라고 할 수 있다. 자연 재해를 비롯해 인프라 장애, 사람에 의해 발생하는 데이터 삭제나 손실, 사이버 공격까지 합치면 100% 안전한 데이터센터는 없다고 해도 과언이 아니다. 따라서 위험으로부터 인프라를 예방하고 보호, 복구하려는 노력이 무엇보다 중요하다. 그러나 재해에 대비해 이중화, 재해복구 인프라 등을 갖췄음에도 불구하고 IT 시스템 장애나 재해로 서비스가 중단되는 사례가 많은 이유는 뭘까? 이는 필요한 재해복구 기술이 제대로 구현되지 않아 서비스 전환에 오랜 시간이 걸리거나 데이터 복구 품질이 기대 수준에 미치지 못했기 때문이다. ■ 다양한 복제 방식으로 선택의 폭 확대 비즈니스 연속성과 데이터 보호를 위한 재해복구(DR)에 대한 관심은 여전히 뜨겁다. 재해복구 시스템 구축 여부에 따라 재해 발생 시 희비가 극명하게 갈릴 수 있다. 특히 기술적인 관점에서 재해복구의 핵심은 '데이터'의 복구인 만큼 데이터 백업과 관리 방안은 매우 중요하다. 결국 재해복구를 위해서는 실시간으로 변경되는 데이터를 어떻게 실시간 동기화 할 수 있는지가 중요한 과제라고 볼 수 있다. 데이터 동기화 방식에는, 서버에서 입출력(I/O) 쓰기 요청에 대해 원본과 복제본에 대한 쓰기가 완료된 후 하나의 I/O를 완료하는 싱크(Sync) 동기식 방식과, 원본 저장과 별개로 백그라운드에서 원격지 복제본으로 동기화하는 어싱크(Async) 비동기식 방식, 그리고 원본과 복제본을 구분하지 않고 어떤 볼륨이든 동시에 읽기 쓰기를 지원하는 액티브-액티브 미러링 방식이 있다. 동기식과 비동기식 방식의 단점을 극복한 하이브리드 복제 방식도 있다. 이는 동시에 3곳의 데이터센터에서 데이터를 동기화하는 방식으로, 근거리는 동기식으로 이중화하고 원거리에는 비동기식으로 운영하는 제3의 데이터센터를 두는 방식이다. 정전, 침수, 화재 등이 발생하면 근거리의 동기식 복제로 데이터를 복구할 수 있고, 전쟁 및 지진 등 광범위한 재해를 대비해 수백 km 이상의 데이터센터에 동기화 복제본을 구성할 수 있는 장점이 있다. 3데이터센터 구성 중 액티브-스탠바이로 불리는 동기식과 비동기식을 결합한 방식은 예전부터 사용돼 왔으며, 최근에는 액티브-액티브 미러링과 비동기식을 혼합한 구성이 증가하고 있다. ■ 재해복구 시스템의 기반, 안정적 인프라 이처럼 다양한 재해복구 방식 중 하나를 선택하려면 시스템 복구 시간과 복구 범위, 비즈니스 영향, 업무 중요도 등을 종합적으로 고려해야 한다. 모든 서비스가 재해 이전의 정상 수준으로 돌아가려면 데이터를 포함해 애플리케이션, 서버, 네트워크 등 환경도 복구해야 한다. 만약 복구 목표 시간(RTO)이 3시간으로 핵심 업무의 데이터를 복구해야 한다면, 그 시간 안에 모든 관련 인프라 역시 함께 복구되어야 한다는 의미다. 데이터 복구 대책을 세운 이후에는 시스템 복구도 신경을 써야 한다. 특히 기업의 핵심 업무에는 비용과 난이가 높더라도 데이터를 실시간 이중화로 복제해 재해가 발생해도 즉시 대체나 전환이 가능한 미러 사이트 또는 핫 사이트 급의 복구 정책을 적용해야 한다. 따라서 재해복구 인프라를 염두에 두고 데이터센터를 구성한다면, 어떤 미션 크리티컬한 환경에서도 안정적으로 운영이 가능한 고가용성 스토리지를 선택해야 한다. IT 인프라 중에서도 데이터를 저장하는 스토리지는 매우 엄격한 조건을 통과하고 신중한 검토를 거쳐야 한다. 데이터센터 장애 방지와 관련된 규정이 엄격해지고 있다. 데이터센터 장애가 발생하면 서비스 사용자의 불편과 이탈, 사회적 혼란, 규제 준수 문제 등 엄청난 손실이 발생한다. 환경과 요구 조건이 복잡할수록 오랜 경험과 구축 사례를 보유한 전문 벤더의 검증된 기술을 선택하는 것이 현명한 방법이다.