ETC

판교 데이터센터 화재사건으로 보는 서버 이중화의 중요성

범데이 2022. 11. 25. 08:49

1. 개요

2022년 10월 15일 오후 3시경 판교 데이터센터의 무정전 전원장치 부근에 화재가 났다.

그래서 이곳에 입주한 몇몇의 기업들의 서비스가 중단되었었다.

 

여기서 주목할점은, 어떤 기업은 비교적 빠르게 서비스를 복구하는데에 성공하였지만, 어떤 기업은 밤새토록 복구를 해서야 일부 서비스를 복구할 수 있었고, 완전 정상 복구까지는 수 일이 소요되었다.

 

업계에서 이 국내 빅테크 ‘투 톱’의 위기대응이 달랐던 점은 메인 서버의 확보와 서버 이중화 구축으로 꼽았는데, 비교적 복구에 능하였던 A기업과 복구에 많은 시간 애를 먹었던 B기업을 두고 차이점을 살펴보자.

 

 

2. 서버 이중화란?

서버 이중화 HA(High Availability)는 직역하자면 “고가용성”이다. 가용성이 높다라는 뜻은, 고장날 확률이 적은, 즉 네트워크나 프로그램 등의 정보 시스템이 상당히 오랜 기간동안 지속적으로 정상 운영이 가능한 성질을 말한다.

 

동일한 시스템을 2개를 확보하여 하나는 정상적으로 운영을 하고, 나머지 하나는 대기(Stand-By)하고 있다가 정상 운영 중인 시스템에 이상이 발생하거나 다운 시 자동으로 대기상태의 시스템을 활성화하기 시작하는 것을 말한다.

 

따라서 장애 또는 재해 발생 시 빠른 서비스 재개를 위함을 목적으로 두어, 오류가 발생하더라도 사용자는 인지하지 못한 채로 복구하는데 그 목적이 있다.

 

 

3. 두 기업의 위기 대응 차이점

우선 A기업은 자체 데이터센터를 9년전부터 이미 갖고 있었고, 이를 메인서버로 두고 있었다.

 

 그러나 B기업의 자체 데이터센터는 내년에 완공이 될 예정이었으며, 이 화재가 났었던 판교 데이터센터에 의존하고 있었다.

해당 기업은 지리적&기술적 환경을 언급했었지만, 결국은 비용 절감이 가장 큰 배경이었으며, 판교 데이터센터가 해당 기업의 핵심 기능이 모여 있는 판교 사옥과 지리적으로 가까워 이곳에 서버를 집중하는 방식으로 비용을 낮췄다는 관측이 있다.

 

그래서 A기업과 B기업은 모두 데이터 이원화를 하고 있었으나, 앞서 언급했던 것처럼 B기업은 대부분의 서비스의 운영 서버를 판교 IDC(Internet Data Center)에 몰아놓다 보니 장애 규모가 커졌고, 백업으로 넘기는데도 오랜 시간이 소요됐다. 또 이를 돕는 분산 시스템도 미비했던 것으로 보인다.

 

서비스 재개 전 B기업 관계자는 “1개 IDC전체가 영향을 받다 보니 트래픽이 워낙 몰리면서, 이중화 서버로 데이터를 보내는 전환 작업에 시간이 걸리고 있다”고 말했다.

 

같은 데이터 센터에 입주한 A기업은 비교적 빠르게 서비스 복구에 성공했다. 메인 서버를 자체 데이터센터로 두었고 일부 서비스의 서버만 입주해 있어 손실이 적기도 했지만, 이원화-이중화 투자에 좀 더 신경 쓴 결과라는 평가이다.

 

업계는 B기업이 서비스 규모에 맞는 데이터 관리 체계를 구축해야 한다고 주장했다. “이원화 시스템이 있는데 이원화가 되지 않았다”는 변명은 통하지 않는다는 지적이다.

 

 

 

 


#References

https://www.seoul.co.kr/news/newsView.php?id=20221016500091

https://www.bloter.net/newsView/blt202210160004

https://infonavi.tistory.com/148

https://pythontoomuchinformation.tistory.com/475

반응형