🧑💻 요약
국가정보자원관리원 대전센터 화재로 공무원 업무 자료 소실 및 행정 서비스 장애가 발생했습니다.
정부는 공공 IT 인프라 및 재해복구(DR) 체계 개선을 추진하며, '액티브-액티브 DR' 구축을 위한 대규모 예산을 편성했습니다.
공공DR에 다수의 데이터센터, 클라우드 네이티브 기반, 데이터 안전성의 강점을 가진 민간 클라우드의 역할이 강조되고 있습니다.

안녕하세요. 뉴스를 통해 핫한 이슈를 정리하는 카카오클라우드 '뉴스썰'입니다.
이번 시간에는 '공공 IT 인프라 DR 구축'에 대한 썰을 풀어봅니다.
‘공유 드라이브’가 없어졌다고요?
만약 회사에서 사용 중인 ‘공유 드라이브’가 갑자기 사라졌다면 어떨까요?
‘[최최종] 파일을 어디에 뒀더라’라는 막연함😮💨과 ‘어떻게 일하지? 퇴근해야 하나?’라는 현실도피🤤,
그리고 ‘어제 왜 [🗑️휴지통 비우기] 버튼을 눌렀을까?’라는 공포감😱이 밀려올 텐데요,
그런데 그런 일이 중앙 부처 공무원들에게 일어났습니다. 😲
작년 9월, 국가정보자원관리원 대전센터에서 발생한 화재로 공무원들이 자료를 저장하던 ‘G드라이브’가 소실되었습니다.
화재로 장애가 발생했던 행정 서비스는 모두 복구되었지만, 백업 데이터를 같은 공간에서 보관하고 있던 ‘G드라이브’의 데이터들은 복원할 수 없었습니다. G드라이브 이용 공무원은 12.5만명으로 2017년부터 축적했던 데이터 분량은 858 테라바이트(TB)에 달한다고 합니다.
(아무쪼록 '최최종', '진짜마지막'을 붙인 파일들이 개인 PC에 잘 보관되어 있기를 소망합니다. 🙏)

정부는 이번 사고을 계기로 ‘국가AI전략위원회’ 주도로 ‘AI인프라 거버넌스・혁신 TF’를 구성해 공공정보시스템 재해복구(DR) 체계를 비롯한 장·단기 대책과 공공 IT 인프라의 근본적 구조 개선 방안을 마련한다고 합니다. ‘서비스 복원력 확보’와 ‘안전한 데이터 보관’이라는 목표를 두고 TF에서 논의가 진행 중인 가운데 이후 공공 IT 인프라가 어떻게 개편될지 관심이 쏠리고 있습니다.
시스템을 한 바구니에 담지 마라
이번 사고를 두고 언론은 ‘공공 IT 인프라’의 전반적인 취약점이 드러났다고 꼬집었습니다. 대규모 장애에도 수 시간 내로 복구가 완료되는 민간 서비스와 달리, 장애가 발생하면 복구에 어려움을 겪는 공공 서비스의 문제점에 주목하며 그 이유를 IT 인프라 설계와 운영 체계의 차이로 보고 있습니다.
먼저 IT 인프라 설계 측면에서 국정자원이 세 곳의 데이터센터를 운영 중에 있으나, 전력·네트워크·장비가 한곳에만 집중되어 사고 발생 시 대체 시스템으로 전환이 어려웠던 것으로 분석됩니다. 중앙집중형 통합 관리가 가장 안전하다는 인식으로 인프라를 한 곳에 모았던 것이 오히려 중앙의 문제로 여러 서비스가 영향을 받는 약점이 되었습니다. 민간 클라우드가 자동화된 DR 체계와 다중 리전・가용영역(AZ)을 통해 장애 여파를 최소화하는 반면, 통합 관리로 인해 장애 발생 시 복구가 어려운 구조였다는 지적입니다.
운영 측면에서는 서버·스토리지·네트워크 등 장비 제조사 다양화 정책과 오랜 기간 개별사업으로 구축된 시스템들이 복구에 발목을 잡은 것으로 거론됩니다. 수십 년간 기본 구조는 유지한 채 일부분만 개선해 시스템이 복잡해져 구조를 빠르게 파악하고 복구 작업을 시작하는데 걸림돌이 되었다는 평가입니다. 민간 클라우드가 표준화된 시스템과 모듈화 된 서비스로 문제가 생긴 부분을 빠르게 교체하는 것과 비교되는 부분입니다.

이런 이유로 전문가들은 공공 IT 인프라의 전반적인 재설계가 필요하다고 목소리를 높입니다. 공공 서비스를 유지하고 데이터를 안전하게 보관하기 위해 새로운 인프라와 아키텍처 설계가 필요하다는 것으로, 지금까지 '데이터 센터를 늘리면 안정성을 확보할 수 있다'는 관점에서 ‘어떤 형태로 안정성을 확보할 것인가’라는 발전된 의견으로 볼 수 있습니다.
보여줄게 완전히 달라진 '공공 IT 인프라'
대규모 행정 서비스 장애로 개선 방안을 고심하는 정부도 공공 IT 인프라의 전면적 개편을 검토한다는 입장입니다.
행정안전부 장관은 '국정자원 관리체계의 근본적 개선'을 언급했고, 관계자도 '국가AI위원회 TF의 혁신 방안이 나오면 인프라 전반 개선 작업에 나서겠다'고 발언했습니다.
행안부 장관: "이번 일을 교훈 삼아 국가정보자원 관리체계를 근본적으로 개선하고 안정성과 신뢰성을 높이는 데 모든 역량을 집중하겠다"
행안부 관계자: “국가인공지능전략위원회의 AI 정부 인프라·거버넌스 혁신 방안이 수립되는 대로 인프라 전반에 대한 개선 작업에 나설 것"
이미 행정안전부는 올해 범정부 DR 및 대전센터 시스템의 단계적 이전을 위한 예산 3,434억원을 배정했습니다. 두 개 이상의 시스템을 동시에 작동해 장애 시 서비스 중단을 최소화하는 이른바 ‘액티브-액티브(Active-Active) DR’ 구축을 목표로 13개 핵심 시스템에 대해 추진을 예고했으며, ‘G드라이브’와 같이 데이터 소실이 없도록 ‘스토리지(Storage) DR’ 구축도 함께 진행할 예정입니다.
또한 인프라뿐만 아니라 거버넌스 개편도 검토됩니다. TF에서 디지털정부 거버넌스의 개편 필요성이 언급되고 있으며, 공공 IT 인프라가 전 부처에 걸쳐 있는 만큼 대통령 또는 총리실 산하 컨트롤 타워 조직을 신설하는 방안이 논의되는 것으로 전해집니다.
언론은 공공 IT 인프라의 전면적 개편이 불가피하다는 여론이 형성된 만큼 TF에서 구체적 실행 방안이 이미 논의 중이며 ‘민간 클라우드와의 협력 필요하다’는 목소리가 높다고 보도했습니다.
민간 클라우드가 필요한 이유
그렇다면 공공 DR에 민간 클라우드가 필요하다고 보는 이유는 무엇일까요?

첫째, 공공 인프라로 다수의 데이터센터를 통한 DR 구축이 어렵기 때문입니다.
지금까지 공공 IT 인프라는 단일 데이터센터를 중심으로 운영되어 왔습니다. 때문에 다수의 데이터센터에서 동시에 시스템을 동작하는 ‘액티브-액티브(Active-Active) DR’의 구축이 쉽지 않은 상황입니다.
반면, 민간 클라우드는 재난 대응을 위해 충분한 이격 거리를 두고 다수의 데이터센터를 운영하고 있습니다. 각 데이터센터는 표준화된 아키텍처로 시스템 파악이 쉽고, 가용영역(AZ) 간 동일한 환경을 즉시 복제하여 장애 상황에도 빠르게 대응할 수 있습니다.
또한 코드 기반(IaC) 인프라 자동화 관리를 통해 데이터센터의 인프라를 빠르게 구동(Provisioning)하여 복구 시간을 줄일 수 있습니다.
둘째, 빠른 장애 복원을 위한 클라우드 네이티브 기반의 시스템이 필요하기 때문입니다.
공공 IT 인프라와 시스템이 개별 구축되어 장애 상황에 상호 영향을 주는 것과 달리, 민간 클라우드는 클라우드 네이티브 기반의 마이크로서비스 아키텍처(MSA)를 통해 시스템을 독립적인 서비스 단위로 나누어 특정 시스템 장애가 전체로 퍼지는 것을 차단하는 '장애 격리'가 가능합니다. 또한 Kubernetes 등 컨테이너 관리 기술을 통해 장애 컨테이너를 자동으로 감지해 즉시 재시작하거나 교체하여 서비스 중단을 최소화할 수 있습니다.
공공부문도 이런 클라우드 네이티브의 장점을 인지하고 2023년부터 ‘클라우드 네이티브 전환 계획’을 추진해 왔으나 예산 등의 어려움으로 중앙집중형 방식이 지속되었습니다. 전문가들은 이번 화재로 클라우드 네이티브 방식의 전환이 필요하다는 인식이 강해졌다고 평가하며 민간 클라우드 역할에 힘을 실어주고 있습니다.
마지막 셋째, 데이터를 안전하게 관리할 수 있기 때문입니다.
'G드라이브'가 소실된 것은 물리적 재난 상황에서 데이터 소산이 불가능했기 때문입니다. 데이터의 안전한 관리를 위해서는 재난 시에도 데이터 가용성을 보장하고 필요할 때 언제든 사용할 수 있어야 합니다. 민간 클라우드는 데이터를 최소 2개 이상의 독립된 가용영역(AZ)에 실시간으로 복제하여 저장하므로, 특정 데이터센터가 전소되더라도 복제본을 통해 즉시 데이터를 복구할 수 있습니다.
또한, 안전하게 보관된 데이터는 보안 규정을 통해 보호됩니다. 클라우드서비스보안인증(CSAP) 통제항목에 따라 저장되거나 전송되는 데이터는 국가 표준 알고리즘으로 암호화되며, 암호 해독 '키'를 공공기관이 직접 관리하여 임의 유출 시 데이터 활용을 막습니다.
또한 망분리 규정에 따라 공공데이터에 대한 접근은 시스템 내부에서만 가능해 외부로부터 침입을 원천적으로 차단합니다.
이러한 데이터의 가용성 확보와 안전한 보관을 위해 미국, 영국, 일본, 싱가포르 등 해외에선 민간 클라우드를 도입한 행정 체계가 대세로 자리잡고 있습니다.
소 잃고 고친 외양간이 튼튼하다.
지금까지 국정자원 화재 사고 이후 공공 IT 인프라의 개편 방향과 민간 클라우드가 주목받는 이유를 알아봤습니다.
사고를 통해 공공 IT 인프라의 문제점을 파악하고 전면적인 개편이 시도되는 만큼, 행정 서비스 중단이나 공공 자료 소실이 재발되지 않도록 검증된 DR 역량을 가진 민간 클라우드의 역할이 중요해질 것으로 보입니다.
카카오클라우드는 이미 CSAP 인증을 통해 공공 부문 클라우드 제공을 위한 준비를 마쳤으며, 특히 데이터센터 화재와 같은 극한의 상황에서도 서비스의 연속성을 확보할 수 있도록 대비했습니다.

데이터센터의 중요 정보와 쿠버네티스 마스터노드를 물리적으로 분리된 가용영역(AZ)에 배치하여 특정 데이터센터의 장애에도 다른 데이터센터를 활용해 서비스가 가능하도록 했으며, 데이터센터 간에 TGW(Transit Gateway)로 연결하여 고속/고안정성의 네트워크를 통해 대규모 인프라를 끊김없이 활용할 수 있도록 했습니다.
이러한 고가용성 아키텍처를 오픈스택 기반으로 자체 구축하였으며, 그 성과를 파리에서 열린 ‘오픈인프라서밋’에서 발표하는 등 클라우드 기술력을 국제적으로 선보였습니다.
비록 화재로 인해 공공 IT 인프라 재편과 DR 구축 논의가 시작되었지만, 인프라는 한 번 구축하면 수십 년간 운영되는 만큼 안정적이고 견고한 인프라를 만들기 위해 공공과 민간이 힘과 지혜를 모아야 할 때입니다.
다음에는 G드라이브에 '[최종] 클라우드 DR 구축 완료'라는 기분 좋은 보고서가 안전하게 저장될 수 있도록 카카오클라우드도 최고의 기술력으로 힘을 보태겠습니다.
📒 참고기사
❍ [단독] 국정자원 G드라이브 소실…중앙 공무원 업무자료 다 사라져 (한겨레, ‘25.10.2)
❍ 공무원 업무용 'G드라이브' 전소… 12만명 자료 통째로 날아가 (조선일보, ‘25.10.2)
❍ 국가AI전략위, 국정자원 화재 관련 디지털정부 구조 개선 추진 (디지털타임즈, ‘25.9.29)
❍ 국정자원 화재로 드러난 디지털 정부의 '구조적 한계' (뉴스1, ‘25.12.30)
❍ 국정자원 복구는 두 달, 민간은 몇 시간…왜 차이 날까 (지디넷코리아, ‘25.11.22)
❍ 행정망 복구 이후의 질문…국정자원 화재가 드러낸 공공 IT 설계 과제 (디지털데일리, ‘25.12.30)
❍ 행안부, 디지털 인프라 심장부 대수술에 6천억 원 규모 예산안 확정 (IT데일리, ‘25.11.29)
❍ 정부, '공공 IT인프라 안전' 별도 조직 신설 타진…디지털정부 거버넌스도 고심 (전자신문, ‘25.10.28)
❍ 국정자원 시스템 복구 완료 '화재 95일 만'…정부 "관리체계 전면 개일선" (한국일보, 12/30)
❍ 클라우드 “AI로 늘어나는 수요·커지는 DR 존재감” (IT조선, ‘25.12.26)
❍ 클라우드 재해복구부터 오케스트레이션까지… K-클라우드 청사진 제시 (IT조선, ‘25.12.17)
❍ [공공 DX 혁신] 정부 '클라우드 네이티브' 로드맵...국정자원 화재로 재점화 (한스경제, ‘25.10.29)
❍ 정부 클라우드, 민간으로?..."전자정부 끝내고 AI 정부로" (YTN, 25.10.13)
❍ '오픈인프라서밋'으로 확인한 카카오클라우드의 고가용성·이중화 전략 (IT동아, 26.01.14)
✅ 함께 읽으면 좋은 콘텐츠를 소개합니다.
<인사이트> 공공 정보화 담당자 58명에게 물었습니다 "DR 구축, 무엇이 가장 어려운가요?"
<인사이트> 연이은 클라우드 대규모 장애, 재해 복구(DR)는 선택이 아닌 생존 전략 🎯
<지식 사전> 쉽게 이해하는 클라우드 서비스의 재해 복구(Disaster Recovery, DR)와 이중화
✅ 최신 IT업계 동향과 클라우드 인사이트를 놓치고 싶지 않다면?!
카카오클라우드의 뉴스레터 '카클레터'를 구독하세요! 👉 '카클레터' 구독하러 가기


댓글