💡클라우드 인프라의 안정성을 책임지는 사람들
안녕하세요!
클라우드 서비스가 끊김 없이 안정적으로 운영되기 위해서는 보이지 않는 곳에서 이를 뒷받침하는 든든한 인프라가 필요합니다.
오늘은 그 인프라의 기반을 만들고 지켜가는 클라우드서비스엔지니어링팀의 Kerus를 만나봅니다.
수백, 수천 대의 서버가 연결된 거대한 시스템 속에서 효율적인 운영과 장애 대응, 자동화 기술을 고민하는 엔지니어의 역할은 무엇일까요?
그리고, 그 과정에서 마주하는 가장 큰 도전과 성장의 순간은 어떤 모습일까요?
이번 인터뷰에서는 클라우드서비스엔지니어링팀의 Kerus를 만나, 클라우드 인프라를 운영하는 과정, 자동화 기술, 그리고 장애 대응의 최전선에서 겪는 도전과 성장에 대해 들어보았습니다.
단순히 서버를 운영하는 것을 넘어, 끊임없이 더 나은 인프라를 만들기 위해 고민하는 엔지니어의 이야기!
클라우드의 탄탄한 기반을 만들기 위한 Kerus의 여정을 함께 따라가 보세요. ☁️✨
👉 그럼, Kerus의 이야기 속으로 들어가볼까요?
Q. Kerus, 자기소개 부탁드립니다!
안녕하세요! 저는 클라우드서비스엔지니어링팀에서 서버 인프라 운영 및 OS 관리를 담당하고 있는 Kerus입니다. 😄
카카오클라우드의 안정적인 운영을 위해 하드웨어 자원 관리, OS 설정 및 최적화, 장애 대응, 자동화 도구 개발 등의 업무를 맡고 있습니다. 😄
Q. 현재 클라우드서비스엔지니어링팀에서 일하게 된 과정이 궁금합니다.
이전 직장에서 대형 고객사의 IDC(Internet Data Center)에서 잠시 근무한 적이 있는데요. 그때 대규모 서버 운영의 스케일과 구조를 직접 경험하면서, 시스템 엔지니어(SE)의 역할이 굉장히 매력적으로 다가왔어요.
특히, 고객사 인프라 운영 과정에서 클라우드 환경의 중요성을 실감했고, 더 체계적이고 큰 규모의 환경에서 SE 업무를 경험하고 싶어 카카오클라우드에 합류하게 되었습니다.
Q. 그렇군요. 입사 과정에서 특별히 기억에 남는 경험이 있을까요?
현재는 시행하지 않는 것으로 알고 있지만, 입사 당시 420분 동안 주어진 서술형 아키텍처 설계 테스트가 있었습니다.
긴 시간 동안 머릿속에 있는 개념과 경험을 최대한 정리해서 답변해야 했던 과정이 인상 깊었어요.
면접에서는 6:1 화상 면접을 진행했는데, 한꺼번에 많은 면접관을 마주하다 보니 처음에는 부담스러웠지만, 오히려 깊이 있는 대화를 나누는 좋은 경험이었습니다.
Q. 클라우드서비스엔지니어링팀은 어떤 역할을 하는 팀인가요? 그리고 Kerus가 맡고 있는 업무에 대해 소개해주세요.
한 마디로 말하면, 카카오클라우드 서비스가 원활하게 운영될 수 있도록 기반을 만드는 팀입니다. 서버 인프라를 구축하고 운영하며, 안정적인 서비스를 위한 인프라 유지·보수를 담당하고 있어요.
저는 카카오클라우드의 서버 운영과 OS 관리를 담당하고 있습니다.
- DNS 및 DNS 도메인 관리
- 서버 OS 프로비저닝 및 구성 표준화
- 운영 중인 서버 성능 및 비용 효율화
- 반복적이고 시간이 오래 걸리는 작업 자동화
- 하이퍼바이저 및 Bare Metal 서비스 운영, 인프라 용량 관리
이 외에도 장애 대응 및 자동화 시스템 구축을 통해 운영 효율성을 높이는 역할을 하고 있습니다.
Q. 클라우드 인프라를 안정적으로 운영하기 위해 가장 중요한 요소는 무엇인가요?
클라우드는 수많은 서버와 복잡한 네트워크로 이루어져 있습니다. 따라서 서버 구성 메타데이터를 체계적으로 유지하는 것이 가장 중요합니다. 서버 개수가 많아질수록 이를 한눈에 파악하기 어려워지기 때문에, 장애 발생 시 빠르게 대응하기 위해서는 자동화된 관리 시스템이 필수적입니다.
Q. 그렇다면 클라우드 인프라 운영 과정에서 가장 해결하기 어려운 기술적 문제는 무엇인가요?
클라우드 인프라는 지속적으로 확장되면서 새로운 문제들이 발생하기 마련인데요. 특히 다음과 같은 과제들이 가장 큰 도전이라고 생각합니다.
- 운영 중인 서버가 계속 증가하고, 사용 기한이 지난 서버 및 소프트웨어를 효율적으로 관리하는 문제
- 수천 대의 서버에서 발생할 수 있는 구성 오류를 조기에 탐지하고, 이를 자동화된 방식으로 해결하는 방법
- 온콜(On-call) 장애 대응 – 하이퍼바이저에 장애가 발생하면 그 위에서 운영되는 서비스까지 영향을 받기 때문에, 이를 최대한 빠르게 복구하는 것이 중요합니다.
이러한 과제들을 해결하기 위해 자동화 도구를 적극적으로 활용하고, 모니터링 시스템을 지속적으로 개선하는 것이 필수적입니다.
Q. 운영 자동화는 어떻게 적용하고 있으며, 가장 효과적이었던 자동화 사례가 있나요?
운영 자동화를 위해 CMDB(Configuration Management Database)를 활용해 전체 시스템을 관리하고 있습니다.
물리 서버를 운영하다 보면 장애로 인해 일시적으로 서비스에서 제외되거나, 용도 변경, 위치나 스펙 변경 등의 이유로 구성 정보가 지속적으로 바뀌는 상황이 발생하는데요.
이를 해결하기 위해 정합성 검사 도구를 개발하여 실제 인프라와 메타데이터가 동일하게 유지되도록 하고 있습니다. 이를 통해 신규 서비스 준비나 인프라 증설 시 오류 없는 환경을 유지하는 데 집중하고 있습니다.
또한, 클라우드의 핵심 요소인 스케일링을 안정적으로 운영하기 위해 하이퍼바이저 및 스토리지 등 시스템 가용량을 모니터링하고 있습니다.
이를 위해 준비된 시스템 용량과 사용량 정보를 수집 및 분석한 후, 가용량을 추출하고 보고하는 프로그램을 개발하여 보다 신속하고 효율적인 대응이 가능하도록 했습니다.
이러한 자동화 도구를 활용하면서 운영의 복잡성을 줄이고, 확장성과 안정성을 동시에 보장할 수 있도록 지속적으로 개선하고 있습니다. 🚀
Q. 최근 해결한 어려운 문제나 기억에 남는 장애 대응 사례가 있다면?
한 번은 SSD 디스크 성능 최적화를 위한 TRIM 설정이 오히려 가용성을 저해하는 문제를 발생시킨 적이 있었습니다. 이를 해결하기 위해 환경별로 다른 설정을 적용할 수 있도록 최적화 및 모니터링 시스템을 구축했던 것이 기억에 남습니다.
Q. 카카오엔터프라이즈의 문화에서 가장 인상적인 부분은 무엇인가요?
확실히 다른 회사와 달리 영어 닉네임과 수평적인 직급 체계를 사용하기 때문에, 초면에도 편하게 대화를 시작할 수 있다는 점이 좋다고 생각합니다. 특히 내향적인 성향(I형)의 사람들에게도 부담이 적어, 자유롭게 의견을 나눌 수 있는 환경이 조성되어 있습니다.
Q. 그렇다면 회사의 미션이나 가치가 본인의 업무와 어떻게 연결된다고 생각하시나요?
회사의 미션과 가치는 단순한 슬로건이 아니라, 제 업무의 모든 결정과 행동에 방향성을 제시하는 나침반과 같습니다.
예를 들어, 회사가 "고객 중심"을 핵심 미션으로 삼고 있다면, 저는 프로젝트를 진행할 때 항상 고객의 니즈와 피드백을 우선적으로 고려하며, 고객 만족을 위한 혁신적인 해결책을 모색합니다. 또한, 회사의 핵심 가치 중 하나인 "팀워크"를 실천하기 위해 동료들과 적극적으로 협력하고, 서로의 의견을 존중하며 문제를 해결해 나갑니다.
이처럼 회사 미션과 가치는 업무 프로세스와 의사결정에 자연스럽게 녹아들어, 개인의 업무 효율을 높이는 동시에 회사 전체의 목표 달성에도 기여하고 있다고 생각합니다.
Q. 팀 내 협업 문화는 어떤가요?
우리 팀은 각자 맡고 있는 역할이 다르기 때문에, 정보 공유가 매우 중요합니다.
서버 프로비저닝을 담당하는 사람, 내부 운영 도구를 개발하는 사람, OS 최적화를 맡은 사람 등 다양한 역할을 수행하고 있습니다.
데일리 미팅, 위클리 미팅을 통해 진행 사항을 공유하고, 예상치 못한 장애나 개선 포인트를 피드백을 통해 보완하는 과정이 많습니다.
Q. 앞으로 도전하고 싶은 기술 영역이 있나요?
네트워크 분야에도 관심이 많아, BGP(Border Gateway Protocol)와 같은 인터넷 상호연동 기술을 깊이 연구하고 싶어요. 또한, DNS 기반의 고가용성 아키텍처 구축에도 도전하고 싶습니다. 서비스 연속성을 유지하기 위한 Active-Active/Active-DR 아키텍처와 같은 기술을 더 깊이 이해하고 활용하고 싶어요.
Q. 그렇군요. 업무 외에는 어떤 취미를 즐기시나요?
뉴에이지 음악을 듣거나 애니메이션을 감상하는 것을 좋아해요. 특히 브라이언 크레인(Brian Crain)의 음악을 즐겨 듣는데, 유튜브 뮤직에서 그의 곡을 많이 들은 덕분에 상위 1% 리스너 배지를 받았어요. 😆
🔮 클라우드 인프라를 더 단단하게 만들기 위해
Kerus와의 인터뷰를 통해 클라우드 인프라 운영이 단순한 관리가 아닌, 끊임없는 개선과 도전의 과정임을 알 수 있었습니다. 앞으로도 더 견고한 인프라를 구축하며, 기술적 도전을 계속해 나갈 Kerus의 여정을 응원합니다! 🚀
댓글