🎖️세계 TOP급 성능! 카카오클라우드 'AI 슈퍼컴퓨터' 구축 여정
안녕하세요, 카카오클라우드입니다. 🇰🇷 대한민국의 AI 경쟁력 강화를 위해 의미 있는 소식을 전해드리고자 합니다.
카카오클라우드가 정부의 ‘GPU 확보·구축·운용지원 사업’을 통해 최신형 NVIDIA HGX B200 기반 GPU 인프라를 구축하여, 세계 최상위권 수준의 성능을 확인했습니다.👏👏
이번 성과는 단순히 GPU를 많이 확보했다는 의미를 넘어, 대규모 AI 워크로드를 안정적으로 고속 처리할 수 있는 고성능 인프라를 실제로 구현했다는 점에서 의미가 큽니다.
여기서 잠깐! 🖐️ GPU 확보・ 구축・ 운용지원 사업이란?
대한민국 AI 경쟁력을 강화하기 위해 정부 주도로 고성능 인프라를 구축하고, 이를 산업계・대학・연구기관・국가 AI 프로젝트 등에 지원하는 핵심 프로젝트 입니다.
관련기사1 / 관련기사2
이번 사업에서 카카오엔터프라이즈는 카카오클라우드 역량을 바탕으로 카카오와 함께 실제 GPU 인프라 구축과 최적화를 수행했습니다.
단순히 장비를 도입하는 것에 그치지 않고, 카카오클라우드만의 최적화 기술을 통해 놀라운 결과가 도출되어 그 기술적 성취를 공유드리고자 합니다. 📣

1. GPU의 노드 수가 많아질수록 왜 구축이 어려울까요? 🔗

대규모 GPU 클러스터는 장비 수가 많아진다고 해서 성능이 자동으로 비례해 좋아지지 않습니다. 오히려 노드가 늘어날수록 GPU끼리 주고받아야 할 데이터가 많아지고, 통신 경로도 복잡해져 효율이 떨어지기 쉬운 구조입니다.
쉽게 말하면, 소수의 GPU가 일하는 경우에는 손발을 맞추기 쉽지만, 255노드처럼 큰 규모가 되면 모두가 같은 속도로 움직이도록 조율하는 일이 훨씬 어려워집니다. 이때 한 곳이라도 병목이 생기면 GPU가 아무리 강력해도 전체 성능은 기대만큼 나오지 않습니다.
그래서 대규모 클러스터의 핵심은 단순한 하드웨어 스펙이 아니라, ‘GPU 간 통신 구조(네트워크)’와 ‘운영 최적화’ 입니다.
2. 카카오클라우드는 어떻게 성능을 끌어올렸을까요? 🤭
카카오클라우드는 ‘통신 구조’와 ‘운영 최적화’에 집중했습니다. 처음 설계 단계부터 최종 성능 검증까지, 6단계의 프로세스를 통해 전체 클러스터를 AI 워크로드에 맞게 정밀하게 튜닝했습니다.
• 1단계) 아키텍처 및 초기 구축: 어떤 노드에서 작업이 실행되더라도 동일한 네트워크 성능을 보장하는 8-Rail Optimized Fat-Tree 구조를 채택했습니다.
• 2단계) SW 검증 및 사전 준비: 안정적인 호환성 확보를 위해 OS 커널, NVIDIA 드라이버, CUDA, 스토리지 드라이버 등의 최적조합을 반복 검증했습니다.
• 3단계) 사전 준비(CMDB 매핑) 단계: 서버 입고 전 물리적 위치, 케이블 패치, IP 등을 사전에 매핑하여 입고 즉시 정상 동작하고장애를 추적할 수 있는 체계를 갖췄습니다.
• 4단계) Ansible(서버 배포를 도와주는 오픈소스 자동화 도구) 기반 자동화 배포: 255대 서버 전체에 동일한 OS 이미지와 필수 패키지를 일괄 자동 배포하고, HPC(고성능 컴퓨팅)워크로드에 맞춰 커널 파라미터를 튜닝했습니다.
• 5단계) 통합 모니터링: GPU 상세 컴포넌트부터 자체 개발 모듈, 그리고 데이터센터의 항온항습/전력 관리 대시보드까지 3-Tier로 실시간 연동했습니다.
• 6단계) 최종 성능 평가: 스트레스 테스트, 발열·전력 측정, 그리고 NCCL 및 HPL 성능 평가까지 최종 점검을 거쳐 성능을 확인했습니다.
이 과정에서 카카오클라우드가 특히 집중한 기술적 포인트는 정리해 보면,
✔︎ 대규모 GPU 워크로드에 적합한 인프라 구조를 설계했습니다.
✔︎ NCCL 최적화를 통해 여러 GPU가 함께 계산할 때의 통신 효율을 끌어올렸습니다.
✔︎ SHARP 기능 활성화로 네트워크 장비가 일부 연산을 분담하도록 해 통신 부담을 줄였습니다.
✔︎ 서버 OS, 드라이버, 스위치 펌웨어까지 세밀하게 조정해 전체 시스템의 병목을 줄였습니다.
즉, 이번 결과는 단순히 "성능 좋은 GPU를 많이 넣었다"가 아니라, GPU가 가장 일을 잘할수 있는 환경을 전체적으로 설계하고 운영했다
는 데 의미가 있습니다.
3. 실전에서 어떤 장애가 발생했고, 어떻게 해결했을까요? 🛠️
최신 B200 환경을 대규모로 구축하는 과정에서는 예기치 못한 하드웨어 특성과 소프트웨어 이슈들이 발생하기도 했습니다. 카카오클라우
드는 다음과 같은 정밀 튜닝과 자체 개발 기술로 이를 적극적으로 해결하였습니다.
| 분류 | 발생한 이슈 | 해결책 및 효과 |
| 네트워크 이름 최적화 | 네트워크 카드 이름이 무작위로 섞여 식별 혼선 발생 | 고유 인터페이스명을 영구적으로 유지하도록 튜닝하여 관리가시성 100% 확보 |
| 디스크 슬롯 고정 | 재부팅 시 초고속 저장장치(NVMe) 순서가 무작위로 변동 |
고유 PCI주소를 매핑하여 물리 슬롯 번호와 영구 일치 |
| 모니터링 사각지대 해소 | 벤더 전용 관리 도구의 한계로 인해 상세한 인프라 상태 모니터링이 어려움 |
자체 모니터링 모듈 개발로 GPU 스토리지 네트워크 완벽 감시 |
| 하드웨어 결함 선제 대응 | 케이블, 디스크, 전원장치 등 주요 부품의 예기치 못한 장애 가능성 | 가동 중 부품을 무작위로 강제 탈착하는 극한 테스트로 자동 복원력 및 HA 페일오버 완벽 검증 |
| 가상화 자원 충돌 해결 | Kuberflow 연동 중 가상화 분할 실패 및 성능 저하 |
PCle 트리 재배치 및 이더넷 큐 최적화로 자원 충돌을 원천 제거 |
4. GPU간 통신 성능 결과는? NCCL 테스트 결과, 이론적 한계치의 95% 달성! 📈
거대 AI 모델을 학습할 때는 계산만 빠르면 되는 것이 아니라, GPU끼리 데이터를 얼마나 빠르고 효율적으로 교환하느냐가 매우 중요합니다.
카카오클라우드는 B200 노드들을 초고속 대역폭을 자랑하는 InfiniBand NDR 네트워크로 촘촘하게 연결했습니다.
- NCCL (NVIDIA Collective Communications Library) 테스트 결과: 초당 380GB 데이터를 전송하며 이론적 한계치의 95% 수준에 도달하는 압도적인 효율을 증명했습니다.
- SHARP 기술 적용 후: 네트워크 스위치가 일부 집계 연산을 직접 분담해 처리하도록 만드는 초고속 최적화 기술(SHARP)를 활성화하여, 최종적으로 581GB/s라는 압도적인 통신 성능을 기록했습니다.

쉽게 말해, GPU들끼리 데이터를 주고받는 통로가 잘 구성되어 있어서 대규모 AI 학습이 원활하게 진행될 수 있는 환경을 만든 것입니다. 👏👏
5. 연산 성능 결과는? HPL 테스트 결과, 슈퍼컴퓨터급 연산 입증 🌟
통신 성능에 이어, 연산 성능에서도 좋은 결과가 나왔습니다. HPL(High Performance Linpack)은 전 세계 슈퍼컴퓨터 성능을 평가할 때 사용하는 표준 벤치마크입니다. 아주 복잡한 계산을 얼마나 빠르게 처리하는지 확인하는 시험이라고 생각하면 됩니다.
카카오클라우드가 255개 B200 노드를 대상으로 HPL 테스트를 진행한 결과는 다음과 같습니다.
| 평가 항목 | 측정 결과 | 의미 |
| 실측 연산 속도 (Rmax) | 69.1 PFLOPS | 초당 6.9경 번의 연산을 수행하는 슈퍼컴퓨터급 속도 |
| 연산 효율성 | 91.55% | GPU 연산 능력만 성능 기준으로 따졌을 때 이론상 최대치에 근접한 수준 |
여기서 잠깐! 🧐 전 세계 슈퍼컴퓨터 순위(TOP500) 기준으로는 어떻게 반영될까요?
TOP500 랭킹에서는 실제 측정된 연산 속도(Rmax)로 순위를 매기며, 효율을 계산할 때는 GPU뿐만 아니라 CPU의 연산 능력까지 모두 합산한 시스템 전체 이론 성능 Rpeak을 기준으로 삼습니다.
카카오클라우드의 시스템 전체 스펙을 이 기준으로 계산해 보면 다음과 같습니다.
• 시스템 전체 이론 성능 (Rpeak): 78.65 PFLOPS (GPU + CPU)
• 카카오클라우드 실측 성능 (Rmax): 69.1 PFLOPS
이 공식 기준으로 계산해도 약 87.85%라는 업계 최고 수준의 시스템 최적화 효율을 달성한 것으로 확인되었습니다.
이는 복잡한 슈퍼컴퓨터 아키텍처 환경에서도 하드웨어의 잠재력을 낭비 없이 최고 수준으로 끌어올렸음을 의미합니다.
(이 기록은 2025년 11월 TOP500 리스트 기준 세계 33위에 해당합니다.)

( 👉 참고: TOP 500 랭킹은 매년 6월과 11월에 업데이트되며, 33위는 2025년 11월 List 기준입니다.)
6. 이번 성과가 왜 중요할까요? 🤔
이번 결과는 단순한 벤치마크 수치 기록을 넘어, 대규모 AI 워크로드를 국내 기술력으로 안정적으로 운영할 수 있다는 단단한 기반을 보여준 데 의미가 있습니다.
이번 구축을 통해 카카오클라우드가 보여준 점은 크게 세 가지입니다.
첫째, 체계적인 구축 역량입니다. 설계부터 검증까지 단계별로 빈틈없이 진행하는 프로세스를 보유하고 있습니다.
둘째, 정밀한 튜닝 기술입니다. 하드웨어를 설치하는 데 그치지 않고, SW 호환성·커널·네트워크 패브릭까지 전 계층을 최적화해 하드웨어 잠재력을 최대한 끌어내는 엔지니어링 역량을 갖추고 있습니다.
셋째, 실시간 운영 대응 능력입니다. GPU·네트워크·스토리지를 함께 모니터링하면서 255대 규모의 클러스터를 장애 없이 안정적으로 운영할 수 있는 체계를 마련했습니다.
결과적으로 카카오클라우드를 이용하는 연구자는 더 빠르게 모델을 학습할 수 있고, 기업은 더 안정적으로 AI 서비스를 운영할 수 있게 되었습니다.
카카오클라우드는 지난 A100 클러스터의 TOP500 등재에 이어, 이번 B200 기반 슈퍼컴퓨터급 인프라 구축을 통해 대규모 클러스터 최적화 및 운영 역량을 다시 한번 높였습니다. 앞으로도 카카오클라우드는 끊임없는 기술 고도화를 이어가며, 대한민국 AI 산업이 더 빠르게 성장할 수 있는 든든한 인프라 파트너가 되겠습니다. 🫡
✅ 이 성과에 대해 더 자세한 기술 사양이 궁금하시거나, 카카오클라우드의 GPU 도입 상담이 필요하신가요?
✅ 함께 읽으면 좋은 콘텐츠를 소개합니다.
👉 <뉴스> 카카오클라우드, 글로벌 슈퍼컴퓨터 순위 TOP500에 진입 - 44위와 70위에 올라
✅ 최신 IT업계 동향과 클라우드 인사이트를 놓치고 싶지 않다면?!

