카카오클라우드가 29일, 한국생명정보학회 정기학술대회 BIOINFO 2024(Annual Conference of Korean Society for Bioinformatics)’에서 카카오클라우드에 기반한 유전체 빅데이터 분석 교육 워크숍을 진행했습니다.
한국생명정보학회는 국내 생물정보학 및 시스템생물학 분야를 대표하는 학회로 학술적 연구와 국내외 교류, 관련 전문 인력 양성 등을 추진하고 있으며, 지난 22일부터 25일까지 총 4일간 경주화백컨벤션센터에서 BIOINFO 2024를 열고 다양한 주제의 강연 및 워크숍을 진행했습니다.
의료 빅데이터의 핵심 자원으로 주목받는 유전체 데이터는 그 규모와 복잡성 때문에 분석에 큰 어려움이 따릅니다. 사람 한 명의 유전체 데이터만 해도 약 30억 개의 염기쌍과 2만 개의 유전자로 구성되어 있습니다. 이러한 방대한 데이터는 저장 공간도 상당히 필요한데요. 전체 유전자 정보인 전장 유전체는 약 120GB, 유전자 활동 정보인 전사체는 약 10GB, 미생물 정보인 메타지놈은 약 20GB의 저장 공간이 필요합니다. 또, 염기 서열 분석이나 변이 식별을 위해서는 복잡한 계산 과정을 거쳐야 하는데, 이렇게 높은 복잡도를 가진 대량의 유전체 데이터를 효과적으로 처리하기 위해서는 클라우드 기반 분석 도구가 반드시 필요합니다.
이에 카카오클라우드는 고려대학교 의과대학과의 업무 협약을 통해 GATK(유전체 분석 툴킷) 파이프라인에 인프라와 기술을 지원하고 있습니다. 유전체 분석에 널리 사용되는 오픈소스 GATK의 성능을 극대화하기 위해 카카오클라우드의 분산 데이터 처리 프레임워크인 하둡 에코(Hadoop Eco) 기반으로 분산·병렬 연산 아키텍처를 최적화하는 것이죠.
이번 워크숍에서는 미국 국립표준기술연구소(NIST)가 주도하는 GIAB 컨소시엄의 고품질 참조 유전체를 활용해, 인구 내 유전체 변이 발생 빈도를 분석하고 유전체 변이와 질병 간의 관계를 파악하며 유전체 변이가 단백질과 유전자 기능에 미치는 영향을 예측하는 실습이 진행되었습니다.
카카오클라우드의 최광묵 사업개발TF장은 "이번 워크숍을 통해 카카오클라우드 환경에서 유전체 변이 관련 발생 빈도, 임상 정보, 유해성 예측 등 다양한 데이터 분석 실습이 성공적으로 진행됐다"며, "앞으로도 의료·바이오산업 분야에서 클라우드를 더욱 원활하게 사용할 수 있도록 적극 지원하고, 업계 전문가들과 지속적인 기술 교류 및 협력을 이어가겠다"고 밝혔습니다.
카카오클라우드는 클라우드 기술을 통해 유전체 분석과 의료·바이오산업의 혁신을 지원하는 데 최선의 노력을 다하겠습니다. 카카오클라우드의 여정에 많은 기대와 관심 부탁드립니다.
댓글