카카오엔터, 클라우드 기반 의료·바이오 미래 전략 제시
카카오엔터프라이즈가 의료·바이오산업 분야에서 카카오클라우드 사용 확대와 연구 기술 고도화를 위한 방안을 소개했다. 카카오엔터프라이즈는 지난 22일부터 25일까지 경주화백컨벤션센터에서 열린 한국생명정보학회 정기학술대회 '바이오인포 2024'서 카카오클라우드 기반 유전체 빅데이터 분석 교육 워크숍을 진행했다고 29일 밝혔다. 한국생명정보학회는 국내 생물정보학과 시스템생물학 분야를 대표하는 학회다. 학술적 연구와 국내외 교류, 관련 전문 인력 양성 등을 추진하고 있다. 이번 워크숍에 약 30여 명의 병원 관계자, 연구원, 대학생 등이 참여했다. 주요 세션은 ▲카카오클라우드 소개 ▲유전체 분석 툴킷(GATK) 파이프라인 구성·개요 ▲빅데이터 분석 실습 등으로 이뤄졌다. 의료 빅데이터의 핵심 자원으로 주목받고 있는 유전체 데이터는 염기 서열 분석, 변이 식별 등 복잡한 계산을 필요로 한다. 예를 들어 사람 1명의 유전체 데이터는 약 30억 개의 염기쌍과 약 2만 개의 유전자로 이뤄졌다. 이 데이터를 저장하려면 전장 유전체는 약 120기가바이트(GB), 전사체는 약 10GB, 미생물 정보를 일컫는 메타지놈은 약 20GB가 필요하다. 이런 유전체 데이터를 효과적으로 처리하기 위해선 클라우드 기반 분석 도구가 필수다. 이번 워크숍에서는 미국 국립표준기술연구소(NIST) 주도의 GIAB(Genome In A Bottle) 컨소시엄이 제공하는 고품질 참조 유전체인 골드 스탠다드 유전체(NA12878)를 활용해 '인구 내 유전체 변이 발생 빈도' '유전체 변이와 질병 간 관계 및 임상적 해석' '유전체 변이가 단백질 및 유전자 기능에 미치는 해로운 영향 예측'을 위한 분석 실습이 이뤄졌다. 효과적인 유전체 분석을 위해 지난 7월 고려대 의과대학과 체결한 업무 협약 연장선에서 제공되는 GATK 파이프라인이 활용됐다. 유전체 분석에 사용되는 오픈소스 GATK가 충분한 성능을 발휘할 수 있도록 카카오클라우드의 분산 데이터 처리 프레임워크인 하둡 에코(Hadoop Eco) 기반으로 분산·병렬 연산 아키텍처를 최적화했다. 카카오엔터프라이즈 최광묵 사업개발 태스크포스(TF)장은 "이번 워크숍을 통해 카카오클라우드 환경에서 유전체 변이 관련 발생 빈도, 임상 정보, 유해성 예측 등 다양한 데이터 분석 실습이 성공적으로 진행됐다"며 "앞으로 의료·바이오산업 분야에서 클라우드를 더욱 원활히 사용할 수 있도록 적극 지원할 것"이라고 강조했다.