구글 딥마인드 '젠캐스트', 기상예측 부정확한 이유 있었다
구글 딥마인드가 지난 2024년 공개한 인공지능(AI) 기상 예측 모델 '젠캐스트'가 제트기류 등 작거나 중간규모 공기흐름을 통한 기상 예측에서는 정확도가 떨어지는 것으로 확인됐다. 광주과학기술원(GIST)은 윤진호 환경·에너지공학과 교수 연구팀이 국내외 협력 연구로 구글 딥마인드 '젠캐스트'가 날씨 예보 핵심 원리인 '나비효과'를 실제 대기처럼 충분히 재현하지 못하는 근본적인 한계를 규명했다고 31일 밝혔다. 연구는 윤진호 교수(교신저자)와 김희수 석사과정생(제1저자)이 주도하고, 류지훈 미국 유타주립대 박사후연구원, 손석우 서울대 지구환경과학부 교수, 정지훈 세종대 환경융합공학과 교수, 김형준 KAIST 문술미래전략대학원 교수가 공동저자로 참여했다. 연구 결과는 국제학술지 'npj 클라이밋 앤 애트모스페릭 사이언스'에 온라인으로 게재됐다. 김희수 석사과정생은 전화통화에서 "태풍같은 큰 규모에서는 젠캐스트 기상예측에 문제가 없었지만, 중간규모 이하 기상 예측에서는 정확도가 떨어졌다"며 "이유는 예측을 생성할 때 사용한 노이즈가 예보 과정에서 완전히 제거되지 않고 남아 있음을 확인했다"고 설명했다. 그는 또 "젠캐스트뿐 아니라 유사한 방식의 AI 기상예측 모델에서도 비슷한 특성이 나타난다"며 "현재 널리 쓰이는 성능 지표만으로는 AI 모델이 실제 대기 물리를 제대로 반영하는지 판단하기 어렵다는 점을 보여주는 것"이라고 부연 설명했다. 젠캐스트는 구글 딥마인드가 지난 2024년 공개한 AI 기상예측 모델이다. 대규모 과거 기상 데이터를 학습한 뒤 '확산 모델'을 활용해 확률적 방식으로 수일에서 최대 약 2주(15일) 범위의 날씨를 예측한다. 날씨 예보는 초기 조건의 아주 작은 차이가 시간이 지남에 따라 크게 확대되는 '나비효과' 영향을 받는다. 이러한 특성 때문에 기상청 등에서는 초기 조건을 조금씩 달리해 여러 번 예측을 수행하는 '앙상블 예보'를 통해 예측 불확실성을 확률적으로 산출하고 있다. 실제 유럽중기예보센터 수치예보모델(ECMWF IFS)은 날씨예보 방정식에 기반한 비선형적 특성을 활용해, 초기 조건의 작은 차이가 시간이 지나며 점차 증폭되고 다양한 경로의 미래 상태로 자연스럽게 전개되도록 설계돼 있다. 이를 통해 날씨 불확실성과 극한 기상 발생 가능성을 확률적으로 평가한다. 반면 젠캐스트 같은 AI 기반 기상예측 모델은 물리 방정식 대신 데이터를 학습해 예측을 수행한다. 동일한 초기 상태에서 시작해 예보 과정에서 '무작위 잡음'(노이즈)을 주입하고 이를 제거하는 방식을 통해 서로 다른 예측 결과(앙상블 멤버)를 생성한다. 이에 연구팀이 지난 2021년 52주간 제트기류가 흐르는 대기상층(9~10km)에서 운동에너지 변화를 놓고, 유럽중기예보센터 수치예보모델과 젠캐스트의 예보를 비교 분석했다. 그 결과 기존 수치예보 모델에서는 '나비효과'가 나타난 반면, 젠캐스트에서는 예보 과정에서 주입된 잡음이 실제 대기에서처럼 자연스럽게 확산되지 않고 특정 규모에 머무르며 인위적인 흔적처럼 남는 구조적 한계가 있음이 확인됐다. 김희수 석사과정생은 "실제 대기에서는 서로 다른 규모의 흐름이 상호작용하며 에너지가 이동하고 날씨가 형성되지만, 젠캐스트에서는 이러한 규모 간 상호작용이 상대적으로 약해 현실적인 대기 흐름을 충분히 재현하지 못하는 것으로 나타났다"고 설명했다. 젠캐스트는 태풍같은 큰 규모의 흐름은 비교적 잘 모델링하면서도, 구름 형성이나 폭풍 발달과 밀접한 중간 규모 이하에서는 에너지 흐름이 비정상적으로 유지되고 실제 대기와 다른 '잡음 형태'의 패턴이 나타나는 특징도 확인됐다는 것이 연구팀 설명이다. 윤진호 교수는 "현재 AI 모델이 생성하는 다양한 예측 결과(앙상블)가 물리 법칙에 따른 불확실성이라기보다 통계적 다양성에 기반할 가능성을 시사한다"며 "AI 기상예측 모델의 성능 평가에서 정확도뿐 아니라 물리적 타당성을 함께 검증할 필요가 있다"고 말했다.