마이크로소프트는 오픈AI의 슈퍼컴을 어떻게 구축했나
마이크로소프트는 지난 2019년 오픈AI 투자를 결정한다. 새로운 AI 시스템을 구축한다는 오픈AI의 대담한 아이디어에 10억달러를 베팅한 것이다. 2020년부터 마이크로소프트는 오픈AI의 연구를 위한 슈퍼컴퓨터를 애저에 구축해 제공했다. 당시 전세계 슈퍼컴퓨터 5위권에 들 정도의 성능이었다. 5년째 마이크로소프트의 결정은 챗GPT의 성공과 함께 재조명받고 있다. 최근엔 오픈AI에 제공한 슈퍼컴퓨터 인프라에 대한 자세한 내용을 설명했다. 마이크로소프트는 13일 엔비디아 H100 텐서코어 GPU와 퀀텀2 인피니밴드 네트워킹을 통합한 새로운 AI용 가상머신(VM) '애저 ND H100 v5'를 공개하며 그간의 인프라 구축 과정을 밝혔다. 오픈AI가 대규모언어모델(LLM)과 달리(DALL-E) 2, 챗GPT 등을 개발하고 서비스하는데 사용하는 인프라의 구체적 규모는 알려진 바 없다. 다만 엄청난 양의 GPU를 사용중이란 막연한 추측만 있을 뿐이다. 마이크로소프트 테크라이터인 존 로치는 "약 5년전 오픈AI가 사람과 컴퓨터의 상호작용방식을 영원히 바꿀 AI 시스템을 구축할 수 있다는 대담한 아이디어를 마이크로소프트에게 제시했다"며 "당시엔 그것이 평이한 언어로 그림을 만드는 AI나 랩 가사를 쓰고 이메일 초안을 작성하고 소수의 단어로 전체 메뉴를 기획하는 챗봇을 의미할 것이란 걸 아무도 몰랐다"고 적었다. 그는 "AI 연구자들은 더 복잡한 AI 워크로드 처리에 GPU를 사용함으로써 뉘앙스를 더 잘 이해할 수 있는 훨씬 더 큰 AI 모델의 잠재력을 엿볼 수 있었고 다양한 언어 작업을 처리할 수 있었다"며 "그러나 더 큰 규모의 모델은 기존 컴퓨팅 자원의 경계에 빠르게 닿았고, 마이크로소프트는 오픈AI에서 요구하는 슈퍼컴퓨팅 인프라의 종류와 필요한 규모를 이해했다"고 설명했다. 니디 샤펠 마이크로소프트 애저 고성능컴퓨팅&AI 제품책임자는 "연구를 통해 모델이 클수록 더 많은 데이터를 보유하고 더 오래 훈련할 수 있으며 더 정확해진다는 것을 알게 됐다"며 "따라서 더 큰 모델을 더 오랜기간동안 훈련해야 한다는 강력한 요구가 있었고, 이는 가장 큰 인프라를 보유해야 할 뿐 아니라 오랜기간 안정적으로 운영할 수 있어야 한다는 것을 의미했다"고 밝혔다. 올해 한번 더 연장된 마이크로소프트와 오픈AI의 파트너십으로 2019년부터 양사는 점점 더 강력해지는 AI 모델의 확장 제품군을 학습하는 전용 슈퍼컴퓨팅 리소스를 구축하기 시작했다. 이 인프라는 짧은 대기시간과 큰 대역폭을 제공하는 엔비디아 퀀텀 인피니밴드와, 수천개의 엔비디아 최적화 GPU를 사용했다. 필 웨이마우스 마이크로소프트 전략적파트너십 담당 수석이사는 "오픈AI 모델을 교육하는데 필요한 클라우드 인프라의 규모는 전례없는 것이었고, 기하급수적으로 큰 네트워크 GPU 클러스터가 필요했다"고 말했다. 마이크로소프트의 오픈AI용 애저 슈퍼컴퓨터는 현재 엔비디아 H100 텐서코어 GPU를 사용하고 있다. 인피니밴드도 퀀텀2로 업그레이드됐다. 대규모 GPU 클러스터의 핵심 인프라는 인피니밴드로 연결한 네트워크다. 인피니밴드는 수만개 GPU를 연결하며, 그간 GPU 및 네트워킹 장비 업체에서 테스트한 것보다 더 크다고 한다. 니디 샤펠은 "대규모 언어 모델을 교육하기 위해 계산 워크로드를 클러스터의 수천개 GPU로 분할된다"며 "allreduce란 이 계산의 특정 단계에서 GPU는 수행한 작업에 대한 정보를 교환하고, 인피니밴드는 GPU의 다음 계산 청크 시작 전에 완료돼야 하는 이 단계를 가속한다"고 설명했다. 그는 "이런 작업은 수천 개의 GPU에 걸쳐 있기 때문에 신뢰할 수 있는 인프라를 가졌는지 확인해야 하고, 수주일동안 멈추지않고 통신을 더 빠르게 할 수 있는 네트워크를 가져야 한다"며 “이것은 GPU를 구입하고 연결하면 함께 작동하기 시작하는 것이 아니며, 최고의 성능을 얻기 위해 여러 세대에 걸쳐 쌓은 수많은 시스템 레벨 최적화가 필요하다"고 강조했다. 마이크로소프트의 시스템 레벨 최적화는 GPU 및 네트워킹 장비를 효과적으로 활용할 수 있는 소프트웨어를 포함한다. 지난 몇 년 동안 마이크로소프트는 수십조 개의 매개변수로 모델을 교육하는 능력을 키우는 동시에 리소스 요구 사항과 프로덕션에서 모델을 교육하고 제공하는 시간을 줄이는 소프트웨어 기술을 개발했다. 마이크로소프트와 파트너들은 또한 GPU 클러스터 용량을 점진적으로 추가하고 인피니밴드 네트워크를 확장해왔다. 냉각 시스템, 무정전 전원 공급 장치 시스템 및 백업 생성기 등 GPU 클러스터의 운영을 유지하는 데 필요한 데이터센터 인프라를 얼마나 확장할 수 있는지 모색했다. 웨이마우스는 "우리가 내부 팀을 위해 유사한 시스템을 구축하고 있었고 거기에 보완적인 요소가 있었기 때문에 가능했던 일"이라며 "그러나 우리가 오픈AI를 위해 수행한 규모는 내부적으로나 외부 파트너로서나 훨씬 더 컸다"고 술회했다. 오픈AI를 위해 설계된 애저의 슈퍼컴퓨터는 현재 일반 사용자를 위한 인프라 서비스로도 제공되고 있다. 에릭 보이드 마이크로소프트 AI플랫폼팀 기업부사장(CVP)은 "오픈AI와 작업은 대규모 교육 워크로드 지원에 맞춘 특수 목적 클러스터를 구축하는 초기 개념검증 중 하나였다"며 "마이크로소프트는 오픈AI와 협력해 훈련 환경 구축의 핵심 요구사항을 알게 됐고, 이제 다른 누군가 동일한 스타일의 인프라를 원할 때 그것을 제공할 수 있다"고 밝혔다. 그는 "그것이 우리가 하는 표준 방식이기 때문"이라고 덧붙였다. 마이크로소프트의 AI 최적화 클라우드는 개발초기부터 추론을 가속하는 특수 하드웨어에 초점을 맞췄다. 학습을 마친 AI 모델이 이메일 초안을 작성하고, 문서를 요약하며, 프로그래밍 코드 작성을 지원하고, 그림을 그리는 등의 작업이 추론이다. 현재 마이크로소프트는 전세계 60여개 지역의 애저 데이터센터 공간에 추론용 GPU를 배포했다. 맞춤형 생성 AI 챗봇을 애저 이용자가 구축하고 구동하는데 이 인프라를 사용할 수 있다. 대규모 AI 모델이 추론을 빠르고 비용효율적으로 수행하려면 학습 인프라와 동일한 방식으로 연결된 GPU가 필요하다. 마이크로소프트는 이때문에 애저 데이터센터 공간 전체에서 인피니밴드를 사용해 GPU 클러스터를 확장해왔다. 추천, 예측 등의 AI 모델은 학습 관련 인프라가 더 중요한 것으로 여겨졌다. 추론 인프라는 상대적으로 더 저사양으로 생각해왔다. 그러다 챗GPT가 폭발적인 인기를 끌면서 불특정다수의 대규모 고객에게 추론 인프라 기반의 AI 서비스를 해야 하는 상황이다. 생성AI는 학습 단계만큼 GPU 클러스터를 소비해야 빠른 결과값을 내야 한다. 그래서 인기있는 추론 서비스의 사용자규모를 뒷받침하면서 비용을 얼마나 절감할 수 있느냐가 향후 서비스 경쟁의 우열을 가르는 포인트로 꼽히고 있다. 니디 샤펠은 "모델이 자체적으로 더 빠르게 통신하므로 더 적은 시간에 같은 양의 컴퓨팅을 수행해 더 저렴하다"며 "최종 이용자 관점으로 보면 추론을 얼마나 저렴하게 제공할 수 있느냐가 관건"이라고 설명했다. 추론 속도를 높이기 위해 마이크로소프트는 오픈소스 엔진인 'ONNX 런타임'으로 시스템 최적화에 투자했다. ONNX 런타임은 고급 최적화 기술을 통합해 최대 17배 빠른 추론을 제공할 수 있다. ONNX 런타임은 하루에 1조개 이상의 추론을 실행하고 유비쿼터스 AI 기반 디지털 서비스를 가능하게 한다. 마이크로소프트와 애저 고객팀은 구축된 글로벌 인프라를 사용해 챗봇과 자동 자막생성 등 특정 사례를 겨냥한 대규모 AI 모델을 미세 조정하고 있다. 에릭 보이드 부사장은 "스케일업과 스케일아웃을 위한 애저의 AI 최적화 인프라는 고유한 능력으로, AI 모델 학습부터 추론에 이르는 다양한 AI 워크로드에 이상적"이라고 강조했다. 마이크로소프트는 특수 목적으로 구축된 AI 인프라의 설계와 최적화 및 혁신에 지속적으로 투자하고 있다. 컴퓨터 하드웨어 공급업체, 데이터센터 장비업체 등과 협력으로 비용효율적이면서 최고성능인 클라우드를 구축하겠다는 것도 목표로 한다. 애저의 AI 최적화 인프라는 14일로 가상머신 포트폴리오와 스토리지 리소스 등 애저 클라우드 컴퓨팅 패브릭 전체의 표준이 됐다고 한다. 스콧 거스리 마이크로소프트 클라우드&AI그룹 총괄부사장(EVP)은 "이 인프라를 구축함으로써 오픈AI의 챗GPT와 새로운 마이크로소프트 빙 같은 제품에서 보이는 AI 기능이 잠금해제됐다"며 "오직 마이크로소프트 애저만 이런 유형의 트랜스포머 AI 모델을 대규모로 구축하는데 필요한 GPU와 인피니밴드 네트워킹 등의 고유 AI 인프라를 제공한다"고 강조했다. 그는 "이것이 오픈AI가 마이크로소프트와 파트너 관계를 맺은 이유"라며 "애저는 이제 대규모 혁신 AI 워크로드를 개발하고 실행할 수 있는 곳"이라고 강조했다.