AWS, 차세대 자체 설계 칩 그래비톤4·트레이니움2 공개
아마존웹서비스(AWS)는 29일 개최한 연례 컨퍼런스 'AWS 리인벤트 2023'에서 차세대 자체 설계 칩 제품군인 AWS 그래비톤4와 AWS 트레이니움2를 발표했다. 그래비톤4와 트레이니움2는 머신러닝(ML) 트레이닝과 생성형 인공지능(AI) 애플리케이션을 포함한 광범위한 고객 워크로드에 대한 개선된 가격 대비 성능과 에너지 효율성을 제공한다. AWS는 각 칩 세대마다 더 나은 가격 대비 성능과 에너지 효율을 제공하며, 고객에게 AMD, 인텔(Intel), 엔비디아(NVIDIA)와 같은 타사의 최신 칩이 포함된 칩/인스턴스 조합 외에도 다양한 선택권을 제공해 거의 모든 애플리케이션 또는 워크로드를 아마존 EC2(Amazon EC2)에서 실행할 수 있도록 지원한다. 그래비톤4는 기존 그래비톤3 프로세서 대비 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공해 아마존 EC2에서 실행되는 워크로드에 최고의 가격 대비 성능과 에너지 효율성을 제공한다. 트레이니움2는 1세대 트레이니움 칩 대비 최대 4배 빠른 학습 속도를 제공하도록 설계됐으며, 최대 10만 개의 칩으로 구성된 EC2 울트라클러스터에 배포할 수 있어 파운데이션 모델(FM)과 대규모 언어 모델(LLM)을 단시간에 학습시키고 에너지 효율성을 최대 2배까지 향상시킨다. 현재 AWS는 전 세계적으로 150개 이상의 다양한 그래비톤 기반 아마존 EC2 인스턴스 유형을 대규모로 제공하고 있다. 또한 200만 개 이상의 그래비톤 프로세서를 구축했고, 상위 100대 EC2 고객을 포함해 5만 개 이상의 고객이 애플리케이션의 가격 대비 성능 최적화를 위해 그래비톤 기반 인스턴스를 사용하고 있다. 데이터독, 디렉티비, 디스커버리, 포뮬러 1, 넥스트롤, 닐슨, 핀터레스트, SAP, 스노우플레이크, 스프링클, 스트라이프, 젠데스크 등이 데이터베이스, 분석, 웹 서버, 배치 처리, 광고 서비스, 애플리케이션 서버, 마이크로서비스 등 광범위한 워크로드를 실행하는 데 있어 그래비톤 기반 인스턴스를 사용한다. 고객이 더 큰 규모의 인메모리 데이터베이스 및 분석 워크로드를 클라우드로 가져올수록 컴퓨팅, 메모리, 스토리지 및 네트워킹 요구사항은 증가한다. 따라서 이러한 까다로운 워크로드를 실행하는 동시에 비용을 관리하기 위해서는 더 높은 성능과 더 큰 인스턴스 크기가 필요하며, 워크로드가 환경에 미치는 영향을 줄이기 위해 보다 에너지 효율적인 컴퓨팅 옵션을 원하는 고객의 선호를 충족해야 한다. 그래비톤은 아마존 오로라, 아마존 엘라스티캐시, 아마존 EMR, 아마존 메모리DB, 아마존 오픈서치, 아마존 RDS, AWS 파게이트,, AWS 람다 등 AWS 관리형 서비스에서 지원되므로 해당 서비스 사용자에게 그래비톤의 이점인 우수한 가격 대비 성능을 제공할 수 있다. 그래비톤4 프로세서는 기존 그래비톤3보다 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 큰 메모리 대역폭을 제공한다. 아울러 그래비톤4는 모든 고속 물리적 하드웨어 인터페이스를 완전히 암호화해 보안성을 높인다. 그래비톤4는 메모리에 최적화된 아마존 EC2 R8g 인스턴스로 제공돼 고객이 고성능 데이터베이스, 인메모리 캐시, 빅데이터 분석 워크로드의 실행을 개선할 수 있도록 지원한다. R8g 인스턴스는 기존 세대 R7g 인스턴스보다 최대 3배 더 많은 vCPU와 3배 더 많은 메모리로 더 큰 인스턴스 크기를 제공한다. 고객은 이를 통해 더 많은 양의 데이터 처리, 워크로드 확장, 결과 도출 시간 개선, 총 소유 비용 절감을 달성할 수 있다. 그래비톤4 기반 R8g 인스턴스는 현재 프리뷰 버전으로 제공되며, 향후 몇 달 내에 정식 출시될 예정이다. 새롭게 떠오르는 생성형 AI 애플리케이션의 기반이 되는 FM과 LLM은 방대한 데이터 세트를 기반으로 학습된다. 이러한 모델을 통해 고객은 텍스트, 오디오, 이미지, 비디오, 심지어 소프트웨어 코드를 포함한 다양한 신규 콘텐츠를 생성해 사용자 경험을 완전히 새롭게 재구현할 수 있다. 최신의 FM과 LLM은 수천억 개에서 수조 개에 이르는 파라미터를 포함하므로 수만 개의 ML 칩에 걸쳐 확장할 수 있는 안정적인 고성능 컴퓨팅 용량을 필요로 한다. AWS는 이미 최신 엔비디아 GPU, 트레이니움, 인퍼런시아2 등 ML 칩이 탑재된 가장 광범위하고 심층적인 아마존 EC2 인스턴스 선택지를 제공하고 있다. 현재 데이터브릭스, 헬릭손, 머니포워드, 아마존 서치팀 등의 고객들은 대규모 딥 러닝 모델을 학습시키는데 트레이니움을 사용하며, 높은 성능, 확장성, 안정성, 저비용의 등의 이점을 경험하고 있다. 하지만 고객들은 최고 수준의 속도를 자랑하는 가속 인스턴스를 사용하고 있음에도 불구하고 점점 더 정교해지는 모델을 더 낮은 비용으로 더 빠르게 학습시키는 동시에 에너지 사용량을 줄일 수 있는 성능과 규모를 갖춘 제품을 필요로 한다. 트레이니움2 칩은 최대 수조 개의 파라미터를 보유한 FM 및 LLM의 고성능 트레이닝을 위해 제작되었다. 트레이니움2는 1세대 트레이니움 칩에 비해 최대 4배 빠른 학습 성능과 3배 더 많은 메모리 용량을 제공하는 동시에 에너지 효율(와트당 성능)을 최대 2배까지 개선할 수 있도록 설계됐다. 트레이니움2는 단일 인스턴스에 16개의 트레이니움 칩이 포함된 아마존 EC2 Trn2 인스턴스로 제공될 예정이다. Trn2 인스턴스는 AWS 엘라스틱 패브릭 어댑터(EFA) 페타비트급 네트워킹과 상호 연결되어 고객이 차세대 EC2 울트라클러스터에서 최대 10만 개의 트레이니움2 칩을 규모에 맞게 확장해 최대 65 엑사플롭의 컴퓨팅을 제공하고 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있도록 지원한다. 이로써 고객은 기존에는 몇 달이 소요되던 3천억 개 파라미터 규모 LLM의 학습을 단 몇 주 만에 수행할 수 있다. Trn2 인스턴스는 훨씬 더 낮은 비용으로 최고 수준의 스케일아웃 ML 학습 성능을 제공함으로써 고객이 생성형 AI의 차세대 발전을 가속화하고 실현할 수 있도록 지원한다. 앤트로픽은 신뢰할 수 있고 해석 가능하며 조정 가능한 AI 시스템을 개발하는 AI 안전 및 연구 회사로 2021년부터 AWS의 고객이다. 앤트로픽은 최근 유용하며, 무해하며, 정직한 AI 어시스턴트인 클로드를 출시했다. 톰 브로우 앤트로픽 공동 창립자는 "클로드는 아마존 베드록에서 출시된 이후 AWS 고객들로부터 빠른 속도로 채택되고 있다"며, "앤트로픽은 AWS와 긴밀히 협력해 트레이니움 칩을 사용한 미래 기반 모델을 개발하고 있다”고 밝혔다. 그는 “트레이니움2는 대규모 모델 구축 및 학습에 유용하게 활용될 것이며, 일부 주요 워크로드에서 1세대 트레이니움 칩보다 최소 4배 이상 빠를 것으로 예상한다”고 강조했다. 그는 “AWS와의 협력은 앤트로픽의 최첨단 AI 시스템과 AWS의 안전하고 신뢰할 수 있는 클라우드 기술을 함께 사용할 수 있게 함으로써 모든 규모의 조직이 새로운 가능성을 열 수 있게 지원할 것”이라고 덧붙였다. 데이비드 브라운 AWS 컴퓨팅 및 네트워킹 부문 부사장은 "실리콘은 모든 고객 워크로드의 기반이 되며, 이는 AWS의 핵심 혁신 분야”라며 “고객에게 중요한 실제 워크로드에 집중해 칩을 설계함으로써 AWS는 고객에게 가장 진보한 클라우드 인프라를 제공할 수 있게 됐다”고 설명했다. 그는 “그래비톤4는 불과 5년 만에 출시한 4세대 칩으로서 광범위한 워크로드를 위해 지금까지 개발한 칩 중 가장 강력하고 에너지 효율적”이라며 “생성형 AI에 대한 관심이 급증함에 따라 트레이니움2는 고객이 더 낮은 비용으로 더 빠르게, 그리고 더 높은 에너지 효율로 ML 모델을 훈련할 수 있도록 지원할 것”이라고 밝혔다.