데이터센터 서버, 192코어 시대 열린다
Arm 아키텍처 기반의 데이터센터 서버용 CPU를 개발하는 암페어컴퓨팅이 192코어 서버 프로세서를 공개했다. 인텔과 AMD의 x86 프로세서 중심 데이터센터 서버 시장을 재구성하는 진정한 경쟁자로 올라설지 주목된다. 최근 암페어컴퓨팅은 클라우드 데이터센터 시장을 위한 3세대 데이터센터 서버 CPU ' 암페어원(코드명 사이린, Siryn)' 제품군을 공개했다. 암페어의 사이린 프로세서는 AMD 프로세서의 2배, 인텔 최상위 제온 프로세서의 3배에 달하는 코어를 가졌다. 그동안 Arm의 네오버스 코어를 사용해온 암페어는 3세대 칩에서 Arm 아키텍처 라이선스를 채택해 자체 설계한 코어를 적용한다. 암페어원 프로세서는 클라우드 네이티브란 점을 특징으로 한다. 인텔과 AMD가 클라우드 외에 다양한 워크로드에 맞춘 범용 디자인을 유지하는 것과 차별화된다. 제프 위치 암페어 최고제품책임자는 "암페어의 맞춤형 클라우드 네이티브 코어를 사용하면 랙당 최대 성능을 갖춘 클라우드 규모에서 레거시 컴퓨팅의 제약을 벗어나 다른 CPU로 범접할 수 없는 다음 단계에 도달한다"며 "클라우드는 소프트웨어 개발에 완전히 새로운 세계와 접근 방식을 도입했으며, 마이크로프로세서도 같은 일을 할 때가 됐다"고 강조했다. 그는 "컴퓨팅의 기하급수적 성장으로 인해 이러한 구조적 변화의 필요성이 높아졌으며, 이로 인해 데이터 센터와 중요한 상업 및 주거 개발 사이의 전력 자원 경쟁이 벌어졌다"며 "지속 가능성은 더 이상 ESG 노력의 일부가 아니라 미래의 모든 컴퓨팅 성장에 매우 중요하다"고 덧붙였다. 암페어는 클라우드 네이티브 프로세서의 요건으로 'CPU 당 고성능', '예측가능한 성능', '확장성' 등을 꼽았다. 암페어는 더 많은 코어수를 탑재해 더 높은 성능을 달성할 수 있다고 강조한다. 스레드당 성능, 부동소수점연산 성능에선 인텔과 AMD보다 떨어지지만, 동일한 전력 소비 환경에서 더 많은 컴퓨팅 자원을 구축해 더 높은 성능을 낼 수 있다는 것이다. 인텔과 AMD도 단일 CPU의 코어수를 증가시키고 있다. 단, 인텔과 AMD는 코어당 2개의 스레드, 즉 동시멀티스레딩(SMT)를 제공하는 반면, 암페어는 코어당 단일 스레드만 실행한다. SMT는 실리콘의 전체 면적과 코어당 트랜지스터 수를 늘리지 않고 성능을 향상시킬 수 있다. 하지만, 스레드가 코어를 공유하므로 때로 성능을 예측할 수 없고, 사이드채널 공격에 활용된다는 단점을 갖는다. 암페어원은 192개의 모든 코어를 메모리와 I/O 다이 옆의 단일 대형 다이 내에 담는다. AMD가 96개 코어를 12개의 8코어 타일로 분할해 단일 중앙 메모리와 I/O 컨트롤러로 통신하게 하는 것과 정반대 접근법이다. 암페어는 코어와 코어 사이의 통신을 제거함으로써 대기시간을 더 많이 달성할 수 있다고 설명한다. 프로세서의 공정 기술은 혼합돼 있다. 컴퓨트 타일은 TSMC 5나노미터(nm) 공정을 사용하고, I/O와 메모리 다이는 TSMC 7nm 공정을 사용한다. 암페어원의 각 코어는 각자 2MB의 L2 캐시를 가졌다. 공유 L3 캐시는 상대적으로 작다. DDR5 메모리와 PCIe 5세대를 채택해 I/O 처리량을 대폭 늘렸다. 핵심 디자인도 새로워졌다. 중첩 가상화, 메시 혼잡 관리, 분기 예측, 보안 및 전원 관리 등이 대폭 개선됐다고 한다. 모든 코어는 메시 상단에 위치하는데, 내부 통신 중 메시에서 덜 혼잡한 대체 경로로 유연하게 변경한다. 인텔과 AMD CPU는 사용중인 코어나 스레드 수와 실행중인 코드 유형에 따라 코어 클럭 속도가 크게 달라진다. 주어진 전력과 발열 상황 하에서 성능을 최적화하는데 유리하다. 반면, 암페어원은 워크로드에 상관없이 클럭 속도를 동일하게 유지한다. 여러 사용자가 가상머신(VM)으로 한 CPU 상에서 코어를 나눠쓰는 멀티테넌트 환경에서 성능 예측 가능성을 확보하기 위해서다. 암페어원의 클럭석도는 2.8GHz다. 암페어원은 이전 버전인 암페어 알트라보다 더 많은 전력을 소비하고, 더 많은 열을 낸다. 알트라가 코어당 1.25~1.4 와트를 소비하는 반면, 암페어원은 코어당 1.8와트를 소비한다. 암페어원의 소비전력은 소켓당 200~3560와트다. 암페어는 ARM 아키텍처를 기반으로 프로세서를 설계하면서 데이터센터 시장을 겨냥해왔다. 자율주행자동차도 암페어 칩의 주된 활용처다. 세미애널리시스에 따르면, 암페어는 작년 30만개 이상의 CPU를 출하했다. 현재 마이크로소프트 애저, 구글클라우드, 오라클클라우드인프라스트럭처(OCI), 알리바바클라우드, 텐센트클라우드 등이 암페어의 ARM 기반 프로세서 인스턴스를 제공중이다. 암페어 칩의 가장 큰 경쟁사는 아마존웹서비스(AWS)의 '그래비톤3'다. AWS 그래비톤3는 암페어원고 유사한 칩렛 디자인을 가졌고, 유사한 메시 및 상호 연결 인터페이스를 사용한다. 다양한 크기의 VM을 손쉽게 구성하고, 일관적인 성능을 제공할 수 있기 때문이다. 암페어는 인텔이나 AMD CPU와 코어당 성능을 비교하기보다 단일 랙에 얼마나 높은 밀도를 구성할 수 있나로 비교했다. 16.4킬로와트의 랙에 얼마나 많은 코어를 넣을 수 있고 얼마나 많은 VM을 수용하느냐는 것이다. 고성능 x86 CPU 서버나 엔비디아 H100 GPU로 랙을 채울 때 전력 소비량은 큰 기울기로 상승한다. 암페어에 의하면, SPEC CPU2017 인터거레이트 워크로드에서 암페어원 A192 1소켓 서버는 434W, AMD 에픽 9654 제노아 서버는 624W, 인텔 제온 8480 사파이어래피즈는 534W를 소비한다. 랙당 전력 예산을 16.5kW로 보면, 한 랙당 암페어원은 38개 서버, 인텔은 30개 서버, AMD는 26개 서버를 장착할 수 있다. 계산하면 한 랙당 수용가능한 VM 수는 암페어원의 경우 7천296개, AMD 에픽 9654 제노아의 경우 2천496개 인텔 제온 8480 사파이어래피즈의 경우 1천680개를 수용할 수 있다. 암페어원은 워크로드 성능 측면에서 아직 인텔과 AMD에 뒤처지는 모습을 보인다. 암페어 측은 이미지생성AI인 스테이블디퓨전 테스트에서 암페어원은 AMD 에픽 9654보다 2.3배 성능을 냈다고 밝혔는데, 단순비교하기 힘든 사양 구성을 보인다. 암페어원 테스트는 160개 코어, 512GB DDR5, 리눅스커널 6.1.10 등으로 구성된 환경으로 진행된 반면, AMD 테스트는 256GB 메모리와 리눅스커널 5.18 등으로 구성된 환경에서 진행됐다. DLRM 테스트에선 데이터 형식도 암페어원이 FP16을, AMD가 FP32를 사용해 차이를 가졌다. 암페어원은 오히려 AI 워크로드에서 SPEC 정수 속도보다 더 많은 전력을 소비하는 것으로 나타나기도 했다. AMD가 SPEC보다 스테이블디퓨전에서 더 적은 전력 소비를 보인 것과 비교된다. 암페어원의 실질적인 공급은 아직 확정되지 않았다. 현존하는 알트라 칩 단종 후에 이뤄질 것이라고 회사측은 밝혔다. 암페어원 출시 시점이면 시장에서 경쟁할 x86 제품군도 달라진다. 암페어는 AMD 제노아와 인텔 사파이어래피즈를 비교했지만, 출시 시점이면 AMD의 128코어 베르가모 칩과 인텔 시에라포레스트 제온 등과 경쟁해야 한다. AMD와 인텔 모두 각 신제품에 암페어의 핵심 개념 상당수를 채택해 클라우드 네이티브를 목표로 설계했다고 설명하고 있다. 르네 제임스 암페어컴퓨팅 최고경영자(CEO)는 "수십 년마다 컴퓨팅 성능 요구 사항에 새로운 기준을 설정하는 구동 애플리케이션 혹은 성능 사용이 등장했다"며 "현재 운전 용도는 AI와 스트리밍 미디어이며, 데이터센터의 성능의 대용으로 전력을 계속 사용할 수 없다"고 밝혔다. 그는 "암페어는 지속 가능한 전력으로 성능을 극대화하도록 제품을 설계하므로 업계의 미래를 계속 주도할 수 있다"고 강조했다.