검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'엔비디아 GPU'통합검색 결과 입니다. (162건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

AI 광풍으로 전 세계 반도체 칩 대란 '우려'

인공지능(AI) 반도체와 스마트폰, 노트북 수요 급증으로 전 세계적으로 반도체 칩 부족 현상이 다시 일어날 수 있다는 전망이 나왔다. 미국 경제매체 CNBC는 25일(현지시간) 컨설팅 업체 베인앤컴퍼니 보고서를 인용해 이같이 보도했다. 세계 경제는 코로나19 팬데믹 당시 반도체 칩 대란을 경험했다. 당시 부품 공급망이 붕괴되고 재택근무 증가로 노트북을 비롯한 가전제품 수요가 급증하면서 칩 부족에 시달렸다. 그런데 최근 들어 AI 기반 제품 수요가 크게 늘면서 또 다시 칩 부족 조짐이 보이고 있다는 것이 분석의 골자다. 현재 글로벌 빅테크들은 엔비디아의 그래픽처리장치(GPU)를 비롯한 칩을 대거 사들이고 있는 상태다. GPU는 오픈AI의 챗GPT와 같은 애플리케이션을 뒷받침하는 거대 AI모델 훈련에 필수적이다. 또, 퀄컴 같은 회사는 스마트폰과 개인용 컴퓨터에 들어가는 칩을 만들고 있는데 이 칩은 기기 단계에서 AI 응용 프로그램을 실행할 수 있도록 해준다. 해당 제품들은 AI 지원 기기로 불리는데 삼성부터 마이크로소프트까지 많은 회사들이 이런 제품들을 잇따라 출시하고 있다. 베인은 GPU와 AI 제품에 대한 수요가 칩 부족의 원인일 수 있다고 밝혔다. 앤 호에커 베인앤컴퍼니 미주지역 기술 책임자는 "GPU 수요 급증으로 반도체 가치 사슬의 특정 요소에 부족 현상이 발생하고 있다"며, "GPU에 대한 수요가 늘고 있는 가운데 AI가 가능한 기기로의 교체 주기가 가속화하면 반도체 공급에서 더 광범위한 제약이 발생할 수 있다"고 인터뷰를 통해 밝혔다. 하지만 지금까지 소비자들이 AI 기기 구매에 신중한 태도를 보이는 만큼 AI 기반 기기 수요가 얼마나 될지는 현재로서는 불확실하다. 베인은 반도체 공급망이 "엄청나게 복잡하며, 수요가 약 20% 이상 증가하면 균형이 깨지고 칩 부족 현상이 발생할 가능성이 높다"며, "대규모 최종 시장의 합류 지점에서 AI가 폭발적으로 확산되면 그 한계를 쉽게 넘어설 수 있으며, 공급망 전반에 취약한 병목 현상이 발생할 수 있다"고 밝혔다. 반도체 공급망은 한 회사가 아닌 여러 회사에 걸쳐 분산되어 있다. 예를 들면 엔비디아가 GPU를 설계하지만 대만 TSMC가 이를 생산하며, TSMC는 네덜란드 등 전 세계에 퍼져있는 반도에 칩 제조 도구들을 활용하는 식이다. 또, 최첨단 칩은 TSMC와 삼성전자에서만 대량 생산이 가능한 상태다. 지정학적 요인도도 반도체 칩 부족을 촉발하는 요인일 수 있다고 베인은 설명했다. 반도체는 전 세계 정부에서 전략적 기술로 간주하기 때문에 미국은 최근 중국을 상대로 수출 제한 및 기타 제재를 통해 최첨단 칩 접근을 제한하려는 정책을 펼쳐 왔다. "지정학적 긴장, 무역 제한, 다국적 기술 기업의 중국 공급망 분리는 반도체 공급에 심각한 위험을 초래하고 있다. 반도체 공장 건설 지연, 자재 부족 및 기타 예측할 수 없는 요소도 핀치 포인트를 만들 수 있다"는 게 베인의 분석이다.

2024.09.26 13:27이정현

노트북 내장 그래픽 성능 향상에 외장 GPU '개점휴업'

노트북용 프로세서 경쟁은 코어 수와 IPC(클록당 실행 명령어 수), 전력 효율 등 CPU 뿐만 아니라 GPU 분야에서도 치열하게 진행 중이다. AI PC에서 클라우드 도움 없이 LLM(거대언어모델), 생성 AI를 실행하는 데 CPU나 NPU(신경망처리장치) 못지 않게 GPU 성능 향상도 필요하다. 인텔이 이달 초 정식 공개한 코어 울트라 200V(루나레이크) 프로세서는 지속적으로 성능을 강화해 과거 엔비디아 등이 공급하던 외장 그래픽칩셋에 필적하는 수준까지 향상됐다. 과거 씬앤라이트 노트북이나 투인원 노트북에서는 게임을 즐기기 어렵다는 고정관념도 깨질 가능성이 커졌다. 주요 PC 제조사도 코어 울트라 200V 기반 휴대형 게임PC 출시 확대를 검토중이다. ■ 인텔, 2020년부터 노트북용 내장 GPU 성능 향상 22일 시장조사업체 존페디리서치에 따르면 올 2분기 현재 PC용 GPU 시장에서 가장 큰 비율을 차지하는 업체는 인텔(64%)이다. 2011년 출시한 2세대 코어 프로세서부터 '빌트인 비주얼'을 내세워 거의 모든 프로세서에 GPU를 통합하고 있기 때문이다. 인텔은 2017년부터 자체 개발한 Xe 그래픽 기술을 기반으로 2020년부터 노트북용 프로세서 그래픽 성능을 매년 두 배 가까이 향상시켰다. 2021년 11세대 코어 프로세서(타이거레이크) 내장 Xe 그래픽스는 1920×1080 해상도에서 초당 90프레임 이상을 넘겼다. 지난 해 출시된 코어 울트라 시리즈1(메테오레이크)는 인텔 아크 A시리즈 그래픽칩셋의 레이트레이싱, XeSS 등 게임 관련 기능을 대거 추가했다. 해상도를 낮추는 대신 AI 기반 업스케일 기능으로 초당 프레임을 최대 1.72배 높였다. ■ 코어 울트라 200V, AI·그래픽 성능 향상에 주력 다음 주부터 국내를 포함한 전 세계 시장에 정식으로 공급될 코어 울트라 200V는 그래픽을 담당하는 Xe 코어의 후속작인 Xe2 코어 8개를 적용했다. 내부 구조를 완전히 새로 설계해 전 세대 대비 성능을 최대 1.5배 향상시켰다. AI PC에서 이미지 생성, LLM(거대언어모델) 구동 등에 자주 쓰이는 행렬 연산 강화를 위해 과거 노트북용 프로세서에는 탑재되지 않았던 XMX(Xe 행렬 확장) 엔진도 8개 추가했다. 스테이블 디퓨전 1.5로 그림 한 장을 만드는 시간은 절반으로 단축됐다. 지난 4일 인텔이 공개한 도타 2(DOTA 2) 구동 비교 영상에서 코어 울트라 200V 프로세서는 AMD 라이젠 HX 370과 초당 프레임 수는 70프레임 전후로 유사했지만 전체 소비 전력은 약 32W로 AMD 대비 10W 가량 낮았다. ■ 노트북용 보급형 GPU 신제품 개발 멈춘 엔비디아 노트북 시장에 지포스 MX150/MX200 등 보급형 GPU를 공급하던 엔비디아는 최근 2-3년간 신규 제품 개발을 중단한 상태다. 현재는 H100 등 서버용 AI GPU, 게임용 데스크톱PC와 노트북용 RTX 40 시리즈로 무게 중심을 옮겼다. 컴퓨텍스 2024 기간 중 만난 글로벌 노트북 제조사 관계자는 "GPU를 따로 탑재하면 전력 소모가 늘어 배터리 지속시간이 줄어들고 제조 원가가 상승함은 물론 메인보드 소형화, 내부 냉각 구조 설계에도 영향을 준다"고 설명했다. 이어 "게임이나 동영상 처리에서 고성능 외장 GPU가 필요한 일부 제품을 제외하면 현재는 대부분의 제품이 프로세서 내장 그래픽에 의존하는 상황"이라고 설명했다. ■ 내장 GPU 성능 강화, 휴대형 게임PC 시장에도 변화 오나 코어 울트라 200V 프로세서는 휴대형 게임PC 시장에도 적지 않은 영향을 미칠 것으로 보인다. 30W 내외 저전력으로 높은 그래픽 성능을 발휘하는 특성 때문이다. 레노버 리전고, 에이수스 ROG 앨리(ROG ALLY) 등 현재까지 출시된 휴대형 게임PC는 대부분 AMD 라이젠 Z1/Z1 프리미엄 APU 기반이다. 인텔 프로세서 기반 제품은 올 초 MSI가 공개한 '클로 A1M'이 유일하며 이 회사는 내년 초 코어 울트라 200V 탑재 '클로 8 AI+'를 출시 예정이다. 이 외에 대형 제조사 한 곳 역시 비슷한 제품 출시를 검토 중이다.

2024.09.22 14:00권봉석

韓-美, "가정용 GPU로 기존 104배 넘는 초고효율 AI학습 가속기술 개발"

PC방이나 가정용 GPU를 이용해 고속 네트워크 없이도 AI학습 성능을 최대 104배까지 끌어 올릴 수 있는 획기적인 기술이 개발됐다. KAIST는 전기및전자공학부 한동수 교수 연구팀이 일반 소비자용 GPU로 네트워크 대역폭이 제한된 분산 환경에서 AI 모델 학습을 혁신적으로 가속할 수 있는 기술을 개발했다고 19일 밝혔다. 기업과 연구자들이 고가의 데이터센터급 GPU(엔비디아 H100)나 고속 네트워크 없이도 AI 모델을 효율적으로 학습할 수 있는 길이 열린 셈이다. 기존에는 AI 모델 학습을 위해 개당 수천만 원에 달하는 고성능 서버용 GPU(엔비디아 H100) 여러 대와 이들을 연결하기 위한 400Gbps급 고속 네트워크 등 고가 인프라가 필요했다. 연구팀은 이 같은 문제 해결을 위해 '스텔라트레인(StellaTrain)'이라는 분산 학습 프레임워크를 개발했다. 고성능 H100 대비 10~20배 저렴한 GPU를 활용하고 고속 전용 네트워크 대신 대역폭이 수백에서 수천 배 낮은 일반 인터넷 환경에서도 효율적인 분산 학습이 가능하도록 알고리즘을 짰다. CPU와 GPU를 병렬로 연결해 학습 속도도 높였다. 또 네트워크 속도에 맞춰 데이터를 효율적으로 압축 및 전송하는 알고리즘을 적용, 고속 네트워크 없이도 빠른 학습이 가능하도록 설계했다. 특히, 학습을 작업 단계별로 CPU와 GPU가 나눠 병렬 처리하도록 새로운 파이프라인 기술도 도입했다. 원거리 분산 환경에서도 GPU 연산 효율을 높이기 위해 AI 모델별 GPU 활용률을 실시간 모니터링, 모델이 학습하는 샘플 개수(배치 크기)를 동적으로 결정하고 변화하는 네트워크 대역폭에 맞춰 GPU 간 데이터 전송을 효율화했다. 연구 결과, 스텔라트레인 기술을 사용하면 기존의 데이터 병렬 학습에 비해 최대 104배 빠른 성능을 낼 수 있는 것으로 나타났다. 임휘준 박사는 "스텔라트레인 기술을 사용하면 기존 데이터 병렬 학습 속도 대비 최대 104배 빠른 성능을 낼 수 있다"고 말했다. 한동수 교수는 "이번 연구가 대규모 AI 모델 학습을 누구나 쉽게 접근할 수 있게 하는 데 큰 기여를 할 것"이라며 "앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술을 계혹 개발해 나갈 계획"이라고 말했다. 연구는 KAIST 임휘준 박사, 예준철 박사과정 학생, UC 어바인 산기타 압두 조시(Sangeetha Abdu Jyothi) 교수와 공동으로 진행됐다. 연구 성과는 지난 8월 호주 시드니에서 열린 'ACM SIGCOMM 2024'에서 발표됐다. 한편, 한동수 교수 연구팀은 지난 7월 GPU 메모리 한계를 극복한 소수의 GPU로 거대 언어 모델을 학습하는 새로운 기술도 발표했다. 이 연구는 최신 거대 언어 모델의 기반이 되는 전문가 혼합형(Mixture of Expert) 모델을 제한된 메모리 환경에서도 효율적인 학습을 가능하게 한다. 기존에 32~64개 GPU가 필요한 150억 파라미터 규모의 언어 모델을 단 4개의 GPU만으로도 학습할 수 있다. 한동수 교수는 "학습에 필요한 최소 GPU 대수를 8배~16배 낮출 수 있다"며 "연구에는 KAIST 임휘준 박사와 김예찬 연구원이 참여했다"고 덧붙였다. 이 연구결과는 오스트리아에서 열린 AI 분야 국제 학회인 ICML에 발표됐다. 이 성과는 한국연구재단이 주관하는 중견연구사업, 정보통신기획평가원(IITP)이 주관하는 정보통신·방송 기술개발사업 및 표준개발지원사업, 차세대통신클라우드리더십구축사업 (RS-2024-00123456), 삼성전자의 지원을 받았다.

2024.09.19 14:42박희범

'12단 HBM3E' 수급 다급해진 엔비디아…삼성·SK 대응 분주

엔비디아가 최근 생산 차질 논란이 불거진 최신형 AI 반도체 '블랙웰'을 당초 일정대로 양산하겠다고 밝혔다. 칩 재설계를 통한 대체품을 내놓는 것으로, HBM(고대역폭메모리) 역시 더 높은 용량의 제품을 탑재하기로 했다. 이에 따라 삼성전자, SK하이닉스 등 주요 메모리 기업도 최선단 HBM의 인증을 서두르기 위한 대응에 나선 것으로 파악됐다. 29일 업계에 따르면 삼성전자·SK하이닉스 등 주요 메모리 제조업체는 엔비디아의 최신 GPU '블랙웰' 칩 설계 변경에 따라 HBM3E 12단 인증을 서두르고 있다. 블랙웰은 엔비디아가 지난 3월 공개한 최신형 AI 반도체다. TSMC의 4나노미터(nm) 공정을 기반으로, 총 2천80억개의 트랜지스터를 집적했다. 이는 기존 GPU 대비 2배가량 많은 것으로, 2개의 GPU 다이(Die)를 10TB(테라바이트)/s의 빠른 데이터 전송 속도로 연결했기 때문에 가능한 수치다. 세부적으로 블랙웰 GPU는 전력소모량에 따라 700W급인 B100, 최대 1200W급인 B200으로 나뉜다. 당초 엔비디아는 B100 GPU 2개와 '그레이스' CPU 1개를 결합한 구조의 AI 가속기 'GB200'을 회사 회계연도 기준 2025년 4분기(2024년 11월~2025년 1월) 출시할 예정이었다. ■ SoC 재설계로 HBM3E도 8단→ 12단 변경 그러나 최근 GB200의 양산 일정에 차질이 생겼다. 업계에서 분석하는 원인은 크게 두 가지다. 하나는 B100 칩 설계의 문제, 또 하나는 GB200에 필요한 TSMC의 최첨단 패키징 'CoWoS-L'의 용량 부족이다. CoWoS는 엔비디아가 자체 개발한 2.5D 패키징 기술로, 로직반도체와 HBM을 SiP(시스템 인 패키지) 형태로 묶는 것을 뜻한다. 2.5D 패키징은 넓은 기판 모양의 실리콘 인터포저 위에 반도체 다이(Die)를 수평 배치하는 기술이다. 활용되는 소재에 따라 종류가 나뉘며, CoWoS-L의 경우 로컬실리콘인터커넥트(LSI)라는 소형 인터포저를 채용한다. 이에 엔비디아는 즉각 대응책을 수립했다. 기존 B100을 개량한 'B102'를 대체품으로 재설계하고, 이를 기반으로 'GB200A'를 제작하기로 했다. A는 공랭(Air Cooling)의 의미다. 패키징 구조 역시 변경된다. GB200은 GPU 2개를 묶어 한 칩처럼 동작하게 하고, 주변에 HBM3E 8단(24GB)을 8개 집적하는 형태다. 반면 GB200A는 GPU를 묶지 않고 B102 칩 하나에 HBM3E 12단(36GB)를 4개 집적한다. 내장된 GPU 2개가 총 HBM 8개를 운용하는 것보다 효율이 떨어지기 때문에, 단일 HBM의 용량을 높이고자 12단을 채용한 것으로 분석된다. 엔비디아는 이 같은 칩 재설계를 통해 어제(29일 한국시간) 2분기 실적발표 컨퍼런스콜에서 "당초 계획대로 블랙웰 GPU 양산 공급을 연말에 진행하겠다"는 뜻을 밝혔다. ■ HBM3E 12단 공급 빨라져야…삼성·SK 대응 분주 엔비디아가 블랙웰 GPU의 양산 일정을 고수하면서, 삼성전자·SK하이닉스·마이크론 등 메모리 제조업체들의 대응 또한 분주해지고 있다. 당초보다 빨리 HBM3E 12단 제품을 엔비디아에 공급해야 하는 상황에 놓였기 때문이다. HBM3E는 5세대 HBM으로, 올해 상반기 8단 제품부터 상용화에 들어갔다. 더 많은 D램을 적층하는 12단 제품은 주요 메모리 3사 모두 고객사와의 퀄(품질) 테스트를 거치고 있으며, 아직까지 공식 승인을 받은 기업은 없다. 이에 엔비디아도 주요 메모리 제조사에 HBM3E 12단 승인을 앞당기기 위한 논의를 진행한 것으로 알려졌다. 반도체 업계 관계자는 "엔비디아의 요청에 따라 메모리 제조사들도 HBM3E 12단 물량을 급하게 늘리려는 움직임을 보이고 있다"며 "HBM3E 12단의 수율이 상대적으로 낮고, 긴급한 주문이기 때문에 메모리 제조사 입장에서도 더 높은 가격을 책정받을 수 있다는 이점을 누릴 수 있다"고 설명했다.

2024.08.30 10:04장경윤

엔비디아 2Q 호실적에도 주가 하락…삼성·SK하이닉스 동반↓

엔비디아가 28일(현지시간) 2분기 실적에서 시장 전망치를 상회하는 실적을 내고도 주가는 시간외 거래에서 급락했다. 이에 영향을 받아 SK하이닉스와 삼성전자도 동반 약세를 보이고 있다. 29일 오전 11시 29분 기준 삼성전자는 전일 대비 2천200원(2.88%) 내린 7만4천200원에 거래되고 있다. SK하이닉스도 전일 대비 1만600원(5.91%) 급락한 16만8천700원에 거래 중이다. SK하이닉스와 삼성전자는 엔비디아에 고대역폭 메모리(HBM)을 납품한다. 인공지능(AI) 대장주인 엔비디아가 지난 2월, 5월 실적을 발표할 때마다 주가가 급등하고, AI와 메모리 기업의 주가에 영향을 끼쳐왔다. 이번 엔비디아 실적 발표에서도 삼성전자와 SK하이닉스를 비롯해 국내 반도체주는 줄줄이 급락을 보였다. 이는 엔비디아의 분기 실적이 시장의 기대에 미치지 못한 것과 더불어 블랙웰 칩 생산 지연에 대한 우려 때문으로 풀이된다. 엔비디아는 2분기 컨콜에서 블랙웰 지연설에 대해 부인하며 4분기에 출시할 예정이라고 밝혔다. 다만, 블랙웰 생산에서 결함으로 인해 마스크를 변경했다는 점은 인정했다. 엔비디아 회계연도에서 4분기는 11월~익년 1월에 해당되므로, 블랙웰은 내년 1월에 출시될 수 있다는 의미다. 블랙웰 출시 지연은 메모리 업체의 HBM 공급 물량 계획에 차질을 초래할 수 있다. SK하이닉스는 엔비디아 블랙웰에 HBM3E 8단을 공급하며, 삼성전자는 현재 퀄테스트(품질테스트)를 받는 중이다. 엔비디아는 올 2분기에 300억4천만 달러(40조1천785억원)의 매출로 전년 동기 대비 122% 증가했다. 시장조사업체 LSEG가 전망한 월가 예상치 매출 287억 달러를 웃돈 실적이다. 2분기 영업이익은 186억 4천200만 달러(약 24조9천336억원)로 전년 동기 대비 2.74배 늘어났다. 엔비디아는 올 3분기 매출은 325억 달러에 이를 것으로 전망했다. 이 역시 월가 전망치 317억 달러를 상회하는 수준이다. 이에 엔비디아 주가는 뉴욕 증시 정규장에서 2.10% 하락 마감한 뒤 실적 발표 후 시간 외 거래에서 6.89% 하락했다.

2024.08.29 11:43이나리

엔비디아, 차세대 AI GPU '블랙웰' 지연설 부인

엔비디아가 차세대 GPU '블랙웰' 출시 지연설을 부인했다. 이달 초 미국 디인포메이션과 블룸버그가 소식통을 인용해 "블랙웰 출시 시기가 내년 1분기로 연기됐다"고 보도한 내용을 우회적으로 반박했다. 엔비디아는 반도체 업계 학술행사 '핫칩스 2024'를 앞두고 진행된 사전 브리핑에서 "블랙웰 GPU는 원활히 생산돼 사내 데이터센터에서 구동 중이며 연말에 차질 없이 공급될 것"이라고 밝혔다. ■ TSMC N4P 기반 블랙웰 GPU, 3월 첫 공개 블랙웰 GPU는 지난 3월 GTC 2024 행사에서 처음 공개된 엔비디아 차세대 AI 가속용 GPU다. 대만 TSMC의 4나노급 공정(N4P)으로 만든 반도체 다이(Die) 두 개를 연결해 만든 칩이며 2천80억 개의 트랜지스터를 집적했다. 다이 두 개는 초당 10TB(테라바이트)의 데이터를 주고 받으며 하나의 칩처럼 작동하며 블랙웰 두 개와 그레이스(Grace) CPU 한 개로 최소 단위인 GB200 한 개가 구성된다. 젠슨 황 엔비디아 CEO는 지난 6월 컴퓨텍스 기조연설에서 "GTC 2024에서 공개한 블랙웰은 개발 단계 제품이며 현재는 블랙웰이 순조롭게 양산에 들어갔다"며 실제 제품을 공개하기도 했다. ■ 디인포메이션·공상시보, 블랙웰 출시 지연설 제기 이달 초 미국 디인포메이션과 대만 공상시보는 소식통을 인용해 "블랙웰 출시 시기가 내년 1분기로 지연됐다"고 보도했다. 디인포메이션은 공급망 관계자를 인용해 "엔비디아가 블랙웰의 설계에 문제를 겪고 있으며 메타, 마이크로소프트, 구글 등 주요 고객사에 이미 통보를 마친 상태"라고 설명했다. 대만 공상시보는 "엔비디아의 핵심 협력사인 TSMC가 블랙웰 GPU를 연결하는 인터커넥트의 결함을 발견했다는 설이 있지만 이를 확인하기는 어렵다. 그러나 마이크로소프트 등 주요 고객사가 블랙웰 기반 AI 클러스터를 만들겠다는 계획이 내년 중반 이후로 미뤄질 가능성이 있다"고 보도했다. 이에 대해 엔비디아는 "호퍼 기반 H시리즈 수요가 여전히 크며 블랙웰 시제품 공급이 시작됐고 하반기부터 계획대로 양산에 들어갈 것이다. 시장의 루머에는 답변하지 않는다"고 밝혔다. 엔비디아 서버용 랙(복수의 서버를 저장할 수 있는 특수 프레임)을 제작하는 대만 폭스콘 역시 지난 14일 2분기 실적발표 자료를 통해 "GB200 랙 개발 일정이 순조롭게 진행되고 있다"며 "폭스콘이 확실히 첫 공급업체가 될 것이고, 출하는 올 4분기에 시작될 것"이라고 설명했다. ■ 엔비디아 "블랙웰 양산·출시 일정 변함 없다" 엔비디아는 25일(미국 현지시간)부터 3일간 미국 캘리포니아 주 스탠포드대학교에서 열리는 반도체 업계 학술행사 '핫칩스 2024'(Hot Chips 2024)를 앞두고 진행한 온라인 브리핑에서 블랙웰 출시 지연설을 반박했다. 엔비디아는 23일 진행된 'AI 미디어 프리브리핑'에서 "블랙웰 GPU는 원활히 생산돼 사내 데이터센터에서 구동 중이며 이미 밝힌 바와 같이 양산에 들어가 올 연말 고객사에 전달될 것"이라고 설명했다. 엔비디아는 브리핑 중 블랙웰 기반 서버 블레이드 사진과 함께 실제 설치된 사내 서버실 사진도 공개했다. ■ "블랙웰 출시 지연 사실이라 해도 영향 적어" 엔비디아는 오는 28일(미국 현지시간) 2분기 실적을 발표 예정이다. 해당 기간 전까지 주가에 크게 영향을 미칠 수 있는 사안에 대해서는 구체적으로 언급하지 않는 것이 관례다. 그러나 차세대 제품인 블랙웰 GPU 지연설이 악영향을 미친다는 판단 아래 이례적으로 이를 반박한 것으로 추정된다. 2분기 실적 발표에서도 블랙웰 출시 일정 관련 어떤 형태로든 언급이 있을 것으로 보인다. 미국 뉴욕 소재 시장조사업체인 멜리우스 리서치는 "엔비디아 매출 중 전세대 제품인 호퍼 기반 H100과 H200이 메타 라마4(Llama 4), 오픈AI GPT-5 등 LLM(거대언어모델) 훈련에 대거 투입되고 있으며 블랙웰 출시가 지연되더라도 엔비디아의 손실은 극히 낮을 것"이라고 추정했다.

2024.08.26 16:39권봉석

SKT, 서울에 엔비디아 GPU 기반 AI 데이터센터 가동한다

SK텔레콤이 람다와 오는 12월 서울에 AI 데이터센터를 연다. 람다가 보유한 엔비디아 GPU 자원을 SK브로드밴드의 서울 가산 데이터센터에 전진 배치하는 것이다. SK텔레콤은 AI 데이터센터에 배치할 GPU를 3년 안으로 수천 대 이상까지 확대할 계획이다. SK텔레콤은 람다와 'AI 클라우드 공동 사업을 위한 파트너십'을 체결했다고 21일 밝혔다. 양사는 안정적인 GPU 공급을 바탕으로 한 GPUaaS 사업 확대, 람다의 한국 리전 설립 등 다양한 영역에서 전략적 협업을 강화하기로 합의했다. 2012년 AI 엔지니어들이 설립한 람다는 엔비디아로부터 최신 GPU를 공급받아 AI 클라우드 서비스를 제공하는 GPUaaS 기업이다. 인텔, 마이크로소프트 등 글로벌 빅테크 기업들이 람다의 고객사다. 로이터통신 등 외신에 따르면 람다는 지난 2월 회사 가치를 15억 달러로 평가받고, 3억2천만 달러 규모의 투자를 유치하는 등 떠오르는 AI 기업으로 각광받고 있다. 서울에 엔비디아 GPU 전용 AI 데이터센터 개소 SK텔레콤과 람다는 오는 12월 서울시 금천구 가산동에 위치한 기존 SK브로드밴드 데이터센터에 엔비디아 GPU 'H100'을 배치한다. SK텔레콤은 AI 시장 성장에 따라 국내 GPU 수요가 급등하는 것을 감안해 3년 안으로GPU를 수천 대 이상까지 늘리고, 최신 GPU 모델인 'H200'도 조기 도입을 추진 중이다. 이를 통해 가산 데이터센터를 시작으로 엔비디아 단일 GPU로 구성된 국내 최대 규모의 'GPU Farm'을 확충하는 것이 목표다. SK브로드밴드는 데이터센터 운영 노하우를 살려 고밀도 GPU 서버 운영 환경에 최적화된 데이터 코로케이션 환경을 제공한다. GPU 서버가 안정적으로 작동할 수 있도록 가산 데이터센터의 랙 당 전력밀도를 국내 최고 수준인 44kW로 구현할 계획이다. 이는 국내 데이터센터 랙 당 평균 전력밀도인 4.8kW의 약 9배에 달한다. AI 데이터센터 오픈에 따라 아시아태평양 지역 최초로 람다의 한국 리전도 개소한다. 람다 GPU 기반 AI 클라우드 서비스를 이용하는 국내 기업들의 데이터는 한국 리전에 저장된다. GPU 기반 구독형 AI 클라우드 서비스 연내 출시 SK텔레콤은 람다 GPU 자원을 기반으로 구독형 AI 클라우드 서비스인 GPUaaS를 오는 12월 출시할 계획이다. GPUaaS는 기업이 AI 서비스 개발이나 활용에 필요한 GPU를 직접 구매하지 않고, 클라우드를 통해 가상 환경에서 자원을 빌려 쓰는 서비스다. 공급이 부족하고 가격이 높은 GPU를 직접 구매하기 부담스러운 대기업이나 중소 스타트업이 상대적으로 저렴한 비용에 사용할 수 있다. GPUaaS 출시와 함께 GPU 교체 보상 프로그램, 클라우드 비용 최적화 컨설팅, AI 스타트업 지원 프로그램 등 국내 스타트업, 중견 중소기업 대상의 다양한 프로모션을 선보일 계획이다. 스티븐 발라반 람다 CEO 겸 창업자는 “람다와 SK텔레콤은 GPU 컴퓨팅 자원을 전기처럼 편리하게 사용 가능한 환경을 만들겠다는 비전을 공유하고 있다”며 “AI 혁신 속도가 빠른 한국에서 AI 클라우드 영역을 성장시키고자 하는 SK텔레콤과 협력하게 되어 기쁘게 생각한다”고 말했다. 김경덕 SK텔레콤 엔터프라이즈 사업부장은 ”람다와의 전략적 협력으로 GPU를 안정적으로 확보한 것은 국내 GPU 공급 확대 측면에서 의미가 크다”며 “향후 국내 최대 규모의 GPU 팜을 구축해 국가 AI 경쟁력을 높이고, 글로벌 시장 진출의 교두보로 자리매김하도록 노력할 것”이라고 말했다.

2024.08.21 09:22박수형

폭스콘 "엔비디아 GB200 서버, 계획대로 4분기 출하"

대만 폭스콘이 엔비디아의 최신형 AI 가속기 'GB200'을 당초 계획대로 올 4분기 출하될 것이라고 14일(현지시간) 밝혔다. 폭스콘은 2분기 실적발표 자료를 통해 "GB200 랙(복수의 서버를 저장할 수 있는 특수 프레임) 개발 일정이 순조롭게 진행되고 있다"며 "폭스콘이 확실히 첫 공급업체가 될 것이고, 출하는 올 4분기에 시작될 것"이라고 설명했다. GB200은 엔비디아가 지난 3월 공개한 최신형 GPU인 '블랙웰' 기반의 AI 가속기다. 블랙웰은 4나노미터(nm) 공정을 채택하고, 트랜지스터를 2천80억 개 집적한 것이 특징이다. 두 개의 블랙웰 GPU와 72코어의 그레이스 CPU를 결합하면 GB200이 된다. 폭스콘은 세계 최대 위탁생산업체로서, 엔비디아의 GB200을 도입해 서버 랙을 제작하고 있다. 이달 초 미국 테크 전문매체 디인포메이션 등에서는 엔비디아의 GB200이 설계 결함으로 수율에 문제가 생겼다고 보도한 바 있다. 당시 디인포메이션은 "엔비디아가 마이크로소프트 등 고객사에 GB200의 결함 사실을 알렸다"며 "내년 1분기까지 블랙웰 칩의 대량 출하가 이뤄지지 않을 것으로 예상된다"고 밝혔다. 폭스콘의 이번 발표는 엔비디아를 둘러싼 불안을 잠재우려는 의도로 해석된다. 폭스콘은 "올해 AI 서버가 자사 전체 서버 수익의 40%를 기여할 것이라는 견해를 고수한다"며 "AI 서버에 대한 강력한 수요는 내년에도 지속돼, 향후 폭스콘의 차기 1조 달러 수익 산업이 될 것"이라고 밝혔다.

2024.08.16 08:58장경윤

"엔비디아, 내년 HBM3E 물량 중 85% 이상 차지할 듯"

8일 시장조사업체 트렌드포스에 따르면 엔비디아의 내년 HBM3E 소비량은 전체 물량의 85%를 넘어설 전망이다. 엔비디아가 시장을 주도하고 있는 AI 서버용 칩은 고성능 GPU와 HBM 등을 함께 집적한 형태로 만들어진다. HBM은 여러 개의 D램을 수직으로 적층한 메모리로, 데이터 처리 성능이 일반 D램에 비해 월등히 높다. 엔비디아는 지난 2022년 말 '호퍼' 아키텍처 기반의 H100 칩을 출시했으며, 올해에는 HBM3E 탑재로 성능을 더 강화한 H200 양산을 시작했다. H200에 채택된 HBM3E는 현재 SK하이닉스와 마이크론이 공급하고 있다. 이에 따라 엔비디아의 HBM3E 소비 점유율은 올해 60% 이상으로 예상된다. 나아가 엔비디아는 '블랙웰' 아키텍처 기반의 'B100', 'B200' 등의 제품을 내년부터 출시할 계획이다. 해당 제품에는 HBM3E 8단 및 12단 제품이 탑재된다. 이에 따라 내년 엔비디아의 HBM3E 소비 점유율은 85% 이상을 기록할 전망이다. 트렌드포스는 "블랙웰 울트라, GB200 등 엔비디아의 차세대 제품 로드맵을 고려하면 HBM3E 12단 제품의 비중이 내년 40%를 넘어걸 것으로 추산된다"며 "현재 공급사들이 HBM3E 8단 제품에 집중하고 있으나, 내년에 12단 제품 생산량이 크게 증가할 것"이라고 밝혔다. 트렌드포스는 이어 "현재 삼성전자와 SK하이닉스, 마이크론이 모두 제품 검증을 거치고 있으며, 특히 삼성전자가 시장 점유율을 늘리는 데 적극적"이라며 "검증 순서가 주문량 할당에 영향을 미칠 수 있다"고 덧붙였다.

2024.08.09 08:40장경윤

[유미's 픽] '마하'로 의기투합 한 네이버-삼성…양산 시점은 언제?

네이버와 삼성전자가 함께 개발하고 있는 인공지능(AI) 반도체 '마하'의 주도권을 두고 양사간 갈등이 표면화되면서 업계가 우려하고 있다. 국내 대표 기업들이 의기투합해 엔비디아를 따라잡겠다며 AI 반도체를 개발하기 시작했지만 약 1년 8개월여만에 불협화음을 낸 것을 두고 안타까워하는 분위기다. 2일 업계에 따르면 '마하' 프로젝트를 주도하고 있는 이동수 네이버클라우드 이사는 자신의 소셜미디어(SNS)를 통해 여러 차례 삼성전자를 겨냥해 볼멘 소리를 냈다. 삼성전자의 독단적인 행동에 단단히 뿔이 난 것이다. 이 이사는 지난 1일 한 매체에서 삼성전자와 네이버가 '마하-1' 개발까지만 함께하고 더 이상 협업에 나서지 않을 것이란 내용이 보도된 직후 자신의 페이스북에 해당 기사가 너무 잘못된 내용들이 많다는 점을 지적했다. 또 그는 "무엇이 오보인지에 대해서는 네이버가 아닌 삼성에 물어봐야 할 것 같다"고 강조했다. 그러면서 3시간 30여분이 지난 이후에는 "네이버클라우드의 단합된 힘으로 반도체 사업을 시작한다"며 "자세한 내용은 차차 공개하겠다"고 말해 눈길을 끌었다. 이 이사는 올 초에도 상당히 격분한 듯한 어조로 SNS에 글을 올렸다. 당시 그는 "(마하를) 먼저 만들자고 (삼성전자에) 제안한 것도, 이렇게 만들어보자고 기획한 것도 네이버"라며 "(그런데) 네이버 이름도 빠지고 어떻게 이해해야 할지 모르겠다"고 밝혔다. 이 이사는 이 글이 주목 받자 곧바로 내렸지만 업계에선 네이버클라우드와 삼성전자의 갈등이 표면화됐다는 데 큰 의미를 뒀다. 이 사건의 발단은 지난 3월 말 열린 삼성전자 주주총회였다. 이 자리에서 경계현 삼성전자 미래사업기획단장(당시 DS부문장)이 '마하2' 개발에 대한 계획을 공개한 것이 갈등의 씨앗이 됐다. 경 사장은 "메모리 등 기존 사업만으로는 장기적으로 반도체 1등을 유지할 수 없다"며 "추론 전용인 '마하-1'에 대한 고객들의 관심 또한 증가하고 있고, 연말 정도면 '마하-1'을 만들어 내년 초쯤 우리 칩으로 구성된 시스템을 볼 수 있을 것"이라고 말했다. 그러면서 "일부 고객은 1T 파라미터 이상의 큰 애플리케이션에 '마하'를 쓰고 싶어 한다"며 "생각보다 더 빠르게 '마하-2' 개발을 준비해야겠다"고 덧붙였다. 이 발언 후 네이버클라우드 내부에선 삼성전자에 대한 불만이 고조됐다. 실제 네이버클라우드가 먼저 제안해 삼성전자가 받아들이면서 '마하' 프로젝트가 성사됐지만, 마치 삼성전자가 주도하는 것처럼 분위기를 이끌어 갔기 때문이다. 특히 '마하-1' 연구개발과 설계에 참여한 엔지니어 40여 명 중 상당수는 네이버클라우드 소속인데 삼성전자가 마치 자사 직원인 것처럼 업무를 지시하기도 했다는 말들도 무성했다. 삼성전자는 그간 "서로 잘 협력하고 있다"는 식으로 분위기를 무마하려 했지만, 네이버 측의 불만은 고조돼 갔다. 처음부터 '마하' 프로젝트 기획부터 칩 개발 핵심 아이디어까지 자신들이 도맡았지만, 그 공을 삼성전자가 가로챈 느낌이 많이 들었기 때문이다. 삼성 사장단의 교체로 반도체 수장을 전영현 신임 DS 부문장이 맡게 되면서도 분위기가 오묘하게 흘러갔다. '마하-2' 발언으로 관계에 균열이 생긴 탓에 수장 교체 직후 양사 고위 임원들의 만남도 빠르게 이뤄지지 않았다. '마하'는 HBM(고대역폭 메모리)이 필요 없는 AI 추론에 특화된 반도체로, 이를 만들기 위해 양사는 지난 2022년 12월 협력 사실을 발표한 바 있다. 업계 관계자는 "삼성전자의 제조업 마인드와 네이버의 서비스업 마인드가 충돌하면서 네이버 측이 삼성전자의 태도에 대해 당황해 하는 분위기가 역력했다"며 "삼성전자가 네이버를 제외하고 자신들이 '마하-2'를 다 하는 것처럼 얘기를 한 것이 네이버 측의 심기를 상당히 건드렸다"고 말했다. 그러면서 "네이버는 거대언어모델(LLM)을 기반으로 서비스를 하는 조직이라면, 삼성전자는 그런 경험이 없다는 점에서 양사가 협업하기는 쉽지 않았을 것"이라며 "삼성전자가 자체적으로 잘 만든다고 해도 성능을 잘 검증 받을 수 있어야 하는데 네이버를 배제하면 무슨 의미가 있을까 싶다"고 덧붙였다. 삼성전자의 이 같은 태도에 '마하-1' 양산 시기도 당초 공언했던 것보다 늦어질 수 있다는 관측도 나왔다. 삼성전자는 '마하-1'을 네이버에 공급해 연내 안전성 테스트를 진행한 후 내년 초께 출시할 것이라고 계획을 밝혔으나, 네이버 내부에선 내후년께 출시될 것으로 봤다. 네이버클라우드 관계자는 "지금 계획상으로는 내년 1분기쯤 (자사 데이터센터에서) 테스트를 할 것으로 보인다"며 "반도체 설계부터 생산까지 쉬운 일은 아닌 만큼 내년이나 후년 정도에 양산할 것으로 예상된다"고 말했다. 삼성전자는 네이버 측과의 불화설을 일단 부인했다. 또 '마하-1'을 기점으로 AI 반도체 시장에서 입지를 다져야 하는 삼성전자 입장에선 현재의 분위기를 다소 불편하게 여기는 것으로 알려졌다. 그러면서도 삼성전자는 파트너사 물색과 함께 내부적으로 '마하' 시리즈 개발을 담당하는 시스템LSI 사업부 내에 AI SOC팀에 힘을 실어주는 것으로 알려졌다. 엔비디아 그래픽처리장치(GPU)를 대체할 수 있는 저렴하면서도 AI 컴퓨팅에 특화한 AI 가속기를 하루 속히 개발하기 위해서다. 삼성전자 관계자는 "네이버뿐 아니라 다양한 파트너를 찾고 있는 과정"이라며 "네이버와의 관계를 마침표를 찍는다는 일부 주장은 사실이 아니다"고 강조했다. 업계에선 '마하'가 아직 첫 제품도 나오지 않은 상황에서 양사간 갈등이 점차 표면화되는 것에 대해 안타까워했다. 엔비디아뿐 아니라 구글, 마이크로소프트 등 글로벌 빅테크들이 자체 AI 반도체를 개발하겠다며 속도전을 벌이고 있는 상황에서 두 회사가 주도권 싸움만 벌이는 것으로 비춰지는 것도 아쉬운 점으로 지목됐다. 다만 양사의 균열은 인텔에게 좋은 기회가 됐다. 인텔은 지난해 11월 팻 겔싱어 최고경영자(CEO)가 방한해 네이버 측에 직접 AI 반도체 협업을 제안한 후 협력을 강화하고 있다. 네이버클라우드는 자사 LLM '하이퍼클로바 X'를 기반으로 생성형 AI 서비스를 구축 중으로, 엔비디아 AI 생태계 대신 인텔 AI 칩 '가우디'를 활용해 가속기를 최적화하는 소프트웨어 생태계를 조성하고 있다. 이를 위해 네이버클라우드는 국내 AI 스타트업 스퀴즈비츠와 함께 '가우디2' 인프라에서 훈련과 추론을 할 수 있는 기초 코드를 함께 만든다. 국내 대학 등 연구진은 이 코드를 기반으로 소프트웨어를 개발해 오픈소스 생태계에 공개한다. 이처럼 가우디 생태계 참여자를 늘려 엔비디아의 독점적인 생태계 구조를 깨겠다는 것이 이들의 포부다. 이동수 네이버클라우드 이사는 "현재 거의 모든 서비스에 AI 기술을 접목하고 있고, 좋은 AI 반도체 확보는 서비스 경쟁력 확보에 직결된다"며 "많은 반도체를 평가하고 분석하는 과정에서 인텔 '가우디2' 가속기의 하드웨어 특징과 성능 면에서 좋은 결과를 얻었다"고 평가했다. 하정우 네이버클라우드 AI이노베이션센터장은 "연말에 출시될 '가우디3'에 협업 실험 결과와 노하우, 소스코드 등을 모두 녹여낼 계획"이라며 "이렇게 경쟁력 있는 대안을 확보하게 되면 더 많은 데이터를 중심으로 '하이퍼클로바 X'를 고도화하는 게 가능해지고, 더 저렴한 가격으로 더 많은 사람들에게 서비스를 제공할 수 있게 될 것"이라고 말했다.

2024.08.02 15:21장유미

"엔비디아, TSMC에 AI 칩 '블랙웰' 주문량 25% 확대"

엔비디아가 TSMC에 의뢰한 최신 AI 반도체 '블랙웰(Blackwell)'에 대한 주문량을 당초 대비 25% 늘렸다고 대만 연합보가 15일 밝혔다. 연합보는 "TSMC가 가까운 시일 내에 엔비디아의 블랙웰 아키텍처 기반 GPU(그래픽처리장치)의 생산을 시작한다"며 "이는 AI 시장이 전례 없는 호황을 누리고 있다는 의미일 뿐만 아니라, TSMC의 하반기 실적에 강력한 성장요인이 될 것"이라고 밝혔다. 블랙웰은 엔비디아가 지난 3월 공개한 최신형 AI 반도체다. 3분기부터 양산에 들어가, 연말께 본격적으로 출시될 예정이다. 블랙웰은 2천80억개의 트랜지스터를 집적해, 이전 세대인 H100 대비 데이터 연산 속도를 2.5배가량 향상시킨 것이 특징이다. TSMC의 4나노미터(nm) 공정을 활용한다. 블랙웰은 전력 소모량에 따라 B100, B200 등의 모델로 나뉜다. 두 개의 블랙웰 GPU와 72코어의 그레이스 CPU를 결합하면 'GB200'라는 AI 가속기가 된다. 이 GB200을 여러 개 연결하면 서버 랙 스케일 솔루션인 'GB200 NVL'을 만들 수 있다. 연합보는 업계 관계자를 인용해 "아마존, 델, 구글, 메타, 마이크로소프트 등 주요 해외 기업들이 AI 서버 구축을 위해 예상보다 많은 B100 칩을 주문했다"며 "이에 엔비디아가 TSMC에 주문량을 25% 늘렸다"고 설명했다. 이에 따라 B100 기반의 엔비디아 서버 솔루션인 'GB200 NVL72', 'GB200 NVL36' 출하량은 기존 4만대에서 6만대로 50% 증가할 전망이다. 이 중 GB200 NVL36은 출하량이 5만대에 달해 가장 많을 것으로 전망된다. 업계는 GB200 NVL72의 가격을 300만 달러로 주장하고 있다. GB200 NVL36의 예상가격은 180만 달러 수준이다.

2024.07.15 11:03장경윤

[유미's 픽] "블랙웰부터 수랭식 도입해라"…엔비디아 경고에 韓 데이터센터 '이것' 관심

"차기 그래픽처리장치(GPU)인 '블랙웰'부터는 데이터센터에 수랭식(흐르는 물)을 도입하기 바랍니다." 전 세계 인공지능(AI) 칩 시장을 장악한 엔비디아가 최근 데이터센터를 운영하는 업체들을 향해 이처럼 경고하고 나섰다. AI 열풍으로 고성능 GPU 도입이 늘어나면서 현재 공랭식 위주로 운영되는 데이터센터에서 열 관리가 감당되지 않는다고 판단돼서다. 9일 업계에 따르면 국내서 자체 데이터센터를 보유하고 있는 삼성SDS, LG CNS 등 일부업체들은 최근 수랭식보다 한 단계 더 발전한 '액침냉각' 시스템 도입을 잇따라 추진 중인 것으로 파악됐다. 온도가 일정 수준 이상 올라가면 화재 위험이 커지는 데다 서버를 식히는 냉각장치에 들어가는 전기 소비량이 갈수록 늘어나는 만큼, 에너지 낭비를 줄이기 위해 국내 기업들도 대안 찾기에 적극 나선 분위기다. 액침냉각 시스템은 특수 액체인 냉각유에 데이터 서버 등을 담가 열을 식히는 열관리 기술로, 기존의 공기 냉각 방식에 비해 훨씬 높은 냉각 성능을 제공한다. 또 기존에 일부 부품에만 냉각 시스템을 적용했던 것에서 한 걸음 나아간 기술이란 평가도 받는다. 기존에 많이 쓰이던 수랭식, 공랭식 시스템은 기계를 차가운 물이나 공기를 활용해 식히는 간접적인 냉각 방식이다. 반면 액침냉각은 액체 상태의 냉각유가 기계를 휘감아 온도를 내리는 더 직접적인 냉각 시스템으로 분류된다. 수랭식 시스템은 차가운 공기 활용해 열을 식히는 공랭식보다 약 20% 적은 에너지를 사용하는 것으로 알려졌다. 액침냉각은 공랭식보다 전력효율을 약 30% 이상 개선할 수 있는 것으로 전해졌다. 이에 업계에선 액침냉각이 데이터센터의 전력 사용량을 절감하고 향후 운용 비용을 낮출 뿐 아니라 공간 활용도를 높이는 데 더 기여한다는 점에서 크게 주목하고 있다. 업계 관계자는 "현재 많이 쓰이는 공기 냉각 방식은 전력 사용 효율성이 액침냉각 기술보다 낮은데다 소음도 높다"며 "초기 비용과 운영 비용을 고려해야 하지만, 전력 비용 절감과 높은 냉각 성능을 고려하면 장기적인 비용 절감 효과를 기대할 수 있다"고 설명했다. 국내에서 액침냉각에 가장 큰 관심을 보이고 있는 곳은 SK텔레콤이다. 지난해 11월 인천사옥에 AI 서비스를 위한 전용 데이터센터를 구축하며 액침냉각 기술을 이곳에 올 하반기 중 본격 도입하겠다는 계획을 밝힌 바 있다. 이를 위해 SK텔레콤은 업계 최초로 실제 IDC 환경에서 액침냉각 기술 효과를 입증했다. SK엔무브, 미국 GRC와 손잡고 지난해 6월부터 약 4개월간 테스트를 진행한 결과, 기존 공랭식 대비 냉방 전력의 93%, 서버 전력에서 10% 이상 절감돼 총 전력 37%를 줄일 수 있었던 것으로 분석됐다. 삼성SDS는 지난 2022년 12월 가동을 시작한 동탄 데이터센터에 수랭식 시스템과 함께 액침냉각 시스템 적용을 위한 관련 인프라도 갖춰놓은 상태다. 다만 국내 기업들이 비용 부담과 함께 액침냉각에 대한 신뢰가 적어 적극 활용에 나서지 않아 시설을 비워 놓은 채 운영되고 있다. LG CNS는 오는 2028년께 부산 데이터센터에 액침냉각 방식을 적용하기 위해 연구 중이다. 현재 이곳에는 '빌트업 항온 항습 시스템'이 적용돼 있는데, 이 시스템은 차가온 공기를 순환시켜 열을 식히는 기존의 항온항습기보다 한층 진화된 방식으로 평가된다. 이를 통해 LG CNS는 연간 냉방 전력 35%를 이미 절감하고 있다. 다만 다른 대기업 SI 업체들과 달리 SK C&C는 판교, 대덕 등에서 데이터센터를 운영 중이지만 액침냉각 방식은 따로 검토하고 있지 않은 것으로 파악됐다. 비용 부담이 큰 만큼 고객사들이 원하면 도입을 고려하겠다는 입장이다. KT클라우드, NHN클라우드, 카카오엔터프라이즈 등 국내 클라우드 서비스 제공 사업자(CSP)들도 데이터센터에 아직은 액침냉각 도입에 미온적이다. 네이버클라우드만 춘천, 세종에 위치한 데이터센터에 액침냉각 도입을 검토 중이나, 구체적인 일정은 아직 미정이다. 대신 KT와 NHN, 카카오 등은 국내에 아직 적극 도입되지 않은 수랭식에 많은 관심을 보이고 있다. KT는 내년에 오픈하는 가산 데이터센터에, 카카오는 향후 건립될 제2데이터센터에 수랭식을 처음 도입할 계획이다. NHN은 현재 판교 데이터센터와 광주 국가 AI 데이터센터 모두 공랭식을 도입했으나, 액침 및 수랭식 시스템 등 다양한 냉각 방식에 대한 기술 검토를 이어나가고 있다. 다만 KT는 액침냉각 시스템 전문기업 이머젼4와 데이터센터 액침 냉각 시스템 적용을 위한 MOU(업무협약)을 체결했다. 업계 관계자는 "최근 구글, 마이크로소프트(MS), 메타 등 글로벌 빅테크 기업들은 자체 데이터센터를 설립할 때 공랭식 대신 수랭식 시스템을 중심으로 적용하는 추세"라며 "AI 기능이 고도화되면서 고성능 GPU를 써야 하는 경우가 점차 많아지고 있는 만큼, 데이터센터 냉각 시스템 구축에 대한 기업들의 고민도 늘어날 것"이라고 밝혔다. 그러면서도 "아직까지 국내에선 수랭식을 도입한 기업들도 많지 않은 상황에서 액침냉각의 안전성에 대한 불신이 여전하다"며 "국내에서 액침냉각이 널리 쓰이는 데까진 상당한 시일이 걸릴 것으로 보인다"고 덧붙였다.

2024.07.09 10:23장유미

"AMD, 2000년대 초 엔비디아 인수 검토했었다"

엔비디아는 인공지능(AI) GPU 바람을 타고 IT 분야 시가 총액 3조 1천억달러(약 4천291조 원)를 넘어선 회사다. 주당 1천 달러(약 130만원)로 불어난 주가를 감당할 수 없어 얼마 전 10대 1로 액면분할까지 감행했다. 그런데 이런 엔비디아의 현재 위치를 AMD가 누릴 수도 있었다는 증언이 나와 눈길을 끈다. 당시 AMD에 몸담았던 전문가인 허만트 모하파트라가 최근 X(구 트위터)에 이와 같이 증언했다. 그의 증언에 따르면 AMD는 당시 엔비디아 인수를 고려했지만 AMD·엔비디아를 합친 새 회사 CEO는 자신이 되어야 한다는 젠슨 황 CEO와 의견 차이로 이를 포기했다. 결국 AMD는 2006년 ATI를 인수했고 훗날 이것이 AMD를 파산 위기에서 구했다. ■ "AMD, 엔비디아 인수 고려했지만 의견차로 불발" 2000년 초반 당시 AMD는 PC에서 최초로 1GHz 벽을 깬 애슬론 프로세서를 출시하는 한편 2003년 64비트 서버용 프로세서인 옵테론(Opteron)을 공개하는 등 인텔 대비 우위에 있었다. 반면 엔비디아는 설립 후 10년이 채 안된 팹리스로 ATI 등 많은 경쟁사와 싸워야 했다. 2000년대 중반부터 후반까지 CPU/APU/GPU 설계에 관여했다고 밝힌 허만트 모하파트라는 X(구 트위터)에 "엔비디아는 AMD와 인텔의 시가총액을 넘어섰으며 당시만 해도 AMD가 시가총액에서 인텔을 넘어서리라고는 상상하지 못했다"고 설명했다. 이어 "당시 AMD는 엔비디아를 거의 인수할 뻔 했지만 젠슨(황 엔비디아 CEO)이 합병한 회사 CEO는 자신이 되어야 한다며 이를 거부했다. 만약 이것이 성사됐다면 세계는 매우 달라졌을 것"이라고 설명했다. 실제로 AMD는 2006년 캐나다 소재 그래픽업체인 ATI를 인수했다. ATI가 가지고 있던 라데온 등 GPU IP(지적재산권)는 AMD의 손으로 넘어갔다. 이 선택이 훗날 고전하던 AMD를 연명하게 하는 '신의 한수'로 평가받는다. ■ AMD, 인텔 반격에 팹까지 분사 인텔은 2005년 노트북용 코어 프로세서, 2006년 코어 2 듀오 등을 출시하며 AMD에 반격했다. 허만트 모하파트라는 "AMD는 '진정한' 듀얼코어 프로세서를 만들기 위해 노력했지만 이것은 실수였다. 너무 많은 시간이 걸렸고 막상 제품이 나왔을 때는 인텔이 단단한 기반을 구축했다"고 돌이켰다. AMD 창립자 제리 샌더스는 "진정한 남자는 팹(Fab, 반도체 생산 시설)을 가져야 한다"는 명언을 남겼다. 그러나 자금난에 시달리던 AMD는 2009년 팹을 분사하고 중동계 투자자를 끌어들여 글로벌파운드리를 설립한다. ■ AMD, CPU·GPU 통합한 APU로 보릿고개 넘기다 위기에 몰린 AMD를 구한 것은 CPU와 GPU를 통합한 'APU'다. 2006년 ATI를 인수하지 않았다면 개발 자체가 불가능한 제품이다. 인텔 역시 2011년 출시한 2세대 코어 프로세서(샌디브리지)부터 '빌트인 비주얼'을 내세우며 GPU를 통합하고 있다. 그러나 AMD는 한 다이(Die) 안에 CPU와 GPU를 한 데 넣어 지연시간과 개발 복잡성을 줄였다. 소니는 2006년 출시한 플레이스테이션3에 도시바·IBM과 공동 개발한 고성능 프로세서인 셀(Cell)을 통합했지만 개발 복잡성 문제로 게임 출시 등에 문제를 겪고 있었다. 이후 소니는 플레이스테이션4부터 x86 기반 프로세서로 돌아섰고 여기에 AMD APU가 탑재됐다. 레나토 프라게일(Renato Fragale) AMD 제품 관리 부문 시니어 디렉터는 최근 전문가용 소셜미디어인 링크드인 프로파일에 "현재까지 9천100만 대 이상이 팔린 소니 플레이스테이션용 개발팀을 꾸렸고 이는 AMD 역사에서 파산을 막은 가장 성공적인 출시"라고 설명했다. 2005년부터 AMD에 20년 가까이 몸담고 있는 메모리 부문 전문가 필 박(Phil Park) 역시 레나토 프라게일의 증언을 뒷받침했다. 그는 "내가 알고 있는 한 이것은 사실이다. 2008년 세계 경제 위기와 인텔의 경쟁력 회복은 AMD를 엄청나게 나쁜 위치로 몰아넣었다. 돈을 만들기 위해 '아드레노'(Adreno)를 포함한 많은 IP를 팔아야 했고 임금도 삭감됐다"고 부연했다. 실제로 퀄컴은 2009년 1월 "AMD의 휴대용 그래픽·멀티미디어 자산을 인수했다"고 밝혔다. 이후 이 IP 자산은 스냅드래곤 등 퀄컴 모바일용 SoC(시스템반도체)의 GPU인 '아드레노'로 투입된다. '아드레노'(Adreno)의 철자를 거꾸로 잘 조합하면 '라데온'(Radeon)이 되는 이유가 여기에 있다. 레나토 프라게일 시니어 디렉터는 링크드인에 올린 내용이 미국을 포함해 전세계 IT 관련 매체를 통해 알려지자 해당 내용을 삭제했다. ■ GPU 독자노선 선택한 인텔... 올 하반기 'Xe2' 투입 인텔은 2011년 2세대 코어 프로세서(샌디브리지)부터 '빌트인 비주얼'을 내세워 프로세서 내장그래픽을 장점으로 내세웠다. 2017년 11월에는 AMD 출신 라자 코두리를 영입해 새 그래픽 아키텍처인 Xe를 개발했다. 이후 2022년 노트북용, 같은 해 하반기 데스크톱PC용 그래픽카드를 연이어 출시했지만 출시 시기와 성능 면에서 엔비디아와 AMD에 밀려 좋은 평가를 받지 못했다. 실제로 지난 해 하반기부터 업계 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다. 그러나 노트북 시장에서 AI 처리 성능이 요구되는 가운데 GPU를 쉽게 포기할 수 없는 것 또한 사실이다. 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 5월 말 '테크투어 타이완' 행사에서 "차세대 프로세서 '루나레이크'에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재될 것"이라며 이를 일축했다.

2024.07.08 17:34권봉석

KAIST 'AI 가속기'에 잇단 러브콜…"엔비디아 2배 성능"

엔비디아의 GPU 성능을 넘어서는 고용량·고성능 AI 가속기가 상용화 수준으로 개발됐다. 이 기술을 개발한 KAIST 정명수 전기및전자공학부 교수는 "빅테크 기업들의 러브콜이 이어지고 있다"며 “대규모 AI 서비스를 운영하는 이들의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 것"이라고 말했다. KAIST(총장 이광형)는 차세대 GPU간 연결기술인 CXL(Compute Express Link)를 새로 설계해 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는데 성공했다고 8일 밝혔다. 연구는 전기및전자공학부 정명수 교수의 컴퓨터 아키텍처 및 메모리 시스템 연구실이 수행했다. 연구결과는 미국 산타클라라 USENIX 연합 학회와 핫스토리지 연구 발표장에서 공개한다. GPU 내부 메모리 용량은 수십 기가바이트(GB, 10의9승)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 업계에서는 대안으로 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 최신 GPU가격이 비싸 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높인다. 이에 따라 산업계에서는 차세대 인터페이스 기술인 CXL를 활용해 대용량 메모리를 GPU 장치에 직접 연결하는'CXL-GPU'구조 기술이 활발히 검토되고 있다. CXL-GPU는 CXL을 통해 연결된 메모리 확장 장치들의 메모리 공간을 GPU 메모리 공간에 통합시켜 고용량을 지원한다. CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가할 수 있어 시스템 구축 비용을 획기적으로 절감할 수 있다. 그러나 여기에도 근본적인 한계가 있다. 기존 GPU 성능 대비 CXL-GPU의 읽기 및 쓰기 성능이 떨어진다는 점이다. 아무리 GPU가 연산처리를 빨리 해도 CXL-GPU가 이를 같은 속도로 처리하지 못한다. 연구팀이 이 문제를 해결했다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발했다. GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 시스템을 설계했다. 메모리 확장 장치가 내부 작업을 수행 상태에 따라 작업 하도록 했다. GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없다. 연구팀은 또 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치 측에서 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작한다. GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장공간)에서 데이터를 읽어 더욱 빠른 메모리 읽기 성능을 달성할 수 있다. 이 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 테스트 결과 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다. 파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을 두 자리 나노초(10의 9승분의 1초) 이하로 줄인 순수 국내기술의 자체 CXL 컨트롤러를 보유하고 있다. 이는 전세계 최신 CXL 컨트롤러 등 대비 3배 이상 빠른 속도다. 파네시아는 고속 CXL 컨트롤러를 활용해 여러 개의 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다.

2024.07.08 08:22박희범

KAIST, 챗GPT4.0 정답률보다 32.5% 더 나은 'PlanRAG' 첫 공개

KAIST가 거대언어모델(LLM)을 이용해 챗GPT4.0의 기업 의사결정 정답률을 32.5% 개선한 '플랜래그'(Plan RAG)를 처음 공개했다. 오픈AI의 최신모델인 챗GPT 4.0은 의사결정 구조에서 통상 40~50%의 정답률을 보인다. 이를 30% 이상 개선했다. KAIST는 전산학부 김민수 교수 연구팀이 ▲의사결정 문제 ▲기업 데이터베이스 ▲비즈니스 규칙 집합 등 3 가지를 기반으로 비즈니스 규칙에 부합하는 최적의 의사결정을 내릴 수 있는 '플랜래그(PlanRAG)'을 개발했다고 19일 밝혔다. 김 교수는 엔비디아 GPU 연구센터장과 IBM 알마덴 연구센터 연구원을 지냈다. 지난 2021년부터 KAIST 전산학부 교수로 재직 중이다. 연구팀은 기업 의사결정 문제를 푸는데 있어 GPT-3.5 터보에서 반복적 RAG 기술을 사용하더라도 정답률이 10% 미만이라는데 착안해 대안을 모색했다. 최근 AI분야에서는 LLM이 학습된 내용만으로 답변하는 것 대신, 데이터베이스를 검색해 답변을 생성하는 검색 증강 생성(Retrieval-Augmented Generation; 이하 RAG) 기술이 각광받고 있다. 연구팀은 여기에서 한 단계 더 나아갔다. 반복적 RAG를 이용하기 전에 먼저 어떤 데이터 분석이 필요한지에 대한 거시적 차원의 계획을 먼저 생성했다. 마치 기업의 의사결정권자가 어떤 데이터 분석이 필요한지 먼저 계획을 세우면, 그 계획에 따라 데이터 분석팀이 데이터베이스 솔루션들을 이용해 분석하는 형태와 유사한 구조다. 연구팀은 "다만 이러한 과정을 모두 사람이 아닌 거대언어모델이 수행하도록 한 것이커다란 차이"라며 "'플랜래그' 기술은 계획에 따른 데이터 분석 결과로 적절한 답변을 도출하지 못하면, 다시 계획을 수립하고 데이터 분석을 수행하는 과정을 반복한다"고 설명했다. 김민수 교수는 “지금까지 LLM 기반으로 의사결정 문제를 푼 연구가 없었다"며 "기업 의사결정 성능을 평가할 수 있는 의사결정 질의응답(DQA) 벤치마크를 새롭게 만들었다"고 말했다. 실제 이 벤치마크에서 GPT-4.0을 사용할 때 종래의 반복적 'RAG'의 의사결정 정답률에 비해 '플랜래그'는 최대 32.5%까지 정답률을 개선했다. 김 교수는 "기업 CEO가 '플랜래그'를 실제 활용하기 까지는 1~2년이 더 걸릴 것으로 예상한다"며 "기존 챗GPT 4.0의 의사결정 정답률을 획기적으로 끌어올려 문제의 3분의 2가량을 맞출 수 있다는데 큰 의미를 부여한다"고 덧붙였다. 이 연구에는 KAIST 전산학부 이명화 박사과정과 안선호 석사과정이 공동 제1 저자, 김민수 교수가 교신 저자로 참여했다. 연구 결과는 자연어처리 분야 최고 학회(top conference)인 'NAACL' 에 지난 17일 발표됐다.

2024.06.19 09:14박희범

슈퍼마이크로, '블랙웰' 탑재 AI 최적화 서버 공개

슈퍼마이크로컴퓨터는 생성형 AI 개발 및 구축을 지원하는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼에 최적화된 '슈퍼클러스터'를 11일 공개했다. 슈퍼마이크로 슈퍼클러스터는 산업을 막론하고 기업의 생성형 AI 채택을 가속화하는 클라우드 네이티브 솔루션을 위해 설계된 R2D 액침 냉각식 AI 데이터센터에서 사용된다. 엔비디아에서 최근 선보인 블랙웰 GPU에 슈퍼마이크로의 4U 수냉식 냉각 서버가 탑재돼 단일 GPU에서 20 페타 플롭스(FLOPS)의 AI 성능을 완벽하게 구현할 수 있다. 기존 GPU 대비 4배 강력한 AI 훈련 및 30배 강력한 추론 성능을 자랑하며, 추가적인 비용 절감 효과를 가져온다. 슈퍼마이크로는 시장 선점 전략에 따라 최근 블랙웰 아키텍처를 기반으로 한, 엔비디아 HGX B100, B200, 그리고 GB200 그레이스 블랙웰 슈퍼칩용 신규 제품군을 선보인 바 있다. 슈퍼마이크로는 '컴퓨텍스 2024'에 참가해 곧 출시될 엔비디아 블랙웰 GPU에 최적화된 서버를 공개했으며, 여기에는 엔비디아 HGX B200 기반의 10U 공냉식 및 4U 수냉식 냉각 서버가 포함됐다. 8U 공냉식 엔비디아 HGX B100 시스템, 엔비디아 NV링크 스위치와 상호 연결된 GPU 72개를 탑재한 슈퍼마이크로의 엔비디아 GB200 NVL72 랙, 그리고 엔비디아 H200 NVL PCLe GOU 및 엔비디아 GB200 NVL2 아키텍처를 지원하는 신규 엔비디아 MGX 시스템을 제공할 예정이다. 젠슨 황 엔비디아 창립자 겸 CEO는 “생성형 AI가 모든 컴퓨팅 스택의 재설정을 주도하고 있는 가운데, 새로운 데이터센터는 GPU 가속화로 AI에 최적화될 것”이라며 “슈퍼마이크로는 최첨단 엔비디아 가속 컴퓨팅 및 네트워킹 솔루션을 설계하고, 수조 달러 규모의 글로벌 데이터센터가 AI 시대에 최적화될 수 있도록 지원한다”고 밝혔다. LLM의 급속한 발전과 더불어 메타 라마3 및 믹스트랄 8x22B 같은 오픈소스 모델의 지속적인 출시로 인해 오늘날 최첨단 AI 모델에 대한 기업의 접근성이 높아졌다. 현재 폭발적인 AI 혁신을 지원하는 데 있어 가장 중요한 요소는 AI 인프라를 간소화하고 가장 비용 효율적인 방식에 대한 접근성을 제공하는 것이다. 슈퍼마이크로 클라우드 네이티브 AI 슈퍼클러스터는 엔비디아 AI 엔터프라이즈를 활용해 클라우드의 즉각적인 접근 편의성과 휴대성 사이의 간극을 메운다. 또한, 파일럿부터 프로덕션까지 모든 규모의 AI 프로젝트를 원활하게 추진할 수 있도록 지원한다. 이를 통해 호스팅 시스템이나 온프레미스 대규모 데이터센터를 비롯해 데이터를 안전하게 보호하는 곳에 유연성을 제공한다. 여러 업계의 기업들이 빠르게 생성형 AI 사용 사례를 실험하고 있는 가운데, 슈퍼마이크로는 엔비디아와의 긴밀한 협업을 통해 시험 및 파일럿 AI 애플리케이션에서 양산형 배포 및 대규모 데이터센터 AI로의 원활하고 매끄러운 전환을 보장한다. 이는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼을 통해 랙 및 클러스트 단위의 최적화를 이룬 결과로, 초기 탐색부터 확장 가능한 AI 구현까지 원활한 여정을 지원한다. 관리형 서비스는 인프라 채택, 데이터 공유, 그리고 생성형 AI 전략 제어에 부정적인 영향을 미친다. 하지만 슈퍼마이크로는 엔비디아 AI 엔터프라이즈의 일부인 엔비디아 NIM 마이크로서비스를 통해 관리형 및 생성형 AI 및 오픈소스 배포의 장점만을 제공한다. 마이크로서비스를 활용한 다목적 추론 수행 시간은 오픈소스부터 엔비디아 기반 모델에 이르기까지 다양한 모델에서 생성형 AI 구축을 가속화한다. 또한, 엔비디아 NeMo를 지원해 데이터 큐레이션, 고급 커스터마이징 및 RAG를 통한 엔터프라이즈급 솔루션용 맞춤형 모델 개발이 가능하다. 슈퍼마이크로의 엔비디아 AI 엔터프라이즈용 슈퍼클러스터와 결합된 엔비디아 NIM은 확장 가능하고 가속화된 생성형 AI 프로덕션 구축을 향한 지름길로 안내한다. 슈퍼마이크로 수냉식 냉각 엔비디아 HGX H100·H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 5개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 공냉식 냉각 엔비디아 HGX H100/H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 슈퍼마이크로 엔비디아 MGX GH200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 그레이스 호퍼 슈퍼칩 256개를 탑재한다. 슈퍼마이크로 슈퍼클러스터는 엔드투엔드 생성형 AI 커스터마이징을 위해 엔비디아 NIM 마이크로서비스 및 엔비디아 네모(NeMo) 플랫폼 등 엔비디아 AI 엔터프라이즈를 탑재했다. 400Gbps의 네트워킹 속도로 수십만 개의 GPU가 있는 대규모 클러스터까지 확장 가능하며, 엔비디아 퀀텀-2 인피니밴드 및 신규 엔비디아 스펙트럼-X 이더넷 플랫폼에 최적화됐다. 슈퍼마이크로 슈퍼클러스터 솔루션은 LLM 학습, 딥러닝, 그리고 대용량 및 대규모 추론에 최적화됐다. 슈퍼마이크로의 L11 및 L12 검증 테스트와 현장 구축 서비스는 고객에게 원활한 경험을 선사한다. 데이터센터에서 도입이 쉽고, 그 결과를 보다 빠르게 확인할 수 있는 플러그 앤 플레이 확장형 유닛을 제공한다. 찰스 리앙 슈퍼마이크로 사장 겸 CEO는 "슈퍼마이크로는 랙 스케일 액침 냉각식 AI 솔루션을 개발 및 구축하며 지속적으로 업계를 선도하고 있다"며 "수냉식 냉각 데이터선터는 전력 사용량 감축을 통해 사실상 무상으로 제공되며, 이는 고객에게 추가적인 가치를 제공할 수 있다”고 밝혔다. 그는 “슈퍼마이크로의 솔루션은 다양한 산업군의 고객을 위해 엔비디아 AI 엔터프라이즈 소프트웨어에 최적화됐다”며 “엔비디아 HGX H100 및 H200은 물론, 새로 출시된 B100, B200, 그리고 GB200에 수냉식 또는 공냉식 냉각 턴키 클러스터를 배포하는 시간을 단축할 수 있다”고 설명했다. 그는 “냉각판부터 CPU와 냉각탑에 이르기까지 슈퍼마이크로의 랙 스케일 종합 액체 냉각 솔루션은 데이터센터에서 사용하고 있는 전력량을 최대 40%까지 줄일 수 있다”고 덧붙였다.

2024.06.11 10:31김우용

엔비디아, AI 가속 위한 차세대 GPU·솔루션 대거 공개

[타이베이(대만)=권봉석 기자] "대만은 컴퓨터와 킥보드를 만든 데 이어 이제 데이터센터를 만든다. 나아가 걸어다니는 컴퓨터(로봇)를 만들 것이다. 이 여정은 엔비디아에도 중요한 여정이다." 2일(이하 현지시간) 대만 타이베이 남서부에 위치한 국립대만대학교 스포츠센터에 모인 청중은 젠슨 황 엔비디아 CEO의 발언에 일제히 환호했다. 이날 엔비디아는 오후 7시부터 9시까지 두 시간동안 진행된 기조연설로 공식 일정보다 이틀 일찍 컴퓨텍스 타이베이 2024(이하 '컴퓨텍스 2024') 막을 올렸다. 최대 4천 200여 명을 수용할 수 있는 행사장에는 시작 3시간 전인 오후 4시부터 대만을 포함해 여러 국가와 지역에서 모인 언론 관계자와 애널리스트, 협력사 등 업계 관계자가 모여 성황을 이뤘다. ■ "CPU가 정체된 사이 GPU는 1천 배 빠른 혁신 달성" 이날 젠슨 황 CEO는 "60여 년 전 IBM 시스템 360으로 시작된 컴퓨팅 혁신은 '무어의 법칙' 정체로 성장 동력을 잃었다. 반면 새롭게 등장한 GPU(그래픽처리장치) 기반 가속 컴퓨팅은 최대 8년만에 연산 성능을 최대 1천 배 끌어올리며 혁신을 주도하고 있다"고 강조했다. 그는 "GPU 기반 가속 컴퓨팅은 기존 CPU 대비 속도는 100배 높지만 전력 소모는 3배에 그치며 비용 증가는 15%에 불과하다. 1천 달러 PC에 고작 500달러 GPU를 넣어 가능한 혁신을 데이터센터에서 실행한 결과 'AI 팩토리'를 구현했다"고 설명했다. 젠슨 황 CEO는 작년 컴퓨텍스 기조연설에 이어 올해도 "(GPU를) 사면 살수록 돈을 아낀다"는 지론을 강조했다. 그는 "많은 회사가 오늘도 클라우드에서 수억 달러를 들여 데이터를 처리한다. 정확하지 않을 수 있지만 'CEO 계산법'에 따르면 사면 살수록 돈을 아낀다"고 설명했다. ■ 어려운 AI 쉽게 만드는 NIM 공개 이날 엔비디아는 각종 AI 구현에 필요한 소프트웨어를 마치 꾸러미처럼 엮어 도입 난이도를 낮추는 NIM(엔비디아 추론 서비스)를 공개했다. 엔비디아가 다양한 환경에서 사전 검증한 소프트웨어를 지포스 RTX, 암페어 등 쿠다(CUDA)에서 실행할 수 있다. 젠슨 황 CEO는 "상자 안에 담은 AI 소프트웨어와 공통 API를 이용해 필요한 기능을 쉽게 구현할 수 있다. 가장 적합한 구현 사례는 소매업과 의료 등 수십만 개의 서비스에서 활약하는 고객지원 담당자이며 LLM(거대언어모델)과 AI로 이를 구현할 수 있다"고 설명했다. 젠슨 황 CEO는 "미래에는 응용프로그램을 NIM 조합으로 만들 수 있다. 모든 회사가 NIM을 이용하면 굳이 전문가의 힘을 빌지 않아도 필요한 기능을 이야기하면 다양한 기능을 조합해 사람처럼 작동할 것이다. 이것이 우리의 미래다"라고 예측했다. ■ "블루필드 DPU 기반 스펙트럼X 이더넷, 데이터센터 효율 ↑" 엔비디아는 서버용 GPU를 모아 만든 거대한 데이터센터가 외부에서 하나의 거대한 GPU로 쓰일 수 있다고 설명한다. 그러나 이런 구상을 해결하기 위해서는 인간 두뇌 신경망처럼 데이터를 쉽게 주고 받을 수 있는 고속 데이터 전송이 필요하다. 젠슨 황 CEO는 "데이터를 무조건 순차적으로 전송하는 이더넷은 데이터 정체(congestion)가 일어나면 같은 데이터센터에서 실행되는 다른 AI 모델까지 정체시킨다. 50억 달러 규모 데이터센터에서 이용률이 떨어지면 60억 달러 규모 데이터센터와 다름 없을 정도로 가격 대비 연산 성능을 떨어뜨린다"고 설명했다. 이어 "스펙트럼X 이더넷은 데이터 전송 속도를 재구성해 정체 현상을 최소화하는 블루필드 DPU(데이터처리장치)를 탑재했다. 차기 모델인 스펙트럼 X800은 수천 개, X1600은 수백만 개 규모 GPU로 움직이는 데이터센터를 실현할 것"이라고 강조했다. ■ "올해 '블랙웰' 시작으로 매년 새 GPU 출시" 엔비디아는 지난 3월 중순 GTC 2024 기조연설을 통해 내년 출시할 차세대 서버용 GPU '블랙웰'을 공개한 바 있다. 블랙웰 GPU는 대만 TSMC의 4나노급 공정(4NP)으로 만든 반도체 다이(Die) 두 개를 연결해 만든 칩이며 2천80억 개의 트랜지스터를 집적했다. 다이 두 개는 초당 10TB(테라바이트)의 데이터를 주고 받으며 하나의 칩처럼 작동한다. 이날 젠슨 황 CEO는 "GTC 2024에서 공개한 블랙웰은 개발 단계 제품이며 현재는 블랙웰이 순조롭게 양산에 들어갔다"며 실제 제품을 공개했다. 이어 "블랙웰의 성능을 개선한 '블랙웰 울트라'를 오는 2025년, 내부 구조를 완벽히 새로 설계한 새 GPU '루빈'(Rubin)을 2026년 출시하는 등 1년 단위로 새 서버용 GPU를 출시하겠다"고 덧붙였다.

2024.06.03 01:29권봉석

TSMC, 첨단 패키징 생산능력 내년까지 폭증…수요 절반이 엔비디아

대만 주요 파운드리 TSMC의 최첨단 패키징 생산능력이 첨단 AI 반도체 호황으로 내년까지 큰 성장세를 나타낼 것으로 예상된다. 31일 시장조사업체 트렌드포스에 따르면 TSMC의 CoWoS 생산능력은 올해 150%, 내년 70% 이상 증가할 전망이다. CoWoS는 TSMC가 자체 개발한 2.5D 패키징이다. 칩과 기판 사이에 인터포저라는 얇은 막을 삽입해, 패키징 면적을 줄이고 칩 간 연결성을 높인 것이 특징이다. 현재 CoWoS와 같은 2.5D 패키징이 가장 각광받는 산업은 AI다. AI 가속기에는 고성능 시스템반도체와 HBM(고대역폭메모리)를 함께 집적해야 하는데, 여기에 2.5D 패키징이 쓰인다. 트렌드포스는 "엔비디아 블랙웰 플랫폼의 칩 다이(Die) 크기는 이전 세대 대비 2배"라며 "블랙웰이 주력 제품으로 떠오르면서 엔비디아가 TSMC의 CoWoS 수요의 거의 절반을 차지할 것"이라고 밝혔다. 블랙웰은 TSMC의 4나노 공정 기반의 최신형 고성능 GPU다. 반도체 다이 2개를 연결해 2천80억 개의 트랜지스터를 집적했다. 블랙웰은 올해 3분기 출시를 시작해 4분기부터 본격적으로 출하량이 확대될 것으로 예상된다. HBM 시장 역시 올해 큰 변곡점을 앞두고 있다. 현재 엔비디아 GPU 시리즈의 주류인 H100은 주로 80GB(기가바이트)의 HBM3(4세대 HBM)을 탑재한다. 반면 블랙웰은 288GB의 HBM3E(5세대 HBM)을 채택해, 용량을 이전 대비 3~4배가량 늘렸다. 트렌드포스는 "삼성전자, SK하이닉스, 마이크론 등 주요 메모리3사의 계획에 따르면 HBM 생산량은 내년까지 2배로 늘어날 것으로 예상된다"고 설명했다.

2024.05.31 09:04장경윤

델, 엔비디아 블랙웰 GPU 8개 탑재 4U 서버 공개

[라스베이거스(미국)=김우용 기자] 델테크놀로지스가 엔비디아와의 협력을 확대하며, 엔비디아 블랙웰 GPU를 한 랙에 최대 72개 장착할 수 있는 파워엣지 서버 신제품을 공개했다. 단일 서버 크기는 기존 제품대비 3분의2로 줄이면서 더 높은 성능과 대역폭을 제공한다. 델테크놀로지스는 21일(현지시간) 미국 라스베이거스에서 개최한 '델테크놀로지스월드(DTW) 2024' 컨퍼런스에서 '엔비디아 기반 델 AI 팩토리'에 새로운 서버, 엣지, 워크스테이션, 솔루션, 서비스 등을 추가한다고 발표했다. '엔비디아 기반 델 AI 팩토리'는 델의 AI 포트폴리오를 '엔비디아 AI 엔터프라이즈' 소프트웨어 플랫폼과 통합한 오퍼링이다. 엔비디아 텐서 코어 GPU, 엔비디아 스펙트럼-X 이더넷 네트워킹 패브릭 및 엔비디아 블루필드 DPU 등의 기술을 기반으로 한다. 고객은 필요에 따라 맞춤화된 통합 기능 또는 사전 검증된 전체 스택 솔루션을 구매해 검색증강생성(RAG), 모델 학습 및 추론과 같은 AI 사용 사례에 적용할 수 있다. 신제품 '델 파워엣지 XE9680L'은 기존 모델 대비 더 작은 4U 폼 팩터에 8개의 엔비디아 블랙웰 아키텍처 GPU를 탑재해 높은 성능을 제공한다. 기존 모델인 '델 파워엣지 XE9680'의 경우 6U 크기 제품이었는데, '델 파워엣지 XE9680L'는 4U 크기로 작아졌다. 업계 표준 x86 랙 상에서 엔비디아 GPU를 최고 수준의 집적도를 자랑한다. 기존 모델 대비 노드당 33% 더 높은 GPU 집적도를 제공한다. 20% 더 많은 5세대 PCIe 슬롯을 장착하고, 노스-사우스 네트워크 확장 용량을 2배로 늘렸다. 델 파워엣지 XE9680L서버는 '다이렉트 리퀴드 쿨링' 기술로 CPU 및 GPU의 냉각 용량을 높여 전반적인 효율성을 향상시켰다. 손쉬운 서비스가 가능하도록 설계됐으며, 랙 스케일 구축 및 현장 설치가 용이하게끔 공장에서부터 완벽하게 구성이 완료된 상태로 출하된다. 델은 업계에서 가장 높은 집적도와 에너지 효율의 랙 규모 턴키 솔루션을 공급함으로써 대규모 GPU 가속 구축의 가치 실현 시간을 단축한다. 델과 엔비디아는 향후 단일 랙에서 64개의 GPU를 지원하는 공냉식 설계 또는 단일 랙에서 72개의 엔비디아 블랙웰 GPU를 지원하는 수냉식 서례 등 다양한 옵션을 선보일 예정이다. 델테크놀로지스는 '엔비디아 AI 엔터프라이즈' 소프트웨어의 배포를 자동화하는 엣지 오케스트레이션 플랫폼 '델 네이티브엣지'를 선보였다. 개발자와 IT 운영자는 이를 이용해 엣지에 AI 애플리케이션 및 솔루션을 손쉽게 구축할 수 있다. 제조업이나 유통업계의 다양한 기업들이 엔비디아 메트로폴리스 영상 분석, 엔비디아 리바 음성 및 번역 기능, 엔비디아 NIM 추론 마이크로서비스를 포함한 새로운 델 네이티브엣지 블루프린트를 통해 빠르고 정확하게 엣지 데이터를 분석할 수 있다. 마이클 델 델테크놀로지스 회장은 “전세계가 AI를 활용하기 위해 빠르게 움직이고 있으며, 이것이 바로 엔비디아와 긴밀하게 협력하는 중요한 이유"라며 "엔비디아 기반 델 AI 팩토리 포트폴리오의 확장은 양사 공동의 사명을 이어가는 것으로, 더 많은 기업과 기관들이 AI를 보다 손쉽게 구축하여 과감하게 차세대 기술에 도전할 수 있도록 하는 것을 목표로 한다”고 밝혔다. 젠슨 황 엔비디아 CEO는 "생성형 AI는 새로운 유형의 컴퓨팅 인프라, 즉 인텔리전스를 생성하는 AI 팩토리를 필요로 한다"며 "엔비디아와 델은 함께 협력해 전세계 다양한 산업군에 컴퓨팅, 네트워킹, 소프트웨어를 포함한 풀스택 오퍼링을 제공해 코파일럿, 코딩 어시스턴트, 가상 고객 서비스 에이전트, 산업용 디지털 트윈 등을 구축할 수 있도록 지원할 계획"이라고 강조했다. DTW 2024 첫째날 기조연설에서 마이클 델 회장이 델 파워엣지 XE9680L을 소개하자, 젠슨 황 CEO는 “그런 말로 나를 유혹하지 마라”며 “랙에 72개의 블랙웰이 있다니 그것은 나를 매우 흥분하게 만든다”며 환하게 웃었다. 한편, 새롭게 공개된 '디지털 어시스턴트를 위한 델 생성형 AI 솔루션'은 델과 엔비디아의 풀스택 솔루션을 기본으로 사용자가 개인화된 셀프서비스를 경험할 수 있게끔 디지털 어시스턴트의 빠른 구축을 돕는다. 함께 발표된 '디지털 어시스턴트를 위한 구축 서비스'는 디지털 어시스턴트 솔루션을 설계, 계획, 구현, 테스트 및 확장할 수 있도록 지원한다. 양사 공동 엔지니어링을 통해 설계된 풀스택 자동화 솔루션인 '엔비디아 기반 델 AI 팩토리'는 다양한 활용 사례에 대한 AI 환경을 빠르게 구축할 수 있게끔 돕는다. 가치 실현 시간을 최대 85% 앞당기며, 엔비디아 추론 마이크로서비스(NIM)'와 함께 사용할 경우 딜리버리에서 추론 작업 실행에 걸리는 전체 시간을 획기적으로 단축한다. '프리시전 AI 워크스테이션 기반 RAG를 위한 델 가속기 서비스'는 AI 개발 주기를 단축하고 AI 애플리케이션 성능을 향상시킨다. 엔비디아 AI 워크벤치 툴킷을 탑재한 델 프리시전 워크스테이션 기반 RAG를 통해 맞춤형 대규모 언어모델을 활용함으로써 안전한 환경에서 신속한 프로토타이핑이 가능하다. '델 파워엣지 XE9680L' 서버는 올해 하반기 중 출시될 예정이다. '델 네이티브엣지'의 엔비디아 지원은 하반기를 시작으로 순차적으로 제공된다. '디지털 어시스턴트를 위한 델 생성형 AI 솔루션' 및 '디지털 어시스턴트를 위한 구현 서비스'는 현재 북미 지역에 한해 제공되고 있다. '프리시전 AI 워크스테이션 기반 RAG를 위한 델 가속 서비스'는 북미, EMEA, 아태지역의 일부 국가에 한해 하반기 중 출시될 예정이다. 제프 클라크 델테크놀로지스 제품 및 운영부문 부사장은 DTW 2024 둘째날 기조연설에서 “기존의 데이터센터 아키텍처는 생성에이아이 워크로드에 적합하지 않다는게 자명해졌다”며 “파워엣지 XE9680L은 한 랙에서 72개 블랙웰 GPU를 탑재할 수 있는데, 이 GPU는 수천, 수만개로 늘어날 수 있다”고 말했다. 그는 “옛 시스템에서 벗어나 완전히 다른 방식으로 구축하고 생성형 AI 워크로드에 맞춰 최적화하면서 발전해 나가야 한다”고 덧붙였다.

2024.05.22 07:45김우용

TSMC "HBM4부터 로직다이 직접 제조"…삼성과 주도권 경쟁 예고

TSMC가 6세대 고대역폭메모리(HBM4)부터 그동안 메모리 영역이었던 로직(베이스) 다이 제조에 직접 나선다고 선언하면서 향후 HBM 시장에 주도권 변화가 예고된다. 앞서 지난 4월 SK하이닉스는 TSMC와 HBM4 공동 개발을 공식 발표한 바 있어 양사의 동맹이 주목되고 있는 상황이다. 반면 메모리와 파운드리 사업을 모두 관장하는 삼성전자는 토탈 패키징 솔루션을 앞세워 경쟁력을 강화한다는 방침이다. AI 시대 HBM 시장이 확대되고 있는 가운데 칩설계, 메모리, 파운드리 업계의 주도권 경쟁이 더욱 심화될 수 있음을 시사하는 대목이다. ■ TSMC, 12나노·5나노 로직다이 직접 생산 대만 파운드리 업체 TSMC는 지난 14일 네덜란드 암스테르담에서 열린 'TSMC 유럽 기술 심포지엄' 행사에서 HBM4에 12나노미터(mn·10억분의 1m)급과 5나노급 로직(베이스) 다이를 사용하겠다고 밝혔다. HBM은 여러 개 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 대폭 끌어올린 고성능 제품이다. 시장에 출시된 5세대 HBM(HBM3E)까지는 D램과 베이스 다이를 SK하이닉스와 같은 메모리 업체가 생산하고, TSMC는 이를 받아 기판 위에 GPU(그래픽처리장치)와 나란히 패키징(조립)한 후 엔비디아에 공급해 왔다. 베이스 다이는 GPU와 연결돼 HBM을 컨트롤하는 역할을 수행한다. 그러나 내년 양산 예정인 HBM4부터는 TSMC가 12나노 또는 5나노급 로직 다이를 활용해 직접 만든다. TSMC는 이 작업을 위해 N12FFC+(12나노)와 N5(5나노) 프로세스의 변형을 사용할 계획이다. 현재 SK하이닉스, 마이크론 등은 메모리 팹이 고급 로직 다이를 생산할 수 있는 장비를 갖추고 있지 않기 때문에 TSMC는 HBM4 제조 프로세스에서 유리한 위치를 차지할 것으로 기대하고 있다. TSMC의 설계 및 기술 플랫폼 수석 이사는 "우리는 HBM4 풀 스택과 고급 노드 통합을 위해 주요 HBM 메모리 파트너와 협력하고 있다"고 전했다. TSMC에 따르면 12FFC+ 프로세스는 스택당 대역폭이 2TB/초가 넘는 12단(48GB) 및 16단(64GB)을 구축할 수 있어 HBM4 성능을 달성하는데 적합하다. N5로 제작된 베이스 다이는 훨씬 더 많은 로직을 포함하고 전력을 덜 소비하므로 더 많은 메모리 대역폭을 요구하는 AI 및 HPC(고성능컴퓨팅)에 유용할 전망이다. HBM4는 더 많은 메모리 용량을 수용하기 위해 현재 사용되는 기술보다 더 발전된 패키징 방법을 채택해야 한다. 이에 TSMC는 자사 첨단 패키징 기술인 'CoWoS' 기술을 업그레이드 중이라고 밝혔다. CoWoS는 칩을 서로 쌓아서 처리 능력을 높이는 동시에 공간을 절약하고 전력 소비를 줄이는 2.5D 패키지 기술이다. TSMC는 "HBM4를 위해 CoWoS-L과 CoWoS-R을 최적화하고 있다"라며 "CoWoS-L과 CoWoS-R 모두 8개 이상의 레이어를 사용하고, 신호 무결성으로 2000개가 넘는 상호 연결의 HBM4 라우팅을 가능하게 한다"고 설명했다. ■ 삼성전자, 메모리-파운드리 토탈 솔루션 강점 앞세워 삼성전자는 첨단 공정 파운드리와 메모리 사업을 동시에 공급하는 맞춤형 토탈 솔루션을 강점으로 내세우고 있다. 메모리에서 HBM을 만든 다음 자체 파운드리 팹에서 패키징까지 모두 가능하다는 의미다. 반도체(DS) 부문 미주지역을 총괄하는 한진만 DSA 부사장은 올 초 기자들을 만나 “최근 고객사들은 파운드리 로직 공정에 자신의 IP나 새로운 IP를 넣어서 기존 메모리와 다른 맞춤형(커스터마이징) 솔루션을 만들고 싶다는 요구를 많이 한다”라며 “이것이 진정한 메모리와 파운드리의 시너지다”고 강조했다. 현재까지 파운드리 시장에서는 AI 반도체 1위 엔비디아 물량을 차지한 TSMC가 앞서 나가고 있다. 또 엔비디아에 HBM3에 이어 HBM3E까지 공급을 확정한 SK하이닉스 또한 HBM 시장 1위를 차지한다. 엔비디아가 거래처 다변화를 추진함에 따라 삼성전자와 마이크론도 HBM을 공급할 가능성이 열려 있다. 반도체 업계 관계자는 "SK하이닉스의 HBM이 각광받는 이유는 품질이 좋은 것도 있지만, TSMC와 밀접한 협력 관계도 영향을 줬을 것"이라며 “TSMC가 HBM4 로직 다이에서 파운드리 경쟁사인 삼성전자와 협력하는 것이 쉽지 않아 보인다. 삼성전자는 HBM을 두고 메모리와 파운드리 두 부분에서 경쟁해야 하는 상황이 됐다”고 말했다.

2024.05.21 09:09이나리

Prev 1 2 3 4 5 6 7 8 9 Next