• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'GPU'통합검색 결과 입니다. (216건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

CPU·GPU 에너지 사용 100만분의 1로 줄인 '열컴' 나오나

기존 CPU나 GPU가 사용하는 에너지의 100만분의 1만으로도 경로찾기 등 복합한 최적화 계산을 할 수 있는 차세대 열 컴퓨팅 기술이 개발됐다. 인공지능과 딥러닝 등의 확산에 따른 전기 에너지 사용량이 현안으로 부상한 가운데 공개된 혁신적인 컴퓨팅 구동 기술이어서 과학기술계의 관심을 끌었다. KAIST는 신소재공학과 김경민 교수 연구팀이 미국 샌디아 국립연구소와 공동으로 산화물 반도체의 열-전기 상호작용에 기반하는 열 컴퓨팅(Thermal computing) 기술 개발에 성공했다고 26일 밝혔다. 연구팀은 반도체 소자에서 발생하는 열이 CPU의 계산 성능을 떨어뜨리고, 이 열을 처리하는 추가 비용이 발생한다는데 주목했다. 이 같은 문제 해결 방안으로 연구팀은 전기-열 상호작용이 강한 산화나이오븀(NbO₂) 기반의 모트 전이 (Mott transition) 반도체를 눈여겨 봤다. 모트 전이 반도체는 온도에 따라 전기적 특성이 부도체에서 도체로 변하는 전기-열 상호작용이 강한 반도체 소자다. 연구팀은 낮은 열전도도와 높은 비열을 가지고 있는 폴리이미드 기판으로 모트 전이 반도체 소자를 제작했다. 소자에서 발생한 열은 폴리이미드 기판에 저장했다. 저장된 열은 일정 시간 동안 유지돼 시간적 정보 역할을 했다. 또 이 열은 공간적으로도 이웃 소자로 전파되면서 공간적 정보 역할도 했다. 연구팀은 "열 정보를 시,공간적으로 활용해 컴퓨팅을 수행할 수 있었다"며 "CPU나 GPU가 쓰는 에너지 소모량 대비 1백만분의 1 정도만 써도 경로 찾기 등과 같은 복잡한 최적화 문제를 풀수 있었다"고 부연 설명했다. 김경민 교수는 “버려지던 반도체 소자 열을 컴퓨팅에 활용하는 개념을 최초로 제안했다"며 "열 컴퓨팅 기술을 활용하면 뉴런과 같은 신경계의 복잡한 신호도 매우 간단히 구현할 수 있다"고 말했다. 김 교수는 또 고차원의 최적화 문제를 기존의 반도체 기술을 바탕으로 해결할 수 있어 양자 컴퓨팅의 현실적인 대안이 될 수 있다”고 기술의 장점을 강조했다 이 연구는 KAIST 신소재공학과 김광민 박사과정, 인재현 박사, 이영현 박사과정 연구원이 공동 제1 저자로 참여했다. 관련 논문은 재료 분야 국제 학술지 `네이처 머티리얼즈(Nature Materials, Impact factor: 41.2)'(6월18일자)에 게재됐다.

2024.06.26 05:06박희범

KAIST, 챗GPT4.0 정답률보다 32.5% 더 나은 'PlanRAG' 첫 공개

KAIST가 거대언어모델(LLM)을 이용해 챗GPT4.0의 기업 의사결정 정답률을 32.5% 개선한 '플랜래그'(Plan RAG)를 처음 공개했다. 오픈AI의 최신모델인 챗GPT 4.0은 의사결정 구조에서 통상 40~50%의 정답률을 보인다. 이를 30% 이상 개선했다. KAIST는 전산학부 김민수 교수 연구팀이 ▲의사결정 문제 ▲기업 데이터베이스 ▲비즈니스 규칙 집합 등 3 가지를 기반으로 비즈니스 규칙에 부합하는 최적의 의사결정을 내릴 수 있는 '플랜래그(PlanRAG)'을 개발했다고 19일 밝혔다. 김 교수는 엔비디아 GPU 연구센터장과 IBM 알마덴 연구센터 연구원을 지냈다. 지난 2021년부터 KAIST 전산학부 교수로 재직 중이다. 연구팀은 기업 의사결정 문제를 푸는데 있어 GPT-3.5 터보에서 반복적 RAG 기술을 사용하더라도 정답률이 10% 미만이라는데 착안해 대안을 모색했다. 최근 AI분야에서는 LLM이 학습된 내용만으로 답변하는 것 대신, 데이터베이스를 검색해 답변을 생성하는 검색 증강 생성(Retrieval-Augmented Generation; 이하 RAG) 기술이 각광받고 있다. 연구팀은 여기에서 한 단계 더 나아갔다. 반복적 RAG를 이용하기 전에 먼저 어떤 데이터 분석이 필요한지에 대한 거시적 차원의 계획을 먼저 생성했다. 마치 기업의 의사결정권자가 어떤 데이터 분석이 필요한지 먼저 계획을 세우면, 그 계획에 따라 데이터 분석팀이 데이터베이스 솔루션들을 이용해 분석하는 형태와 유사한 구조다. 연구팀은 "다만 이러한 과정을 모두 사람이 아닌 거대언어모델이 수행하도록 한 것이커다란 차이"라며 "'플랜래그' 기술은 계획에 따른 데이터 분석 결과로 적절한 답변을 도출하지 못하면, 다시 계획을 수립하고 데이터 분석을 수행하는 과정을 반복한다"고 설명했다. 김민수 교수는 “지금까지 LLM 기반으로 의사결정 문제를 푼 연구가 없었다"며 "기업 의사결정 성능을 평가할 수 있는 의사결정 질의응답(DQA) 벤치마크를 새롭게 만들었다"고 말했다. 실제 이 벤치마크에서 GPT-4.0을 사용할 때 종래의 반복적 'RAG'의 의사결정 정답률에 비해 '플랜래그'는 최대 32.5%까지 정답률을 개선했다. 김 교수는 "기업 CEO가 '플랜래그'를 실제 활용하기 까지는 1~2년이 더 걸릴 것으로 예상한다"며 "기존 챗GPT 4.0의 의사결정 정답률을 획기적으로 끌어올려 문제의 3분의 2가량을 맞출 수 있다는데 큰 의미를 부여한다"고 덧붙였다. 이 연구에는 KAIST 전산학부 이명화 박사과정과 안선호 석사과정이 공동 제1 저자, 김민수 교수가 교신 저자로 참여했다. 연구 결과는 자연어처리 분야 최고 학회(top conference)인 'NAACL' 에 지난 17일 발표됐다.

2024.06.19 09:14박희범

슈퍼마이크로, '블랙웰' 탑재 AI 최적화 서버 공개

슈퍼마이크로컴퓨터는 생성형 AI 개발 및 구축을 지원하는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼에 최적화된 '슈퍼클러스터'를 11일 공개했다. 슈퍼마이크로 슈퍼클러스터는 산업을 막론하고 기업의 생성형 AI 채택을 가속화하는 클라우드 네이티브 솔루션을 위해 설계된 R2D 액침 냉각식 AI 데이터센터에서 사용된다. 엔비디아에서 최근 선보인 블랙웰 GPU에 슈퍼마이크로의 4U 수냉식 냉각 서버가 탑재돼 단일 GPU에서 20 페타 플롭스(FLOPS)의 AI 성능을 완벽하게 구현할 수 있다. 기존 GPU 대비 4배 강력한 AI 훈련 및 30배 강력한 추론 성능을 자랑하며, 추가적인 비용 절감 효과를 가져온다. 슈퍼마이크로는 시장 선점 전략에 따라 최근 블랙웰 아키텍처를 기반으로 한, 엔비디아 HGX B100, B200, 그리고 GB200 그레이스 블랙웰 슈퍼칩용 신규 제품군을 선보인 바 있다. 슈퍼마이크로는 '컴퓨텍스 2024'에 참가해 곧 출시될 엔비디아 블랙웰 GPU에 최적화된 서버를 공개했으며, 여기에는 엔비디아 HGX B200 기반의 10U 공냉식 및 4U 수냉식 냉각 서버가 포함됐다. 8U 공냉식 엔비디아 HGX B100 시스템, 엔비디아 NV링크 스위치와 상호 연결된 GPU 72개를 탑재한 슈퍼마이크로의 엔비디아 GB200 NVL72 랙, 그리고 엔비디아 H200 NVL PCLe GOU 및 엔비디아 GB200 NVL2 아키텍처를 지원하는 신규 엔비디아 MGX 시스템을 제공할 예정이다. 젠슨 황 엔비디아 창립자 겸 CEO는 “생성형 AI가 모든 컴퓨팅 스택의 재설정을 주도하고 있는 가운데, 새로운 데이터센터는 GPU 가속화로 AI에 최적화될 것”이라며 “슈퍼마이크로는 최첨단 엔비디아 가속 컴퓨팅 및 네트워킹 솔루션을 설계하고, 수조 달러 규모의 글로벌 데이터센터가 AI 시대에 최적화될 수 있도록 지원한다”고 밝혔다. LLM의 급속한 발전과 더불어 메타 라마3 및 믹스트랄 8x22B 같은 오픈소스 모델의 지속적인 출시로 인해 오늘날 최첨단 AI 모델에 대한 기업의 접근성이 높아졌다. 현재 폭발적인 AI 혁신을 지원하는 데 있어 가장 중요한 요소는 AI 인프라를 간소화하고 가장 비용 효율적인 방식에 대한 접근성을 제공하는 것이다. 슈퍼마이크로 클라우드 네이티브 AI 슈퍼클러스터는 엔비디아 AI 엔터프라이즈를 활용해 클라우드의 즉각적인 접근 편의성과 휴대성 사이의 간극을 메운다. 또한, 파일럿부터 프로덕션까지 모든 규모의 AI 프로젝트를 원활하게 추진할 수 있도록 지원한다. 이를 통해 호스팅 시스템이나 온프레미스 대규모 데이터센터를 비롯해 데이터를 안전하게 보호하는 곳에 유연성을 제공한다. 여러 업계의 기업들이 빠르게 생성형 AI 사용 사례를 실험하고 있는 가운데, 슈퍼마이크로는 엔비디아와의 긴밀한 협업을 통해 시험 및 파일럿 AI 애플리케이션에서 양산형 배포 및 대규모 데이터센터 AI로의 원활하고 매끄러운 전환을 보장한다. 이는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼을 통해 랙 및 클러스트 단위의 최적화를 이룬 결과로, 초기 탐색부터 확장 가능한 AI 구현까지 원활한 여정을 지원한다. 관리형 서비스는 인프라 채택, 데이터 공유, 그리고 생성형 AI 전략 제어에 부정적인 영향을 미친다. 하지만 슈퍼마이크로는 엔비디아 AI 엔터프라이즈의 일부인 엔비디아 NIM 마이크로서비스를 통해 관리형 및 생성형 AI 및 오픈소스 배포의 장점만을 제공한다. 마이크로서비스를 활용한 다목적 추론 수행 시간은 오픈소스부터 엔비디아 기반 모델에 이르기까지 다양한 모델에서 생성형 AI 구축을 가속화한다. 또한, 엔비디아 NeMo를 지원해 데이터 큐레이션, 고급 커스터마이징 및 RAG를 통한 엔터프라이즈급 솔루션용 맞춤형 모델 개발이 가능하다. 슈퍼마이크로의 엔비디아 AI 엔터프라이즈용 슈퍼클러스터와 결합된 엔비디아 NIM은 확장 가능하고 가속화된 생성형 AI 프로덕션 구축을 향한 지름길로 안내한다. 슈퍼마이크로 수냉식 냉각 엔비디아 HGX H100·H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 5개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 공냉식 냉각 엔비디아 HGX H100/H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 슈퍼마이크로 엔비디아 MGX GH200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 그레이스 호퍼 슈퍼칩 256개를 탑재한다. 슈퍼마이크로 슈퍼클러스터는 엔드투엔드 생성형 AI 커스터마이징을 위해 엔비디아 NIM 마이크로서비스 및 엔비디아 네모(NeMo) 플랫폼 등 엔비디아 AI 엔터프라이즈를 탑재했다. 400Gbps의 네트워킹 속도로 수십만 개의 GPU가 있는 대규모 클러스터까지 확장 가능하며, 엔비디아 퀀텀-2 인피니밴드 및 신규 엔비디아 스펙트럼-X 이더넷 플랫폼에 최적화됐다. 슈퍼마이크로 슈퍼클러스터 솔루션은 LLM 학습, 딥러닝, 그리고 대용량 및 대규모 추론에 최적화됐다. 슈퍼마이크로의 L11 및 L12 검증 테스트와 현장 구축 서비스는 고객에게 원활한 경험을 선사한다. 데이터센터에서 도입이 쉽고, 그 결과를 보다 빠르게 확인할 수 있는 플러그 앤 플레이 확장형 유닛을 제공한다. 찰스 리앙 슈퍼마이크로 사장 겸 CEO는 "슈퍼마이크로는 랙 스케일 액침 냉각식 AI 솔루션을 개발 및 구축하며 지속적으로 업계를 선도하고 있다"며 "수냉식 냉각 데이터선터는 전력 사용량 감축을 통해 사실상 무상으로 제공되며, 이는 고객에게 추가적인 가치를 제공할 수 있다”고 밝혔다. 그는 “슈퍼마이크로의 솔루션은 다양한 산업군의 고객을 위해 엔비디아 AI 엔터프라이즈 소프트웨어에 최적화됐다”며 “엔비디아 HGX H100 및 H200은 물론, 새로 출시된 B100, B200, 그리고 GB200에 수냉식 또는 공냉식 냉각 턴키 클러스터를 배포하는 시간을 단축할 수 있다”고 설명했다. 그는 “냉각판부터 CPU와 냉각탑에 이르기까지 슈퍼마이크로의 랙 스케일 종합 액체 냉각 솔루션은 데이터센터에서 사용하고 있는 전력량을 최대 40%까지 줄일 수 있다”고 덧붙였다.

2024.06.11 10:31김우용

GPU 포기설 부인한 인텔...2세대 '배틀메이지' 온다

[타이베이(대만)=권봉석 기자] 인텔은 GPU 시장 재진출 선언 이후 오랜 준비 과정을 거쳐 지난 2022년 3월 모바일(노트북)용 아크 A350M, 6월 데스크톱용 아크 A380, 10월 데스크톱용 아크 A750/A770 등 아크 A시리즈(개발명 '알케미스트') GPU를 출시했다. 그러나 개발 과정이 지연된 탓에 출시 시점이 지연됐고 결국 AMD와 엔비디아 등 경쟁사 제품 대비 한 세대 전 제품 성능으로 경쟁하는 상황이 벌어졌다. 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다. 이에 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "차세대 프로세서, 루나레이크에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재되며 이를 기반으로 한 2세대 GPU '배틀메이지'도 출시될 것"이라고 밝혔다. ■ Xe2, AI 성능 강화에 중점 톰 피터슨 펠로우는 "Xe2는 Xe 코어를 개발하며 얻은 경험을 바탕으로 전력 효율과 성능 향상에 중점을 뒀고 기존 게임과 호환성을 강화했다. 게임 뿐만 아니라 고부하 작업에 최적화된 GPU"라고 설명했다. 핵심을 이루는 것은 2세대 Xe 코어이며 내부를 완전히 새로 설계했다. 512비트 벡터 엔진 8개는 AI 연산에 필요한 XMX(Xe 행렬 확장) 엔진도 8개 추가했다. 이는 기존 모바일(노트북)용 아크 그래픽스에는 추가되지 않았던 것이다. 벡터 엔진은 SIMD16(16개 수치를 동시에 처리)급 ALU(정수연산유닛)와 XMX 엔진 8개 등으로 구성됐다. XMX 엔진은 INT2, INT4, INT8, FP16, BF16 등 AI 연산이 요구하는 자료형을 폭넓게 지원한다. FP16 자료형 기준으로 행렬 곱셈시 한 클록당 2천48개 작업, INT8 자료형 기준으로 클록당 4천96 작업을 처리한다. AI 연산 성능은 INT8 자료형 기준 최대 67 TOPS(1초 당 1조번 연산)이며 정밀도가 낮은 INT4 등을 이용하면 TOPS는 더 높아진다. ■ 메테오레이크와 전력소모 같지만 성능은 1.5배 향상 전작 메테오레이크는 GPU 타일을 별도로 분리했지만 루나레이크는 GPU, 각종 코덱을 다루는 미디어, 출력을 담당하는 디스플레이 등 반도체 IP(지적재산권)를 모두 '플랫폼 제어 타일'에 분산 통합했다. Xe2 GPU는 2세대 Xe 코어 8개로 구성된다. 톰 피터슨 펠로우는 "Xe2 GPU는 기존 메테오레이크 GPU 대비 같은 전력으로 1.5배 높은 성능을 낼 것"이라고 설명했다. 2세대 Xe 코어 8개로 구성된 루나레이크 GPU의 AI 연산 성능은 67 TOPS다. 스테이블 디퓨전 1.5로 그림 파일 한 장을 생성하는 시연에서 메테오레이크 소요시간은 13.29초, 루나레이크 소요 시간은 6.345초로 처리 시간이 절반으로 단축됐다. ■ 디스플레이 엔진, 주사율 조정·절전 기능 포함 GPU가 처리한 영상을 모니터나 화면을 보내는 디스플레이 엔진은 8K60p HDR 화면 1개, 혹은 4K 60p HDR 화면 3개를 동시에 출력할 수 있다. HDMI 2.1, 디스플레이포트 2.1 규격 외에 노트북 화면을 제어하는 eDP 1.5를 지원한다. eDP 1.5의 주요 기능 중 화면주사율 가변 조정이 있다. 초당 24개 그림으로 구성된 영화 재생시 60Hz 디스플레이에서는 움직임이 부자연스러워질 수 있지만 이를 2의 배수인 48Hz로 표시하면 보다 자연스러운 화면을 볼 수 있다. 이외 기능으로는 같은 화면이 표시될 경우 데이터 전송 빈도를 낮추고 대기 상태에서 전력 소모를 최소화하는 기능을 포함했다. 대기 화면에서는 기존 대비 18mW, 유튜브 전체 화면 재생시는 351mW를 절감해 배터리 지속시간을 늘린다. ■ 미디어 엔진, 차세대 코덱 VVC 재생 지원 미디어 엔진은 각종 영상 코덱을 압축·재생하는 역할을 담당한다. 루나레이크에 포함된 미디어 엔진은 최대 8K 60p HDR 영상까지 처리할 수 있다. 처리 가능한 코덱은 현재 널리 쓰이는 영상 코덱인 H.264/265, 오픈소스 코덱인 AV1이며 H.265 이후 차세대 코덱으로 꼽히는 VVC(H.266) 재생도 추가했다. VVC 코덱은 AV1 코덱 대비 파일 용량을 10% 더 줄일 수 있고 화면의 글자나 그림에 맞는 압축방법을 지원해 화면 녹화시 유용하다. 그러나 현 시점에서 이를 재생하려면 고성능 CPU/GPU가 필요하다. 루나레이크 내장 미디어 엔진은 VVC 코덱 재생을 하드웨어로 처리해 전력 소모를 줄였다. 4K(3840×2160 화소) 재생시 메테오레이크는 CPU를 이용한 소프트웨어 재생으로 35W를, 루나레이크는 2.9W를 써 전력 소모는 1/10 수준으로 줄어든다. ■ XeSS 이용해 1080p 게임 초당 60프레임 이상으로 구동 톰 피터슨 펠로우는 루나레이크 내장 Xe2 GPU가 AI 기반 저해상도 업스케일 기술 'XeSS'를 활용해 최신 게임을 보다 원활하게 즐길 수 있다고 강조했다. 이를 극단적으로 드러나는 것이 게임 'F1 24' 시연이다. 지난 5월 28일 출시된 게임을 루나레이크는 1080p '높음' 설정에서 문제없이 소화했다. 초당 프레임도 60프레임 이상으로 매우 원활히 구동된다. 인텔 관계자는 "게임 실행시 960×540 화소 화면을 업스케일해 풀HD(1920×1080 화소) 해상도로 4배 업스케일하는 XeSS 기능을 이용했다. 레이트레이싱이 적용돼 보다 사실적인 화면을 볼 수 있다"고 설명했다.

2024.06.04 12:30권봉석

"AI PC, 사생활 침해·지연 없는 맞춤형 경험 제공할 것"

[타이베이(대만)=권봉석 기자] AI PC의 핵심은 클라우드에 의존했던 AI 기능을 PC로 가져오는 것이다. 미리 학습된 AI 모델을 내려받아 CPU와 GPU, NPU(신경망처리장치)를 모두 활용해 가동하므로 LTE/5G나 와이파이가 없는 곳에서도 작동한다. 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "AI PC는 금융 정보나 건강 정보 등 민감한 정보를 관리하는 한편 이용자 특성을 학습해 맞춤형 비서 서비스를 제공할 수 있다"고 밝혔다. 이어 "금융 정보나 건강 정보 모두 외부에 공개하기 어려운 정보지만 AI PC는 이를 클라우드에 올리는 대신 기기 내에서 자체적으로 처리해 사생활 침해나 유출을 막는다"고 덧붙였다. ■ "AI PC 구현에 CPU·GPU·NPU 모두 중요" 현재 인텔을 포함해 주요 프로세서 제조사가 AI 처리 성능 기준으로 NPU TOPS(1초당 1조 번 연산)를 내세운다. 이는 모든 AI 처리가 NPU만 활용한다는 인식을 줄 수 있지만 실제는 이와 다르다. 톰 피터슨 펠로우는 지난 5월 인텔 자체 조사 결과를 토대로 "올해 AI 엔진을 구동하는 장치 비중은 NPU가 25%, GPU가 40%, CPU가 35%지만 내년에는 NPU 비율이 30%대로 다소 상승, CPU 비율은 30%로 다소 변화가 있을 것"이라고 전망했다. 그는 "AI 응용프로그램의 작동 방식에 따라 차이가 있다. GPU는 생성과 인식에, NPU는 항시 가동돼야 하는 악성코드 감지 등에 유용하다. CPU의 TOPS는 낮지만 빠른 시간 안에 결과를 얻어야 할 때 유용하다"고 설명했다. ■ "AI 처리 부하 줄이는 양자화 기술, 오픈소스로 개방" AI 모델의 정밀도가 높아질 수록 처리 시간과 용량, CPU/GPU/NPU에 가해지는 부하도 급증한다. 현재 AI 모델의 주류를 이루는 것은 FP32(32비트 부동소수점), FP16이지만 용량과 처리 속도 면에서 이를 PC로 처리하는 데는 무리가 있다. 정밀도를 FP16(32비트 부동소수점), INT8(8비트 정수) 등 PC에서 처리할 수 있는 수준으로 조절해야 한다. 이를 해결하기 위한 방법이 양자화이며 처리 속도 향상, AI 모델 용량 축소 등이 가능하다. 톰 피터슨 펠로우는 "양자화를 쉽게 처리할 수 있는 기술인 '인텔 신경망 압축'을 오픈소스 AI 생태계인 ONNX에 오픈소스 기술로 제공할 것"이라고 설명했다. ■ 인텔, 파이3 코어 울트라에 최적화...초당 25 단어 생성 인텔은 지난 4월 공개된 마이크로소프트 LLM(거대언어모델)인 파이3를 코어 울트라 시리즈 프로세서에 최적화했다. 코어 울트라 시리즈1(메테오레이크)에서 첫 단어가 나오는 데는 1초 미만, 초당 25단어를 생성해 이미 사람 눈으로 따라갈 수 없는 수준까지 향상됐다. 루나레이크의 AI 처리 성능은 여기서 한 단게 더 나아갔을 것으로 추정된다. 톰 피터슨 펠로우는 "AI 처리 속도를 높이는 것은 매우 중요한 일이다. 앞으로는 AI 응용프로그램이 사람 대신 다른 프로그램, 다른 서비스와 직접 상호작용하며 학습하게 될 것"이라고 설명했다. ■ "생태계 확대 위해 루나레이크 개발자 키트 곧 공급" 인텔이 AI PC 구현을 위해 이용하는 기술은 오픈비노(OpenVINO)다. PC의 CPU와 GPU, NPU를 모두 활용해 AI 처리 연산을 가속한다. 윈도 다이렉트ML, ONNX 런타임, 윈도 AI 등 다양한 소프트웨어를 지원한다. 인텔은 오픈비노를 활용한 개발자 생태계 확대를 위해 루나레이크 프로세서 기반 AI PC 개발 키트도 사전 공급할 예정이다. 가로·세로 165mm×150mm, 높이 27mm의 슬림한 케이스에 루나레이크 프로세서와 LPDDR5 32GB 메모리를 장착했다. 톰 피터슨 펠로우는 "루나레이크는 5 TOPS CPU, 67 TOPS GPU, 48 TOPS NPU를 결합해 최대 120 TOPS를 발휘할 수 있으며 게임과 AI 비서, 생성 AI를 이용한 콘텐츠 제작에 최적화됐다"고 강조했다.

2024.06.04 12:00권봉석

인텔 루나레이크, 저전력·고효율 목표로 경쟁력 강화

[타이베이(대만)=권봉석 기자] "3분기 출시할 모바일(노트북)용 프로세서 '루나레이크'(Lunar Lake)는 x86 프로세서에 대해 사람들이 가진 생각은 물론 AI PC를 경험하는 방식을 바꿀 것이다. CPU와 GPU(그래픽처리장치), NPU(신경망처리장치) 모두 경쟁에서 이길 것이다." 컴퓨텍스 타이베이 2024 전 주 진행된 '인텔 테크투어 타이완' 기조연설에서 미셸 존스턴 홀타우스 인텔 CCG(클라이언트 컴퓨팅 그룹) 총괄(수석부사장)이 이렇게 강조했다. 인텔 테크투어는 2022년부터 시작된 연례 기술 행사다. 매년 새 프로세서 출시를 앞두고 각국 기자단에 강점과 특징 등을 소개한다. 올해 행사에는 한국을 포함해 15개 국가와 지역에서 150개 매체, 227명이 참석했다. 올해 행사 핵심은 오는 3분기 출시될 모바일용 프로세서, 루나레이크다. 이달부터 국내 포함 전 세계 시장에 출시되는 퀄컴 스냅드래곤 X 엘리트/플러스, 하반기 출시될 AMD 라이젠 프로세서와 경쟁할 제품이다. ■ TSMC 위탁생산 타일과 메모리, 인텔 기술로 조립 전작인 코어 울트라 시리즈1(메테오레이크)는 컴퓨트(CPU), GPU, SOC, I/O 등 4개 타일을 인텔과 TSMC가 생산한 다음 3차원 적층 기술 '포베로스'(FOVEROS)로 결합해 구성했다. 반면 루나레이크는 CPU 타일, 그리고 GPU와 NPU, 미디어 엔진 등 다양한 반도체 IP(지적재산권)를 재배치/통합한 플랫폼 제어 타일 등 단 두 개로 구성됐다. 여기에 LPDDR5X 메모리를 결합해 주요 PC 제조사에 공급된다. CPU와 GPU가 한 메모리를 같이 쓰는 통합 구조로 애플 M시리즈 프로세서와 같은 방식의 접근을 택했다. 한 다이(Die) 안에서 데이터가 오가므로 메모리를 분리했던 과거와 달리 지연시간과 면적은 줄이면서 대역폭은 높일 수 있다. 핵심 요소인 컴퓨트 타일(TSMC N3B), 그리고 플랫폼 제어 타일 모두 대만 TSMC가 만들었다는 것도 특징이다. 두 타일을 연결하는 베이스 타일은 인텔 22나노미터 공정에서 생산됐다. ■ 컴퓨트 타일 내 P·E코어, 전력 효율성 강화에 방점 컴퓨트 타일은 고성능 P(퍼포먼스) 코어 '라이언코브'(Lion Cove) 4개와 저전력·고효율 E(에피션트) 코어 '스카이몬트'(Skymont) 4개, 총 8개 코어로 구성된다. 대부분의 작업은 E코어가 먼저 처리하며 고성능이 필요한 작업에서 P코어가 작동한다. P코어와 E코어는 최근 강조되는 지표인 와트 당 성능, 다시 말해 전력 효율성 향상에 중점을 뒀다. E코어 '스카이몬트'는 P코어 '라이언코브'보다 적은 전력으로 같은 성능을 내도록 설계됐다. 인텔 자체 검증 결과 전작(메테오레이크) 대비 클록 당 명령어 처리 성능은 P코어 최대 14%, E코어 최대 68%까지 향상됐다. 동영상 재생이나 대기 상태 등 단순한 작업만 처리하던 '저전력 아일랜드 E코어' 성능도 전세대 대비 최대 2배 향상됐다. P코어 한 개를 두 개처럼 쓰는 프로세서 효율 향상 기술인 '하이퍼스레딩'은 루나레이크에서 빠졌다. 하이퍼스레딩이 빠진 대신 IPC(클록당 처리 가능 명령어 수)를 크게 높여 성능 하락이 일어나지 않을 것이라는 것이 인텔 관계자 설명이다. ■ 성능 높이고 전력소모 줄인 Xe2 GPU로 AI 가속 GPU는 게임이나 동영상 처리 뿐만 아니라 AI PC에서 중요도가 한층 커졌다. 고밀도 연속 AI 연산을 단시간에 처리하려면 GPU의 도움은 필수다. AI 연산 성능을 가늠하는 지표인 TOPS(1초 당 1조 번 AI 연산) 중 상당수가 GPU에서 나온다. 루나레이크의 GPU는 새롭게 개발한 Xe 코어 8개를 결합한 'Xe2'다. 내부 구조를 보완해 메테오레이크 대비 성능은 50% 가까이 늘어났다. AI 연산 중 상당수를 차지하는 행렬 관련 처리를 위한 XMX도 더해 AI 처리량은 1.5배 이상 향상됐다. Xe2 GPU의 AI 연산 성능은 최대 67 TOPS다. 디스플레이 규격은 2022년 하반기 정식 확정된 디스플레이포트 2.1, HDMI 2.1과 함께 노트북 직결 디스플레이 패널과 연결되는 eDP 1.5도 함께 지원한다. 처리가 쉽지 않은 차세대 코덱인 VVC(H.266) 재생도 지원한다. ■ AI 연산 성능 NPU 단독 48 TOPS, 최대 120 TOPS 가능 마이크로소프트는 최근 '빌드' 행사에서 PC 이용 이력을 추적하는 기능인 '리콜' 등을 담은 새로운 PC 카테고리인 '코파일럿+ PC'를 공개한 바 있다. 코파일럿+ PC는 40 TOPS 이상 NPU 탑재를 요구한다. 루나레이크에 탑재된 인텔 4세대 NPU인 'NPU 4' 성능은 전작(10.5 TOPS) 대비 3배 이상인 최대 48 TOPS까지 향상됐다. 과거 2개에 그쳤던 NPU 내 연산 장치를 최대 6개까지 늘리는 한편 작동 클록도 끌어올렸다. NPU와 GPU의 성능 강화에 따라 루나레이크의 AI 연산 성능도 세 자릿수까지 올라섰다. NPU 48 TOPS, GPU 67 TOPS와 CPU 5 TOPS를 합해 최대 120 TOPS까지 AI 연산이 가능해졌다는 것이 인텔 설명이다. ■ S/W 생태계 확대 위해 루나레이크 개발킷도 보급 AI PC의 쓰임새를 최대한 확보할 수 있는 소프트웨어 관련 역량 확보도 중요하다. 인텔은 이미 AI 모델 500개를 코어 울트라에 최적화하는 한편 에이수스와 협력해 코어 울트라 시리즈1 기반 개발자 키트도 보급중이다. 미셸 존스턴 홀타우스 총괄은 "최대 120 TOPS를 실현 가능한 개발자 키트를 생산해 AI PC용 소프트웨어 개발자에게 공급할 것이다. 업그레이드가 가능한 구조로 개발돼 향후 등장할 '팬서레이크'(Panther Lake) 등 다음 제품과도 호환될 것"이라고 설명했다. 인텔은 현재 루나레이크 제품화 단계인 'B0' 스테핑 단계 실리콘이 생산에 들어갔다고 밝혔다. 오는 3분기부터 주요 PC 제조사에 공급되며 오는 연말까지 20개 제조사가 80개 이상의 제품을 출시 예정이다.

2024.06.04 12:00권봉석

인텔 "루나레이크 NPU 성능 4배 강화... 전력 효율도 개선"

[타이베이(대만)=권봉석 기자] 인텔이 올 3분기부터 주요 PC 제조사에 공급할 모바일(노트북)용 프로세서, 루나레이크(Lunar Lake)는 플랫폼 컨트롤러 타일에 최대 48 TOPS(1초 당 1조 번) AI 연산이 가능한 4세대 NPU(신경망처리장치), NPU 4를 탑재한다. NPU 4는 CPU나 GPU 대비 훨씬 적은 전력으로 CPU(5 TOPS)의 5배 이상, Xe2 GPU(67 TOPS)의 71% 수준 AI 처리를 수행한다. AI 연산 성능만 따지면 코어 울트라 시리즈1(메테오레이크)의 CPU, GPU, NPU를 모두 합친 수치(34 TOPS)를 넘어선다. NPU 4는 PC가 켜져 있을 때 항상 같이 돌아가야 하는 음성 인식, 악성코드 탐지, 카메라를 이용한 사물 인식 등에 적합하다. 스테이블 디퓨전 1.5 기준으로 NPU 3 대비 최대 4배 빠르게 이미지를 생성해 전력 효율도 2.9배 향상됐다. ■ 인텔 NPU, 2018년 첫 출시 이후 올해 4세대 돌입 인텔 NPU는 2016년 인텔이 인수한 스타트업 '모비디우스' 기술력 기반으로 만들어졌다. 2018년 출시된 첫 제품은 별도 칩으로 출시돼 USB 단자 등을 통해 PC에 연결해 작동했다. 연산 성능은 0.5 TOPS로 영상 처리나 사물 인식 등에 적합했다. 2세대 제품인 'NPU 2'는 2021년 출시된 제품이며 IoT(사물인터넷) 기기를 대상으로 했다. 연산 속도는 7 TOPS 수준이며 배경 흐림, 프레임 인물 고정 등 윈도 스튜디오 효과를 지원했다. 지난 주 진행된 '테크투어 타이완' 행사에서 대런 크루스(Darren Crews) 인텔 NPU 수석 아키텍트는 "NPU는 7년 전만 해도 카메라를 통한 사물 인식 등에 주로 쓰였지만 현재는 높은 연산 성능과 함께 전력 효율성 등 두 가지 목표를 모두 달성해야 하는 상황"이라고 설명했다. ■ NPU 4 하나로 메테오레이크 연산 성능 능가 지난 해 출시된 코어 울트라 시리즈1(메테오레이크)는 SOC 타일에 3세대 제품 'NPU 3'를 통합했다. 연산 성능은 11.5 TOPS로 전체 연산 성능(34 TOPS)의 1/3 가량을 차지한다. 반면 후속 제품인 루나레이크에 탑재된 NPU 4의 AI 연산 성능은 최대 48 TOPS로 메테오레이크의 CPU, GPU, NPU를 모두 합친 것보다 더 빠르다. 대련 크루스 수석 아키텍트는 "AI 연산을 실제로 수행하는 엔진 수 증가, 작동 주파수 향상, 내부 아키텍처 개선으로 NPU 4의 성능이 급격히 향상됐다"고 설명했다. ■ "TOPS 수치, 작동 클록과 MAC 연산 능력이 좌우" 최근 PC용 프로세서를 구성하는 CPU와 GPU, NPU의 AI 연산 성능 측정을 위한 기준으로 'TOPS'가 널리 쓰인다. 그러나 이 수치가 정확히 어떤 과정을 거쳐 나오는지 정확히 아는 사람은 드물다. 대런 크루스 수석 아키텍트는 "TOPS는 AI 처리에 주로 쓰이는 연산 속도와 NPU 작동 클록에 크게 영향을 받는다" 고 설명했다. AI 연산에 가장 널리 쓰이는 연산 방식은 큰 수치를 서로 곱해 더하는 행렬 연산인 MAC 연산이다. 메테오레이크의 NPU 3내 연산 엔진은 두 개이며 한 클록당 4천96개의 MAC 연산을 수행한다. 여기에 작동 클록(1.4GHz)을 곱하고 1조 번(10의 12승)으로 나눈 값이 11.5 TOPS다. 같은 방식으로 계산하면 루나레이크 내장 NPU 4의 TOPS는 48 TOPS다. ■ "TOPS는 행렬 연산에 치중... 벡터 계산 성능 향상도 중요" 단 MAC 연산 처리량은 자료형(데이터타입)의 정밀도에 큰 영향을 받는다. 예를 들어 인텔이 기준으로 삼은 자료형은 INT8(정수 8비트)이다. 이를 INT4(정수 4비트)로 바꾸면 MAC 연산량과 TOPS는 각각 두 배로 뛴다. 대런 크루스 수석 아키텍트는 "TOPS 값은 계산으로 얻어진 값이며 주로 행렬 연산에 집중됐다. 그러나 큰 수치를 한꺼번에 처리하는 벡터 연산이 실제 AI 응용프로그램 성능에 더 큰 영향을 미친다"고 설명했다. NPU 4는 벡터 연산을 처리하는 레지스터 크기를 512비트로 확장하고, 대역폭은 전 세대 대비 4배 높였다. 행렬과 수치 연산을 모두 강화해 다양한 AI 연산을 처리할 수 있게 됐다. 양자화 전용 회로도 내장해 INT8, FP16 자료형을 모두 지원한다. ■ "TOPS, 행렬 연산에 치중...벡터 계산 성능 향상도 중요" NPU 4는 뉴럴 연산 엔진을 2개에서 6개로 3배 늘렸다. MAC 연산을 담당하는 어레이도 4천 개에서 1만 2천개로 늘어났다. 같은 소비 전력에서 NPU 3 대비 성능은 두 배 늘어났고 최대 성능은 4배로 뛰어올랐다. 벡터 연산 성능은 최대 12배, TOPS는 4배 이상 향상됐다. LLM(거대언어모델)의 토큰 생성 속도에 영향을 미치는 대역폭도 최대 2배 향상됐다. 오픈소스 그래픽 프로그램 '김프'(GIMP)로 스테이블 디퓨전 1.5 플러그인을 이용해 이미지를 생성하는 테스트에서 메테오레이크는 22.08초, 루나레이크는 5.43초로 실제 처리 시간이 1/4 수준으로 줄었다. 전력 소모는 NPU 3와 NPU 4 사이에 큰 차이가 없다. 메테오레이크 소모전력은 9W, 루나레이크 소모전력은 11.2W다. 대런 크루스 수석 아키텍트는 "소모 전력이 높아졌지만 소요 시간이 크게 줄어 실제 전력 소모는 줄어든다. 이를 통해 전력 효율을 2.9배 높였다"고 밝혔다.

2024.06.04 12:00권봉석

'10코어 GPU' M2 아이패드 에어, 알고보니 9코어

애플이 최근 출시한 M2칩 탑재 신형 아이패드 에어의 GPU가 10코어가 아닌 9코어로 확인됐다. IT매체 나인투파이브맥은 3일(현지시간) 애플이 M2 아이패드 에어의 GPU 사양을 10코어로 공개한 이후 9코어 기반이라고 수정했다고 보도했다. 애플 대변인은 "M2 아이패드 에어의 코어 수를 수정하기 위해 애플닷컴을 업데이트하고 있다. M2 아이패드 에어에 대한 성능 주장은 정확하며, 9코어 GPU를 기반으로 한다”고 밝혔다. 애플 웹사이트에는 M2 칩이 "이전 세대보다 약 50% 더 빠르다"며, "특히 25% 더 빠른 그래픽 처리 능력을 갖추고 있다”고 명시돼 있다. 애플은 최근 웹 사이트에서 M2 아이패드 에어의 GPU 사양을 기존 10코어에서 9코어로 수정했다. GPU 외에 다른 M2 칩 사양은 변경되지 않았다. 이전 세대 아이패드 프로에는 10코어 GPU가 탑재됐기 때문에 신형 아이패드 에어에 9코어 GPU가 탑재된 것은 놀라운 일이라고 IT매체 맥루머스는 평했다.

2024.06.04 11:01이정현

엔비디아, AI 가속 위한 차세대 GPU·솔루션 대거 공개

[타이베이(대만)=권봉석 기자] "대만은 컴퓨터와 킥보드를 만든 데 이어 이제 데이터센터를 만든다. 나아가 걸어다니는 컴퓨터(로봇)를 만들 것이다. 이 여정은 엔비디아에도 중요한 여정이다." 2일(이하 현지시간) 대만 타이베이 남서부에 위치한 국립대만대학교 스포츠센터에 모인 청중은 젠슨 황 엔비디아 CEO의 발언에 일제히 환호했다. 이날 엔비디아는 오후 7시부터 9시까지 두 시간동안 진행된 기조연설로 공식 일정보다 이틀 일찍 컴퓨텍스 타이베이 2024(이하 '컴퓨텍스 2024') 막을 올렸다. 최대 4천 200여 명을 수용할 수 있는 행사장에는 시작 3시간 전인 오후 4시부터 대만을 포함해 여러 국가와 지역에서 모인 언론 관계자와 애널리스트, 협력사 등 업계 관계자가 모여 성황을 이뤘다. ■ "CPU가 정체된 사이 GPU는 1천 배 빠른 혁신 달성" 이날 젠슨 황 CEO는 "60여 년 전 IBM 시스템 360으로 시작된 컴퓨팅 혁신은 '무어의 법칙' 정체로 성장 동력을 잃었다. 반면 새롭게 등장한 GPU(그래픽처리장치) 기반 가속 컴퓨팅은 최대 8년만에 연산 성능을 최대 1천 배 끌어올리며 혁신을 주도하고 있다"고 강조했다. 그는 "GPU 기반 가속 컴퓨팅은 기존 CPU 대비 속도는 100배 높지만 전력 소모는 3배에 그치며 비용 증가는 15%에 불과하다. 1천 달러 PC에 고작 500달러 GPU를 넣어 가능한 혁신을 데이터센터에서 실행한 결과 'AI 팩토리'를 구현했다"고 설명했다. 젠슨 황 CEO는 작년 컴퓨텍스 기조연설에 이어 올해도 "(GPU를) 사면 살수록 돈을 아낀다"는 지론을 강조했다. 그는 "많은 회사가 오늘도 클라우드에서 수억 달러를 들여 데이터를 처리한다. 정확하지 않을 수 있지만 'CEO 계산법'에 따르면 사면 살수록 돈을 아낀다"고 설명했다. ■ 어려운 AI 쉽게 만드는 NIM 공개 이날 엔비디아는 각종 AI 구현에 필요한 소프트웨어를 마치 꾸러미처럼 엮어 도입 난이도를 낮추는 NIM(엔비디아 추론 서비스)를 공개했다. 엔비디아가 다양한 환경에서 사전 검증한 소프트웨어를 지포스 RTX, 암페어 등 쿠다(CUDA)에서 실행할 수 있다. 젠슨 황 CEO는 "상자 안에 담은 AI 소프트웨어와 공통 API를 이용해 필요한 기능을 쉽게 구현할 수 있다. 가장 적합한 구현 사례는 소매업과 의료 등 수십만 개의 서비스에서 활약하는 고객지원 담당자이며 LLM(거대언어모델)과 AI로 이를 구현할 수 있다"고 설명했다. 젠슨 황 CEO는 "미래에는 응용프로그램을 NIM 조합으로 만들 수 있다. 모든 회사가 NIM을 이용하면 굳이 전문가의 힘을 빌지 않아도 필요한 기능을 이야기하면 다양한 기능을 조합해 사람처럼 작동할 것이다. 이것이 우리의 미래다"라고 예측했다. ■ "블루필드 DPU 기반 스펙트럼X 이더넷, 데이터센터 효율 ↑" 엔비디아는 서버용 GPU를 모아 만든 거대한 데이터센터가 외부에서 하나의 거대한 GPU로 쓰일 수 있다고 설명한다. 그러나 이런 구상을 해결하기 위해서는 인간 두뇌 신경망처럼 데이터를 쉽게 주고 받을 수 있는 고속 데이터 전송이 필요하다. 젠슨 황 CEO는 "데이터를 무조건 순차적으로 전송하는 이더넷은 데이터 정체(congestion)가 일어나면 같은 데이터센터에서 실행되는 다른 AI 모델까지 정체시킨다. 50억 달러 규모 데이터센터에서 이용률이 떨어지면 60억 달러 규모 데이터센터와 다름 없을 정도로 가격 대비 연산 성능을 떨어뜨린다"고 설명했다. 이어 "스펙트럼X 이더넷은 데이터 전송 속도를 재구성해 정체 현상을 최소화하는 블루필드 DPU(데이터처리장치)를 탑재했다. 차기 모델인 스펙트럼 X800은 수천 개, X1600은 수백만 개 규모 GPU로 움직이는 데이터센터를 실현할 것"이라고 강조했다. ■ "올해 '블랙웰' 시작으로 매년 새 GPU 출시" 엔비디아는 지난 3월 중순 GTC 2024 기조연설을 통해 내년 출시할 차세대 서버용 GPU '블랙웰'을 공개한 바 있다. 블랙웰 GPU는 대만 TSMC의 4나노급 공정(4NP)으로 만든 반도체 다이(Die) 두 개를 연결해 만든 칩이며 2천80억 개의 트랜지스터를 집적했다. 다이 두 개는 초당 10TB(테라바이트)의 데이터를 주고 받으며 하나의 칩처럼 작동한다. 이날 젠슨 황 CEO는 "GTC 2024에서 공개한 블랙웰은 개발 단계 제품이며 현재는 블랙웰이 순조롭게 양산에 들어갔다"며 실제 제품을 공개했다. 이어 "블랙웰의 성능을 개선한 '블랙웰 울트라'를 오는 2025년, 내부 구조를 완벽히 새로 설계한 새 GPU '루빈'(Rubin)을 2026년 출시하는 등 1년 단위로 새 서버용 GPU를 출시하겠다"고 덧붙였다.

2024.06.03 01:29권봉석

TSMC, 첨단 패키징 생산능력 내년까지 폭증…수요 절반이 엔비디아

대만 주요 파운드리 TSMC의 최첨단 패키징 생산능력이 첨단 AI 반도체 호황으로 내년까지 큰 성장세를 나타낼 것으로 예상된다. 31일 시장조사업체 트렌드포스에 따르면 TSMC의 CoWoS 생산능력은 올해 150%, 내년 70% 이상 증가할 전망이다. CoWoS는 TSMC가 자체 개발한 2.5D 패키징이다. 칩과 기판 사이에 인터포저라는 얇은 막을 삽입해, 패키징 면적을 줄이고 칩 간 연결성을 높인 것이 특징이다. 현재 CoWoS와 같은 2.5D 패키징이 가장 각광받는 산업은 AI다. AI 가속기에는 고성능 시스템반도체와 HBM(고대역폭메모리)를 함께 집적해야 하는데, 여기에 2.5D 패키징이 쓰인다. 트렌드포스는 "엔비디아 블랙웰 플랫폼의 칩 다이(Die) 크기는 이전 세대 대비 2배"라며 "블랙웰이 주력 제품으로 떠오르면서 엔비디아가 TSMC의 CoWoS 수요의 거의 절반을 차지할 것"이라고 밝혔다. 블랙웰은 TSMC의 4나노 공정 기반의 최신형 고성능 GPU다. 반도체 다이 2개를 연결해 2천80억 개의 트랜지스터를 집적했다. 블랙웰은 올해 3분기 출시를 시작해 4분기부터 본격적으로 출하량이 확대될 것으로 예상된다. HBM 시장 역시 올해 큰 변곡점을 앞두고 있다. 현재 엔비디아 GPU 시리즈의 주류인 H100은 주로 80GB(기가바이트)의 HBM3(4세대 HBM)을 탑재한다. 반면 블랙웰은 288GB의 HBM3E(5세대 HBM)을 채택해, 용량을 이전 대비 3~4배가량 늘렸다. 트렌드포스는 "삼성전자, SK하이닉스, 마이크론 등 주요 메모리3사의 계획에 따르면 HBM 생산량은 내년까지 2배로 늘어날 것으로 예상된다"고 설명했다.

2024.05.31 09:04장경윤

Arm, 3나노 공정 검증 마친 클라이언트용 'Arm CSS' 발표

Arm이 AI 산업을 위한 컴퓨팅 서브시스템(CSS) 및 소프트웨어를 공개했다. 신규 CSS는 최선단 파운드리인 3나노미터(nm) 공정 검증을 거쳐, 현재 양산 준비를 마무리했다. Arm은 30일 온라인 기자간담회를 열고 선도적인 AI 기반 경험을 제공하는 클라이언트용 Arm 컴퓨팅 서브시스템을 발표했다. 클라이언트용 Arm CSS는 플래그십 모바일 시스텝온칩(SoC)를 위한 기본 컴퓨팅 요소를 제공한다. 또한 최신 Armv9 CPU, Immortalis GPU, 3nm(나노미터)에서 생산 가능한 CPU 및 GPU용 물리적 구현과 최신 Corelink 시스템 메모리 관리 유닛(SMMU)을 특징으로 한다. 이번 행사에서 Arm은 소프트웨어 개발자가 Arm CPU에서 가능한 최고의 성능을 원활하게 이용할 수 있도록 지원하는 Arm 클레이디(Kleidi)도 함께 공개했다. Arm Kleidi에는 AI 워크로드를 위한 KleidiAI와 컴퓨터 비전 애플리케이션을 위한 KleidiCV가 포함된다. 클라이언트용 Arm CSS는 30% 이상 향상된 컴퓨팅 및 그래픽 성능을 통해 광범위한 AI, 머신러닝 및 컴퓨터 비전(CV) 워크로드를 위한 59%의 더 빠른 AI 추론을 제공한다. 클라이언트용 CSS의 핵심은 성능과 전력 효율을 극대화하기 위한 Arm의 역대 최고 성능, 효율, 다용도 CPU 클러스터다. 새롭게 출시된 Arm Cortex-X925는 Cortex-X 역사상 전년 대비 가장 높은 성능 향상을 제공한다. 최첨단 3나노미터(nm) 공정을 활용할 경우, 2023년 탑재된 플래그십 스마트폰용 4nm SoC 대비 단일 스레드 성능을 36% 높일 수 있다. AI 기능에서는 41%의 성능 향상을 제공해 LLM(대규모 언어 모델)과 같은 온디바이스 생성 AI의 응답성을 크게 개선한다. 또한 Cortex-A725 CPU는 AI 및 모바일 게임 분야에서 35%의 성능 향상을 제공한다. 이는 최신 Armv9 CPU 클러스터를 채택하는 소비자 기기를 위해 전력 효율성과 확장성을 개선한 Arm Cortex-A520 CPU와 업데이트된 DSU-120에 의해 지원된다. 현재까지 최고의 성능과 효율성을 갖춘 GPU인 Arm Immortalis-G925는 광범위한 주요 모바일 게임 애플리케이션에서 37% 더 높은 성능을 제공하며, 여러 AI 및 머신러닝 네트워크에서 측정할 경우 34% 더 높은 성능을 제공한다. Immortalis-G925는 플래그십 스마트폰 시장을 위해 출시된 반면, 확장성이 뛰어난 새로운 GPU 제품군인 Arm Mali-G725 및 Mali-G625 GPU는 프리미엄 모바일 핸드셋부터 스마트워치 및 XR 웨어러블에 이르기까지 광범위한 소비자 기기 시장을 대상으로 한다. 한편 Arm은 전 세계 수백만 명의 개발자가 차세대 AI 지원 애플리케이션을 개발하는 데 필요한 성능, 툴 및 소프트웨어 라이브러리에 지원하는 데 전념하고 있다. 개발자들이 이러한 혁신을 최고의 성능으로 빠르게 구현할 수 있도록 Arm은 AI 워크로드를 위한 KleidiAI와 컴퓨터 비전 애플리케이션을 위한 KleidiCV를 포함하는 Arm Kleidi를 출시한다. KleidiAI는 AI 프레임워크 개발자를 위한 컴퓨팅 커널 세트로, NEON, SVE2 및 SME2와 같은 주요 Arm 아키텍처 기능을 지원해 다양한 디바이스에서 Arm CPU에서 설정 가능한 최고의 성능을 원활하게 이용할 수 있도록 한다. KleidiAI는 파이토치(PyTorch), 텐서플로우(Tensorflow), 미디어파이프(MediaPipe) 및 메타 라마 3(Meta Llama 3)와 같은 인기 있는 AI 프레임워크와 통합되며, 이후 Arm이 새롭게 출시할 추가 기술과도 적합하도록 이전 버전과 호환이 가능하다.

2024.05.30 16:30장경윤

델, 엔비디아 블랙웰 GPU 8개 탑재 4U 서버 공개

[라스베이거스(미국)=김우용 기자] 델테크놀로지스가 엔비디아와의 협력을 확대하며, 엔비디아 블랙웰 GPU를 한 랙에 최대 72개 장착할 수 있는 파워엣지 서버 신제품을 공개했다. 단일 서버 크기는 기존 제품대비 3분의2로 줄이면서 더 높은 성능과 대역폭을 제공한다. 델테크놀로지스는 21일(현지시간) 미국 라스베이거스에서 개최한 '델테크놀로지스월드(DTW) 2024' 컨퍼런스에서 '엔비디아 기반 델 AI 팩토리'에 새로운 서버, 엣지, 워크스테이션, 솔루션, 서비스 등을 추가한다고 발표했다. '엔비디아 기반 델 AI 팩토리'는 델의 AI 포트폴리오를 '엔비디아 AI 엔터프라이즈' 소프트웨어 플랫폼과 통합한 오퍼링이다. 엔비디아 텐서 코어 GPU, 엔비디아 스펙트럼-X 이더넷 네트워킹 패브릭 및 엔비디아 블루필드 DPU 등의 기술을 기반으로 한다. 고객은 필요에 따라 맞춤화된 통합 기능 또는 사전 검증된 전체 스택 솔루션을 구매해 검색증강생성(RAG), 모델 학습 및 추론과 같은 AI 사용 사례에 적용할 수 있다. 신제품 '델 파워엣지 XE9680L'은 기존 모델 대비 더 작은 4U 폼 팩터에 8개의 엔비디아 블랙웰 아키텍처 GPU를 탑재해 높은 성능을 제공한다. 기존 모델인 '델 파워엣지 XE9680'의 경우 6U 크기 제품이었는데, '델 파워엣지 XE9680L'는 4U 크기로 작아졌다. 업계 표준 x86 랙 상에서 엔비디아 GPU를 최고 수준의 집적도를 자랑한다. 기존 모델 대비 노드당 33% 더 높은 GPU 집적도를 제공한다. 20% 더 많은 5세대 PCIe 슬롯을 장착하고, 노스-사우스 네트워크 확장 용량을 2배로 늘렸다. 델 파워엣지 XE9680L서버는 '다이렉트 리퀴드 쿨링' 기술로 CPU 및 GPU의 냉각 용량을 높여 전반적인 효율성을 향상시켰다. 손쉬운 서비스가 가능하도록 설계됐으며, 랙 스케일 구축 및 현장 설치가 용이하게끔 공장에서부터 완벽하게 구성이 완료된 상태로 출하된다. 델은 업계에서 가장 높은 집적도와 에너지 효율의 랙 규모 턴키 솔루션을 공급함으로써 대규모 GPU 가속 구축의 가치 실현 시간을 단축한다. 델과 엔비디아는 향후 단일 랙에서 64개의 GPU를 지원하는 공냉식 설계 또는 단일 랙에서 72개의 엔비디아 블랙웰 GPU를 지원하는 수냉식 서례 등 다양한 옵션을 선보일 예정이다. 델테크놀로지스는 '엔비디아 AI 엔터프라이즈' 소프트웨어의 배포를 자동화하는 엣지 오케스트레이션 플랫폼 '델 네이티브엣지'를 선보였다. 개발자와 IT 운영자는 이를 이용해 엣지에 AI 애플리케이션 및 솔루션을 손쉽게 구축할 수 있다. 제조업이나 유통업계의 다양한 기업들이 엔비디아 메트로폴리스 영상 분석, 엔비디아 리바 음성 및 번역 기능, 엔비디아 NIM 추론 마이크로서비스를 포함한 새로운 델 네이티브엣지 블루프린트를 통해 빠르고 정확하게 엣지 데이터를 분석할 수 있다. 마이클 델 델테크놀로지스 회장은 “전세계가 AI를 활용하기 위해 빠르게 움직이고 있으며, 이것이 바로 엔비디아와 긴밀하게 협력하는 중요한 이유"라며 "엔비디아 기반 델 AI 팩토리 포트폴리오의 확장은 양사 공동의 사명을 이어가는 것으로, 더 많은 기업과 기관들이 AI를 보다 손쉽게 구축하여 과감하게 차세대 기술에 도전할 수 있도록 하는 것을 목표로 한다”고 밝혔다. 젠슨 황 엔비디아 CEO는 "생성형 AI는 새로운 유형의 컴퓨팅 인프라, 즉 인텔리전스를 생성하는 AI 팩토리를 필요로 한다"며 "엔비디아와 델은 함께 협력해 전세계 다양한 산업군에 컴퓨팅, 네트워킹, 소프트웨어를 포함한 풀스택 오퍼링을 제공해 코파일럿, 코딩 어시스턴트, 가상 고객 서비스 에이전트, 산업용 디지털 트윈 등을 구축할 수 있도록 지원할 계획"이라고 강조했다. DTW 2024 첫째날 기조연설에서 마이클 델 회장이 델 파워엣지 XE9680L을 소개하자, 젠슨 황 CEO는 “그런 말로 나를 유혹하지 마라”며 “랙에 72개의 블랙웰이 있다니 그것은 나를 매우 흥분하게 만든다”며 환하게 웃었다. 한편, 새롭게 공개된 '디지털 어시스턴트를 위한 델 생성형 AI 솔루션'은 델과 엔비디아의 풀스택 솔루션을 기본으로 사용자가 개인화된 셀프서비스를 경험할 수 있게끔 디지털 어시스턴트의 빠른 구축을 돕는다. 함께 발표된 '디지털 어시스턴트를 위한 구축 서비스'는 디지털 어시스턴트 솔루션을 설계, 계획, 구현, 테스트 및 확장할 수 있도록 지원한다. 양사 공동 엔지니어링을 통해 설계된 풀스택 자동화 솔루션인 '엔비디아 기반 델 AI 팩토리'는 다양한 활용 사례에 대한 AI 환경을 빠르게 구축할 수 있게끔 돕는다. 가치 실현 시간을 최대 85% 앞당기며, 엔비디아 추론 마이크로서비스(NIM)'와 함께 사용할 경우 딜리버리에서 추론 작업 실행에 걸리는 전체 시간을 획기적으로 단축한다. '프리시전 AI 워크스테이션 기반 RAG를 위한 델 가속기 서비스'는 AI 개발 주기를 단축하고 AI 애플리케이션 성능을 향상시킨다. 엔비디아 AI 워크벤치 툴킷을 탑재한 델 프리시전 워크스테이션 기반 RAG를 통해 맞춤형 대규모 언어모델을 활용함으로써 안전한 환경에서 신속한 프로토타이핑이 가능하다. '델 파워엣지 XE9680L' 서버는 올해 하반기 중 출시될 예정이다. '델 네이티브엣지'의 엔비디아 지원은 하반기를 시작으로 순차적으로 제공된다. '디지털 어시스턴트를 위한 델 생성형 AI 솔루션' 및 '디지털 어시스턴트를 위한 구현 서비스'는 현재 북미 지역에 한해 제공되고 있다. '프리시전 AI 워크스테이션 기반 RAG를 위한 델 가속 서비스'는 북미, EMEA, 아태지역의 일부 국가에 한해 하반기 중 출시될 예정이다. 제프 클라크 델테크놀로지스 제품 및 운영부문 부사장은 DTW 2024 둘째날 기조연설에서 “기존의 데이터센터 아키텍처는 생성에이아이 워크로드에 적합하지 않다는게 자명해졌다”며 “파워엣지 XE9680L은 한 랙에서 72개 블랙웰 GPU를 탑재할 수 있는데, 이 GPU는 수천, 수만개로 늘어날 수 있다”고 말했다. 그는 “옛 시스템에서 벗어나 완전히 다른 방식으로 구축하고 생성형 AI 워크로드에 맞춰 최적화하면서 발전해 나가야 한다”고 덧붙였다.

2024.05.22 07:45김우용

TSMC "HBM4부터 로직다이 직접 제조"…삼성과 주도권 경쟁 예고

TSMC가 6세대 고대역폭메모리(HBM4)부터 그동안 메모리 영역이었던 로직(베이스) 다이 제조에 직접 나선다고 선언하면서 향후 HBM 시장에 주도권 변화가 예고된다. 앞서 지난 4월 SK하이닉스는 TSMC와 HBM4 공동 개발을 공식 발표한 바 있어 양사의 동맹이 주목되고 있는 상황이다. 반면 메모리와 파운드리 사업을 모두 관장하는 삼성전자는 토탈 패키징 솔루션을 앞세워 경쟁력을 강화한다는 방침이다. AI 시대 HBM 시장이 확대되고 있는 가운데 칩설계, 메모리, 파운드리 업계의 주도권 경쟁이 더욱 심화될 수 있음을 시사하는 대목이다. ■ TSMC, 12나노·5나노 로직다이 직접 생산 대만 파운드리 업체 TSMC는 지난 14일 네덜란드 암스테르담에서 열린 'TSMC 유럽 기술 심포지엄' 행사에서 HBM4에 12나노미터(mn·10억분의 1m)급과 5나노급 로직(베이스) 다이를 사용하겠다고 밝혔다. HBM은 여러 개 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 대폭 끌어올린 고성능 제품이다. 시장에 출시된 5세대 HBM(HBM3E)까지는 D램과 베이스 다이를 SK하이닉스와 같은 메모리 업체가 생산하고, TSMC는 이를 받아 기판 위에 GPU(그래픽처리장치)와 나란히 패키징(조립)한 후 엔비디아에 공급해 왔다. 베이스 다이는 GPU와 연결돼 HBM을 컨트롤하는 역할을 수행한다. 그러나 내년 양산 예정인 HBM4부터는 TSMC가 12나노 또는 5나노급 로직 다이를 활용해 직접 만든다. TSMC는 이 작업을 위해 N12FFC+(12나노)와 N5(5나노) 프로세스의 변형을 사용할 계획이다. 현재 SK하이닉스, 마이크론 등은 메모리 팹이 고급 로직 다이를 생산할 수 있는 장비를 갖추고 있지 않기 때문에 TSMC는 HBM4 제조 프로세스에서 유리한 위치를 차지할 것으로 기대하고 있다. TSMC의 설계 및 기술 플랫폼 수석 이사는 "우리는 HBM4 풀 스택과 고급 노드 통합을 위해 주요 HBM 메모리 파트너와 협력하고 있다"고 전했다. TSMC에 따르면 12FFC+ 프로세스는 스택당 대역폭이 2TB/초가 넘는 12단(48GB) 및 16단(64GB)을 구축할 수 있어 HBM4 성능을 달성하는데 적합하다. N5로 제작된 베이스 다이는 훨씬 더 많은 로직을 포함하고 전력을 덜 소비하므로 더 많은 메모리 대역폭을 요구하는 AI 및 HPC(고성능컴퓨팅)에 유용할 전망이다. HBM4는 더 많은 메모리 용량을 수용하기 위해 현재 사용되는 기술보다 더 발전된 패키징 방법을 채택해야 한다. 이에 TSMC는 자사 첨단 패키징 기술인 'CoWoS' 기술을 업그레이드 중이라고 밝혔다. CoWoS는 칩을 서로 쌓아서 처리 능력을 높이는 동시에 공간을 절약하고 전력 소비를 줄이는 2.5D 패키지 기술이다. TSMC는 "HBM4를 위해 CoWoS-L과 CoWoS-R을 최적화하고 있다"라며 "CoWoS-L과 CoWoS-R 모두 8개 이상의 레이어를 사용하고, 신호 무결성으로 2000개가 넘는 상호 연결의 HBM4 라우팅을 가능하게 한다"고 설명했다. ■ 삼성전자, 메모리-파운드리 토탈 솔루션 강점 앞세워 삼성전자는 첨단 공정 파운드리와 메모리 사업을 동시에 공급하는 맞춤형 토탈 솔루션을 강점으로 내세우고 있다. 메모리에서 HBM을 만든 다음 자체 파운드리 팹에서 패키징까지 모두 가능하다는 의미다. 반도체(DS) 부문 미주지역을 총괄하는 한진만 DSA 부사장은 올 초 기자들을 만나 “최근 고객사들은 파운드리 로직 공정에 자신의 IP나 새로운 IP를 넣어서 기존 메모리와 다른 맞춤형(커스터마이징) 솔루션을 만들고 싶다는 요구를 많이 한다”라며 “이것이 진정한 메모리와 파운드리의 시너지다”고 강조했다. 현재까지 파운드리 시장에서는 AI 반도체 1위 엔비디아 물량을 차지한 TSMC가 앞서 나가고 있다. 또 엔비디아에 HBM3에 이어 HBM3E까지 공급을 확정한 SK하이닉스 또한 HBM 시장 1위를 차지한다. 엔비디아가 거래처 다변화를 추진함에 따라 삼성전자와 마이크론도 HBM을 공급할 가능성이 열려 있다. 반도체 업계 관계자는 "SK하이닉스의 HBM이 각광받는 이유는 품질이 좋은 것도 있지만, TSMC와 밀접한 협력 관계도 영향을 줬을 것"이라며 “TSMC가 HBM4 로직 다이에서 파운드리 경쟁사인 삼성전자와 협력하는 것이 쉽지 않아 보인다. 삼성전자는 HBM을 두고 메모리와 파운드리 두 부분에서 경쟁해야 하는 상황이 됐다”고 말했다.

2024.05.21 09:09이나리

삼성SDS 황성우 "델 덕에 10만명에게 생성형 AI 제공"

[라스베이거스(미국)=김우용 기자] "작년 GPU 서버가 부족했을 때 마이클 델이 구원자였다. 그의 도움 덕분에 이미 생성형 AI 서비스를 고객사에 제공하고 있고, 사용자가 10만명을 넘었다. 삼성SDS는 사용자에게 빠르고 저렴하게 서비스를 제공하기 위해 많은 기술적 노력을 기울였고, 델 파워엣지 서버는 그 과정에서 큰 역할을 했다." 황성우 삼성SDS 대표는 20일(현지시간) 미국 라스베이거스에서 개최된 '델테크놀로지스월드 2024' 컨퍼런스 첫날 기조연설 무대에 올라 이같이 밝혔다. 황성우 대표는 "기업 사용자는 LLM에 질문할 때 긴 응답 시간을 견딜 수 없고, 기업은 최상의 솔루션에 많은 비용을 지불하고 싶어하지 않는다"며 "엔비디아와 파트너십을 기반으로 출범한 델 AI 팩토리는 강력한 데이터 보안과 맞춤형 AI 서비스 개발을 통해 기업의 AI 주권 확립에 기여할 것으로 기대된다"고 말했다. 삼성SDS는 올해 기업용 생성형 AI 도구인 '브리티 코파일럿(Brity co-pilot)'과 자연어 인터페이스 앱을 클라우드에 쉽게 올리게 하는 PaaS '패브릭스(FabriX)'를 선보였다. 작년초부터 촉발된 생성형 AI 트렌드로 많은 기업이 앞다퉈 대규모언어모델(LLM) 구축과 활용에 나섰다. 하지만, LLM 학습과 추론에 필수 인프라인 엔비디아 GPU 공급 부족 상황이 심화됐고, 기업은 GPU를 확보하지 못해 LLM 활용에 애를 먹었다. 삼성SDS는 델테크놀로지스의 GPU 서버를 적정 시기에 공급받아 타사 대비 이른 시점에 생성형 AI 서비스를 구축할 수 있었다. 델테크놀로지스 파워엣지 XE9680 서버는 8개 엔비디아 GPU를 탑재할 수 있는 AI 최적화 서버다. 각 기업의 온프레미스 생성형 AI 환경에 공급되며 큰 인기를 누렸다. 델테크놀로지스 회계연도 2024년 4분기동안 AI 서버 매출은 8억달러에 달했다. 황 대표는 "제조는 표준화돼 있고, 상당 부분 역할에 따라 자동화할 수 있지만, 사무는 인간의 언어를 기반으로 하기에 자동화하기 어려웠다"며 "LLM은 인간의 언어와 의도를 잘 이해하기 때문에 사무 자동화에 큰 도움일 될 것"이라고 밝혔다. 그는 "나는 이를 하이퍼 오토메이션이라고 부른다"며 "삼성SDS는 언어별로 서비스와 솔루션을 자동화할 수 있는 방법을 찾으려 노력해왔다"고 강조했다. 삼성SDS는 생성형 AI를 온프레미스에 구축했다. 이에 대해 황 대표는 "기업 고객은 LLM을 사용한 하이퍼 오토메이션에 큰 관심을 갖고 있지만, 자세한 내부 정보를 LLM에 요청해야 하고, LLM이 회사의 핵심 데이터를 참조하도록 해야 해서 보안 우려를 갖고 있다"며 "기업 고객에게 사이트에서 작동하는 모델을 제공하는 것이 중요해졌다"고 설명했다. 그는 미래의 모든 컴퓨터가 자연어를 활용하게 될 것으로 전망했다. 그는 "미래의 모든 컴퓨터는 언어 인터페이스로 앱과 솔루션을 쉽게 업로드하고 실행할 수 있도록 설계될 것이고, 어쩌면 GPU 중심 컴퓨터 세계가 올지도 모른다"며 "고객이 언어 인터페이스를 통해 쉽고 저렴한 서비스를 받을 수 있도록 삼성 클라우드 플랫폼을 변화시키려고 노력할 것"이라고 밝혔다.

2024.05.21 07:31김우용

인텔, 데이터센터 GPU 맥스 단종 절차 돌입

인텔이 2022년 11월 출시한 '데이터센터 GPU 맥스'(폰테베키오) 단종 절차에 들어갔다. 데이터센터와 슈퍼컴퓨터 등 기존 도입 계약을 맺은 고객사에는 계속 공급하지만 신규 수요처는 찾지 않을 방침이다. 데이터센터 GPU 맥스는 인텔이 자체 개발한 Xe 그래픽코어 128개와 최대 128GB HBM2e, 408MB 람보 L2 캐시 등을 EMIB과 포베로스(FOVEROS) 패키징 기술로 결합한 서버용 GPU다. 2019년 첫 구상도가 등장했고 2021년 팻 겔싱어 CEO가 시제품을 처음 소개했다. 2022년 11월에는 개발명 '폰테베키오' 대신 '데이터센터 GPU 맥스'라는 이름을 얻어 정식 출시됐다. 데이터센터 GPU 맥스의 가장 큰 수요처는 인텔과 HPE가 지난 해 6월 미국 아르곤 국립연구소에 구축한 슈퍼컴퓨터 '오로라'(Aurora)이며 총 6만 3천744개를 탑재했다. 미국 서버 전문매체 서버더홈은 14일(미국 현지시간) 서버 제조사와 인텔 관계자를 인용해 "데이터센터 GPU 맥스는 기존 고객사에 계속해서 공급되지만 신규 수요처는 찾지 않을 방침"이라고 밝혔다. 인텔은 데이터센터 GPU 맥스 후속 제품인 '리알토 브리지'(Rialto Bridge) 출시 계획을 지난 해 3월 취소했다. 대신 내년 후속 제품인 GPU 기반 가속기 '팰콘 쇼어'(Falcon Shore)를 내년 출시 예정이다.

2024.05.15 09:04권봉석

한국IDC "올해 국내 서버 시장 GPU 공급확대로 성장 전환"

한국IDC는 최근 발간한 '국내 엔터프라이즈 인프라스트럭처 서버 컴핏 보고서'에서 국내 서버 시장이 향후 5년간 연평균 성장률(CAGR) 9.9%를 기록하며 2028년 4조7천246억원의 매출 규모를 형성할 것이라고 30일 밝혔다. 국내 서버 시장은 주요 GPU 제조사의 공급이 회복되며 2024년부터 성장세로 전환할 것으로 분석됐다. IDC 보고서에 따르면 작년 국내 서버 시장 매출 규모는 전년 대비 5.1% 감소한 2조9천521억원으로 나타났다. 신규 데이터센터 증가에도 불구하고 서버 증설 물량이 기대에 미치지 못한 점이 시장 감소의 주요 원인으로 꼽힌다. 2022년말부터 생성형AI 시장의 가파른 성장으로 인해 기업 IT예산이 GPU 서버에 집중되며 기존 데이터센터 랙서버 물량의 감소, GPU 서버 공급 지연 문제 등의 요인이 시장 하락에 영향을 미친 것으로 분석됐다. 국내 서버 시장은 그간 기업의 디지털화를 지원하는 클라우드가 성장의 동력이었으나 재작년부터 생성형 AI 시장이 급격히 성장하며 시장 판도가 바뀌었다. 작년 정부의 공공 클라우드 전환 사업 예산 삭감으로 투자 방향을 잃은 국내 클라우드 사업자들이 생성형AI를 위한 GPU 서버 확보에 IT투자를 집중하는 추세다. 특히 생성형AI를 구축하기 위해서 많은 데이터의 트레이닝을 위한 8GPU 서버가 선호되며8GPU 서버 공급이 가능한 서버 벤더가 국내 서버 시장을 주도했다. 향후 제조, 통신, 공공, 금융 등 다양한 산업의 GPU서버 도입도 증가하면서 생성형AI 시장의 저변이 확대될 것으로 예상된다. 엔비디아가 서버 GPU를 단독으로 공급하면서 수요가 몰리는 경향이 있었으나, AMD도 서버 GPU를 출시하며 향후 인퍼런싱 단계에서 GPU외에 다른 가속기 수요도 증가할 전망이다. 아직 생성형AI의 초기 단계로 트레이닝을 위한 8GPU 서버의 수요가 빠르게 증가하고 있지만 본격적으로 생성형AI가 상용화되는 시점에서는 인퍼런싱에 대한 수요도 증가하면서 8GPU 서버와 단일 GPU 벤더로 집중되는 현상은 해소될 것으로 예상된다. IDC는 서버를 크게 x86 프로세서를 사용하는 x86서버와 그 외 비x86 서버로 구분하고 있다. 대부분의 플랫폼이 x86 서버 기반으로 전환되면서 국내에서 대략적으로 90% 이상이 x86 서버로 공급되고 있으나 일부 공공 및 금융권에서는 여전히 미션크리티컬 서버로 비x86 서버 기반의 유닉스 시스템이 운영되고 있다. 저전력으로 운영되는 ARM 서버도 글로벌 클라우드 서비스 사업자 중심으로 빠르게 성장하는 추세다. 이런 기조를 바탕으로 국내 비x86 서버 시장의 향후 연평균 성장률은 5.9%를 기록하며 2028년에는 3천866억원의 매출 규모를 형성할 전망이다. 국내 x86 서버 시장 역시 기업의 AI 및 클라우드 등 디지털 전환을 주도하면서 향후 5년간 연평균 성장률은 10.3%로 증가하여 2028년에는 4조3천379억원의 매출 규모를 기록할 것으로 예상된다. 한국IDC에서 엔터프라이즈 인프라 시장 리서치를 담당하고 있는 김민철 수석연구원은 “서버 시장의 경우 아직 생성형AI의 초기 단계지만 GPU 서버에 대한 투자 과열과 늘어나는 GPU는 소비 전력 증가 및 발열 상승으로 이어지고 있다"며 "이는 데이터센터의 운영 비용 증가로 이어져 앞으로 수도권의 추가적인 데이터센터 구축은 점차 힘들어질 것”이라고 설명했다. 그는 "현재 생성형AI는 대부분 LLM 기반으로 운영되고 있으나, 향후에는 이미지, 사운드, 비디오 등 다양한 고용량 데이터가 증가하며 AI기술을 위한 GPU 서버 공급이 더욱 증가할 것"이라고 전망했다.

2024.04.30 09:46김우용

SK하이닉스, TSMC 테크 행사서 'HBM·패키징 협력 관계' 강조

SK하이닉스는 24일(미국시간) 미국 캘리포니아 주 산타클라라에서 열린 'TSMC 2024 테크놀로지 심포지엄'에 참가했다고 25일 밝혔다. SK하이닉스는 이번 행사에서 AI 메모리인 HBM(고대역폭메모리)의 선도적인 경쟁력을 알리고, TSMC의 첨단 패키지 공정인 CoWoS(Chip on Wafer on Substrate) 협업 현황 등을 공개했다. CoWoS는 칩들을 실리콘 기반의 인터포저 위에 올려 한꺼번에 패키징하는 기술이다. TSMC 2024 테크놀로지 심포지엄은 TSMC가 매년 주요 파트너사들을 초청해 각 사의 신제품 및 신기술을 공유하는 자리다. SK하이닉스는 이 행사에서 'Memory, The Power of AI'라는 슬로건을 걸고 업계 최고 성능인 HBM3E를 선보여 많은 관심을 끌었다. 이 제품은 최근 AI 시스템에 탑재해 평가했을 때 I/O(입출력 통로)당 최대 10Gb/s(기가비트/초)의 데이터 전송 속도를 기록하는 등 업계 최고 수준을 보인 것으로 알려졌다. 또한 SK하이닉스는 TSMC와 협력존을 열고 회사가 HBM 리더십을 확보하는 데 CoWoS 분야에서의 협력이 중요했다고 강조하며, 차세대 HBM 등 신기술을 개발하기 위해 양사가 더 긴밀하게 협업해 나갈 계획이라고 밝혔다. 이 밖에도 SK하이닉스는 AI 산업을 지원할 다양한 고성능 제품군을 선보였다. 인터페이스를 하나로 통합한 CXL 메모리, 서버용 메모리 모듈인 MCRDIMM 및 3DS RDIMM, 온디바이스 AI에 최적화된 LPCAMM2 및 LPDDR5T, 그리고 차세대 그래픽 D램인 GDDR7 등 다양한 라인업을 공개했다. 본 행사에 앞서 22일(미국시간) 진행된 워크숍에서는 권언오 SK하이닉스 부사장(HBM PI 담당), 이재식 부사장(PKG Engineering 담당)이 'HBM과 이종 집적 기술' 등에 관해 발표를 진행했다. SK하이닉스는 AI 메모리 선도 경쟁력을 강화하기 위해 기술, 비즈니스, 트렌드 등 다방면에서 파트너와의 협력 관계를 지속해 나간다는 계획이다.

2024.04.25 18:21장경윤

최태원 회장, 젠슨 황 엔비디아 CEO 만나 'AI 파트너십' 논의

최태원 SK그룹 회장이 미국 주요 팹리스 기업인 엔비디아의 젠슨 황 최고경영자(CEO)와 만남을 가졌다. 업계는 두 인사가 AI 반도체 분야에서의 협력 강화 방안을 논의했을 것으로 보고 있다. 최태원 회장은 25일 사회관계망서비스(SNS) 인스타그램에 젠슨 황 엔비디아 CEO와 함께 찍은 사진을 게재했다. 장소는 미국 산타클라라 엔비디아 본사로 추정된다. 사진에서 최 회장과 황 CEO는 함께 엔비디아의 브로슈어에 적힌 황 CEO의 자필 메시지를 보며 대화를 나누는 모습이 담겼다. 황 CEO는 최 회장의 영어 이름인 토니(Tony)를 지칭하며 "AI와 인류의 미래를 함께 만들어가는 파트너십을 위해!"라는 내용의 자필 편지를 전했다. 업계는 두 인사가 이번 만남으로 AI 산업에서의 협력 강화를 모색했을 것으로 관측하고 있다. 엔비디아는 미국 주요 팹리스 기업으로, AI 산업에 필수적으로 활용되고 있는 고성능 GPU(그래픽처리장치) 및 AI 가속기를 개발하고 있다. AI용 반도체 시장에서 엔비디아가 차지하는 점유율은 80% 이상으로 압도적이다. SK하이닉스는 지금까지 엔비디아의 AI반도체에 고대역포메모리(HBM)을 독점 공급하며 주도권을 쥐고 있다. 지난 3월에는 4세대 HBM 제품인 8단 HBM3E를 가장 먼저 공급하면서 양사는 공고한 협력 체계를 유지하고 있다. 한편, 업계에서는 최태원 회장이 HBM 경쟁사인 삼성전자와 마이크론을 의식하고 젠승 황 CEO를 만난 것이란 해석이 나온다. 지난해 SK하이닉스는 엔비디아에 HBM3을 독자 공급해 왔는데, 엔비디아가 HBM3E부터 공급망 다각화에 나서면서 경쟁이 심화되고 있기 때문이다. 앞서 젠승 황 CEO는 지난달 미국 새너제이에서 열린 엔비디아 연례 개발자 콘퍼런스 'GTC 2024'에서 삼성전자 부스를 방문했으며, 전시된 삼성의 12단 HBM3E에 "젠슨 승인(JENSEN APPROVED)"이라고 사인하기도 했다. '승인'에 대한 구체적인 의미는 알려지지 않았지만, 업계에서는 삼성전자가 엔비디아에 HBM3E 공급한다는 기대감이 높아진 상태다.

2024.04.25 18:10장경윤

지코어, 엔비디아 파트너 네트워크 어워드 '산업 혁신기업 부문' 수상

퍼블릭 클라우드, 엣지 컴퓨팅 및 엣지 AI 전문기업 지코어는 '2024 EMEA(유럽·중동·아프리카) 엔비디아 파트너 네트워크 어워드'에서 엔비디아 GPU를 기반으로 한 획기적인 AI 음성-텍스트 변환 솔루션의 성공적인 출시로 '산업 혁신 부문'에서 높은 평가를 받았다고 25일 밝혔다. '엔비디아 파트너 네트워크 어워드'는 가속 컴퓨팅 및 AI 분야에서 변함없는 노력과 혁신 정신을 보여준 파트너의 탁월한 공로를 치하하기 위해 마련된 것으로, 이번에 지코어가 받은 '산업 혁신상'은 특정 산업 분야에서 혁신을 주도한 파트너에게 수여되는 상이다. 지코어는 앞서 AI를 사용해 영어 음성을 룩셈부르크어 텍스트로 변환하는 최초의 AI 음성-텍스트 번역 학습 모델을 선보였다. 이 모델을 사용하면 연극, 영화, 음악 등 다양한 매체에 녹음된 영어 음성 전체를 룩셈부르크어로된 텍스트로 즉시 번역이 가능하고, 이를 영화 자막 등에 활용할 수 있다. 지코어의 이번 음성-텍스트 변환 모델은, 2억 4천400만개의 가중치를 포함하는 오픈 소스 위스퍼(Whisper) 모델의 축소 버전인 '위스퍼스몰(Whisper Small)을 기반으로 구축됐다. 컴퓨팅 학습 리소스에 대한 엄청난 수요를 충족하기 위해 지코어는 엔비디아 A100 텐서 코어 GPU로 구동되는 하이엔드 솔루션을 사용했다. 현재 지코어는 이 솔루션이 컨퍼런스 및 행사에서 사용될 수 있도록 실시간 번역을 활성화하는 모델을 개발하고 있다. 향후에는 영어 외에 프랑스어와 독일어 등의 언어를 추가해 음성의 텍스트 변환 기능을 언어를 초월한 의사소통의 핵심 도구로 만들어 나간다는 계획이다. '음성-텍스트 변환' 모델은 지코어의 최첨단 엣지 AI 솔루션의 일부이며, 엔비디아 GPU를 기반으로 한 AI 학습용 GPU 클라우드 및 엣지에서의 AI 추론을 포함한다. 안드레 레이텐바흐 지코어 CEO는 “지코어의 AI 혁신에 대한 끊임없는 도전이 엔비디아 파트너 네트워크 어워드에서 인정 받게 되어 매우 뜻깊게 생각한다”며 “언어의 종류를 초월해 누구나 보다 원활하고 효율적으로 의사소통 할 수 있도록 지코어는 획기적인 엣지 AI 서비스를 선도하며 새로운 표준을 제시해 나갈 것”이라고 전했다. 엔비디아 EMEA 채널 디렉터인 더크 바푸스는 “AI는 여러 언어를 번역하는 능력을 통해 소통과 연결을 촉진한다”며 “지코어는 엔비디아의 GPU를 기반으로 영어 음성을 룩셈부르크어 텍스트로 번역해 낸 최초의 혁신적 성과를 높게 인정 받은 것”이라고 밝혔다.

2024.04.25 12:36김우용

中, 슈퍼마이크로·델 등 통해 엔비디아 AI칩 '우회 수급'

중국의 대학 및 연구기관이 수입이 금지된 미국 엔비디아의 AI 칩을 리셀링(되팔기) 방식으로 우회 수급했다고 로이터통신이 23일(현지시간) 보도했다. 로이터가 입수한 입찰 문서에 따르면, 10개의 구매자는 미국 슈퍼마이크로, 델, 대만 기가바이트가 제작한 서버 제품에서 엔비디아의 고성능 AI 반도체를 확보했다. 특히 지난해 11월부터 올해 2월 말 사이 진행된 입찰에는 엔비디아의 가장 진보된 칩 중 일부가 포함됐다. 구매자는 중국과학원, 산둥인공지능연구소, 후베이지진관리국, 국영 항공연구센터, 우주과학센터 등이다. 해당 칩들을 되판 기업은 이름이 잘 알려지지 않은 중국 소매업체들로 나타났다. 다만 이 업체들이 미국의 대중(對中) 반도체 수출 규제가 강화되기 전에 확보한 재고를 판매한 것인지는 알려지지 않았다고 로이터통신은 전했다. 앞서 미국은 지난 2022년 9월 엔비디아의 AI 반도체인 A100, H100의 중국 수출을 국가 안보상의 이유로 금지시킨 바 있다. 이후 지난해 10월에는 수출 제한 범위를 A800, H800 등 저사양 제품으로도 확대했다. 이와 관련해 엔비디아 대변인은 "해당 입찰은 수출 규제 이전에 보급돼 널리 사용 가능한 제품"이라며 "이는 협력사 중 어느 누구도 규제를 위반했다는 사실을 나타내지 않으며, 전 세계적으로 판매되는 제품 중 무시할 수 있는 부분"이라고 답변했다.

2024.04.24 09:04장경윤

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

트럼프 "캐나다와 무역협상 중단"…디지털세 문제 삼아

삼성 파운드리 '2세대 2나노' 공정 본격화...외부 고객사 확보 첫 발

우주에서 신발 만든다…어떤 깜짝 혁신 나올까

내란 특검, 윤석열 대면조사 시작...체포 방해, 비화폰 삭제 지시 대상

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.