• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'DGX-A100 GPU'통합검색 결과 입니다. (189건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

[현장] 여·야도 AI로 뭉쳤다…하정우 과실연 대표 "韓 특색 담은 AI 국가 프로젝트 만들자"

"대한민국이 인공지능(AI) 주권을 유지하고 글로벌 AI 3대 강국으로 도약하려면 거대 AI 이니셔티브가 필수적입니다. 국가가 나서 데이터와 그래픽처리장치(GPU)를 산업계에 대규모로 공급하고, 꾸준한 인재 육성을 통해 한국이 세계 시장으로 나가도록 지원해야 합니다." 하정우 바른 과학기술사회 실현을 위한 국민연합(과실연) 공동대표 겸 AI 미래포럼 공동의장은 21일 오전 국회에서 열린 '제2차 한국 미래 신기술 발전을 위한 AI·모빌리티 신기술 전략 조찬 포럼'에서 이같이 강조했다. 이날 하 대표는 '코리아 글로벌 AI 원팀(Korea Global AI One-Team)' 이니셔티브를 처음 제안했다. 이 계획은 국가 주도의 산·학·연 대규모 AI 프로젝트로, 정부가 지휘하고 기업들이 실행해 '원팀(One-Team)'이라는 가칭이 붙었다. 이 계획의 핵심은 정부가 나서 데이터와 GPU를 확보하는 것이다. 우선 대규모 GPU 센터를 구축해 최소 1만 장의 GPU를 확보한 후 이를 학계·스타트업과 국내 AI 대기업에 절반씩 제공하는 것이 골자다. 또 가격이 비싸 확보가 다소 제한되는 논문 데이터를 정부가 구매하고 국내 기업이 해외에서 사업을 할 수 있도록 외국어 데이터도 획득해야 한다는 내용이 포함됐다. 하 대표는 'AI 원팀'을 고안한 목적이 한국의 AI 3대 강국 도약에 있음을 강조했다. 현재 미국과 중국이 각각 AI 1위·2위 강대국 자리를 공고히 한 가운데 전 세계 선진국들이 3위 자리를 차지하기 위해 각축전을 벌이고 있기 때문이다. 특히 캐나다는 지난 4월 총 2조4천억원 규모의 AI 지원 정책을 발표한 바 있다. 학계와 스타트업의 스케일업만을 위해 컴퓨팅 인프라에 2조원이 투자됐다. 이외에도 중소기업 생산성 향상과 AI 안전을 위해 각각 1천억원, 500억원씩 자금을 투입했다. 프랑스의 사례는 더 고무적이다. 지난해까지만 해도 AI 중진국으로 평가받던 프랑스는 마크롱 대통령의 전폭적인 지원을 통해 불과 1년 만에 자국 AI 기업을 육성하는데 성공했기 때문이다. 하 대표는 "우리는 이들보다 자체 역량에선 뛰어난 골든타임 상황에 있다"며 "이에 따라 누구보다 빠르게 계획을 추진할 필요가 있다"고 강조했다. 이렇게 해야만 미국·중국에 대한 과도한 AI 의존을 피할 수 있고 오히려 이들이 의존할 수 있는 대체 불가능한 AI 역량을 개발할 수 있다는 설명이다. 이를 통해 한국이 AI 주권을 획득하고 다른 나라에도 '소버린 AI' 영향력을 선한 방식으로 행사할 수 있다. 하 대표는 이런 주장에 대한 근거도 제시했다. 그는 "실제 AI 초강대국들이 소버린 AI를 강조하면서 중동·남미·동남아 등의 AI 시장에 뛰어듬에도 정작 이 지역에서 선호되지 않는 분위기"라며 "빅테크가 학습된 모델만 제공하고 기술은 제휴하지 않았기 때문"이라고 지적했다. 하 대표는 "한국은 이들 지역에서 공동 투자, 공동 운영, 기술 이전을 통해 함께 성장할 가능성이 있다"며 "AI 기술이 빠르게 발전하기 때문에 반년 전 개발한 기술을 제휴해도 이들이 산업 전 분야에 활용할 수 있도록 적극 지원할 수 있다"고 주장했다. 또 하 대표는 'AI 원팀'의 성공에 있어 인재가 매우 중요하다는 점을 강조했다. 데이터와 GPU 이슈는 투자를 통해 단기적으로 해결할 수 있지만, AI 개발 인력 양성은 긴 시간이 필요하며 유지하기도 힘들어서다. 하 대표는 이날 국내 최상위권 인력 대다수가 해외 빅테크를 택하는 경우가 잦다는 것도 아쉬운 점으로 지목했다. 그는 "최상위 AI 인재들은 장기적 커리어와 성장 가능성을 보고 일하는 경우가 많다"며 "정부가 AI 전문대학원 등 사업을 지난 2019년부터 추진해 인재 양성에 효과를 봤지만 그만큼이나 이들이 여기 남도록 하는 것도 중요하다"고 강조했다. 하 대표는 그러면서 프랑스의 사례를 들었다. 프랑스 AI 연구자들이 구글 등 미국 빅테크에서 근무하다가 모국으로 돌아가 미스트랄AI 등에 몸담기 시작한 경우가 늘어났기 때문이다. 하 대표는 "그동안 프랑스 정부는 자국 인재가 모국으로 돌아오도록 노력했다"며 "한국 정부도 이를 배워야 한다"고 주장했다. 'AI 원팀' 계획은 이날 처음으로 공식 발표됐다. 이번 행사는 더불어민주당 정동영 의원과 국민의힘 최형두 의원이 AI 발전을 위해 합심해 개최했다. 이날 행사에는 과학기술정보통신부 김남철 과장, 카이스트 김경수 부총장, 삼성전자 이준행 머신러닝 마스터 등 업계 관계자가 참석했다. 하 대표는 "네이버 AI 센터장이 아닌 대한민국 국민으로서 국내 AI 발전 방안을 공유하러 왔다"며 "연구자로서 한국 미래 경쟁력에 대해 늘 고민해왔던 결과"라고 강조했다.

2024.08.21 14:24조이환

SKT, 서울에 엔비디아 GPU 기반 AI 데이터센터 가동한다

SK텔레콤이 람다와 오는 12월 서울에 AI 데이터센터를 연다. 람다가 보유한 엔비디아 GPU 자원을 SK브로드밴드의 서울 가산 데이터센터에 전진 배치하는 것이다. SK텔레콤은 AI 데이터센터에 배치할 GPU를 3년 안으로 수천 대 이상까지 확대할 계획이다. SK텔레콤은 람다와 'AI 클라우드 공동 사업을 위한 파트너십'을 체결했다고 21일 밝혔다. 양사는 안정적인 GPU 공급을 바탕으로 한 GPUaaS 사업 확대, 람다의 한국 리전 설립 등 다양한 영역에서 전략적 협업을 강화하기로 합의했다. 2012년 AI 엔지니어들이 설립한 람다는 엔비디아로부터 최신 GPU를 공급받아 AI 클라우드 서비스를 제공하는 GPUaaS 기업이다. 인텔, 마이크로소프트 등 글로벌 빅테크 기업들이 람다의 고객사다. 로이터통신 등 외신에 따르면 람다는 지난 2월 회사 가치를 15억 달러로 평가받고, 3억2천만 달러 규모의 투자를 유치하는 등 떠오르는 AI 기업으로 각광받고 있다. 서울에 엔비디아 GPU 전용 AI 데이터센터 개소 SK텔레콤과 람다는 오는 12월 서울시 금천구 가산동에 위치한 기존 SK브로드밴드 데이터센터에 엔비디아 GPU 'H100'을 배치한다. SK텔레콤은 AI 시장 성장에 따라 국내 GPU 수요가 급등하는 것을 감안해 3년 안으로GPU를 수천 대 이상까지 늘리고, 최신 GPU 모델인 'H200'도 조기 도입을 추진 중이다. 이를 통해 가산 데이터센터를 시작으로 엔비디아 단일 GPU로 구성된 국내 최대 규모의 'GPU Farm'을 확충하는 것이 목표다. SK브로드밴드는 데이터센터 운영 노하우를 살려 고밀도 GPU 서버 운영 환경에 최적화된 데이터 코로케이션 환경을 제공한다. GPU 서버가 안정적으로 작동할 수 있도록 가산 데이터센터의 랙 당 전력밀도를 국내 최고 수준인 44kW로 구현할 계획이다. 이는 국내 데이터센터 랙 당 평균 전력밀도인 4.8kW의 약 9배에 달한다. AI 데이터센터 오픈에 따라 아시아태평양 지역 최초로 람다의 한국 리전도 개소한다. 람다 GPU 기반 AI 클라우드 서비스를 이용하는 국내 기업들의 데이터는 한국 리전에 저장된다. GPU 기반 구독형 AI 클라우드 서비스 연내 출시 SK텔레콤은 람다 GPU 자원을 기반으로 구독형 AI 클라우드 서비스인 GPUaaS를 오는 12월 출시할 계획이다. GPUaaS는 기업이 AI 서비스 개발이나 활용에 필요한 GPU를 직접 구매하지 않고, 클라우드를 통해 가상 환경에서 자원을 빌려 쓰는 서비스다. 공급이 부족하고 가격이 높은 GPU를 직접 구매하기 부담스러운 대기업이나 중소 스타트업이 상대적으로 저렴한 비용에 사용할 수 있다. GPUaaS 출시와 함께 GPU 교체 보상 프로그램, 클라우드 비용 최적화 컨설팅, AI 스타트업 지원 프로그램 등 국내 스타트업, 중견 중소기업 대상의 다양한 프로모션을 선보일 계획이다. 스티븐 발라반 람다 CEO 겸 창업자는 “람다와 SK텔레콤은 GPU 컴퓨팅 자원을 전기처럼 편리하게 사용 가능한 환경을 만들겠다는 비전을 공유하고 있다”며 “AI 혁신 속도가 빠른 한국에서 AI 클라우드 영역을 성장시키고자 하는 SK텔레콤과 협력하게 되어 기쁘게 생각한다”고 말했다. 김경덕 SK텔레콤 엔터프라이즈 사업부장은 ”람다와의 전략적 협력으로 GPU를 안정적으로 확보한 것은 국내 GPU 공급 확대 측면에서 의미가 크다”며 “향후 국내 최대 규모의 GPU 팜을 구축해 국가 AI 경쟁력을 높이고, 글로벌 시장 진출의 교두보로 자리매김하도록 노력할 것”이라고 말했다.

2024.08.21 09:22박수형

인텔 소프트웨어 정의車용 칩, 미국 내 첫 고객사 확보

인텔이 올 초부터 추진중인 소프트웨어정의자동차(SDV) 플랫폼을 적용한 미국 내 첫 고객사가 등장했다. 미국 전기차 브랜드 카르마(Karma)가 오는 2026년 출시할 2인승 전기차(쿠페)에 인텔 솔루션을 탑재하겠다고 16일 밝혔다. 인텔은 올 초 x86 기반 SDV용 SoC를 공개하고 올 연말부터 공급할 예정이라고 발표했다. 인텔 SDV용 SoC 탑재 의사를 공식적으로 밝힌 완성차 업체는 중국 지리자동차(지커) 이후 카르마가 두 번째다. 양사는 단일 프로세서와 소프트웨어로 전력 제어와 AI 기반 맞춤형 편의기능, ADAS(첨단운전자보조시스템) 등 자동차 기능을 제어하는 SDA 아키텍처를 공동 개발한다. 카르마는 이 과정에서 개발한 B2B 솔루션을 다른 완성차 업체에도 공급할 예정이다. ■ 2007년 설립 카르마, 미국서 고급 전기차 생산 카르마는 2007년 설립된 피스커 오토모티브를 전신으로 하는 전기차 제조사다. 피스커 오토모티브는 첫 제품인 '피스커 카르마' 출시 지연과 판매 부진으로 1억 3천900만 달러(약 1천767억원) 손실을 봤다. 이후 2014년 2월 중국 자동차 부품 업체인 완샹그룹(万向集团)이 경매를 통해 피스커 오토모티브의 상표권과 IP(지적재산권), 미국 내 생산 시설을 1억4천920만 달러(약 2천28억원)에 인수했다. 카르마는 현재 미국 캘리포니아 주 어바인에 본사를 두고 카베야(Kabeya), 기에세라(Gyesera) 등 고급 전기차를 생산중이다. ■ "2026년 출시 '카베야 수퍼쿠페'에 인텔 솔루션 적용" 카르마는 14일(미국 현지시간) "양사는 반도체·자동차 분야에서 쌓은 경험을 살려 자동차 업계의 전환을 도울 수 있는 상업적·개방된 SDA 아키텍처를 위한 표준을 개발하고 함께 검증할 것"이라고 밝혔다. 인텔 SDV 아키텍처를 탑재할 첫 제품인 카베야 수퍼쿠페는 최대 1천 마력, 전륜구동을 지원하며 정지상태에서 시속 60마일(약 96km/h) 도달까지 3초 미만이 걸린다. 제품 가격은 최대 30만 달러(약 4억원)로 예상된다. 이번 협업은 마르케스 맥카몬 카르마 CEO와 잭 위스트 인텔 오토모티브 부사장(펠로우)의 인연에도 큰 영향을 받은 것으로 보인다. 카르마는 "두 사람은 10여년 전 소프트웨어 회사인 윈드리버에서 함께 근무하며 자동차 산업의 미래에 대해 논의했다"고 밝혔다. ■ SoC 단일화·가상화 기반 S/W로 복잡성 최소화 현재 자동차를 구성하는 반도체는 엔진을 제어하는 ECU(전자제어장치)와 각종 장치를 제어하는 MCU(마이크로컨트롤러), 전력반도체에 최근 수 년간 인포테인먼트와 ADAS(첨단운전자지원시스템)가 더해지며 수십 가지로 늘어났다. 인텔이 추진하는 SDV 아키텍처는 자동차 내 다양한 기능을 AI 가속 가능 SoC로 통합하고 각종 기능을 가상화 기술 기반 소프트웨어로 해결해 복잡성을 줄이는 것이 목표다. 인텔은 "자동차 업계는 변화의 기점에 놓여 있고 전동화, SDV 전환이 중요한 과제다. 반면 수익성과 에너지 효율성, 확장성이 문제다. 카르마는 기존 완성차 기반 아키텍처에 제약을 받지 않으며 인텔과 함께 SDA 아키텍처 구현에 나설 것"이라고 설명했다. ■ "제어 체계 단일 SoC로 통합해 전력 소모 절감 가능" 카르마는 기존 완성차 구조를 SDV 아키텍처로 전환할 때 이득을 볼 수 있는 사례 중 하나로 블랙박스 기능을 꼽았다. 카르마는 "현재 대부분의 전기차는 도난과 외부 침입을 막기 위해 시동이 꺼진 상태에서도 외부 카메라를 구동하지만 이 기능은 전력 소모가 큰 차내 컴퓨터로 제어되며 항속거리 감소와 배터리 방전 면에서 악영향을 미친다"고 설명했다. 이어 "SDV 아키텍처를 적용한 전기차는 구역 별 전력제어를 활용해 저전력으로 주위를 감시하다 물체 감지, 사물 인식 등 필요할 경우에만 연산을 수행할 수 있다. 이는 전력 소모 감소, 효율성 증대와 ECU 갯수 감소로 복잡성을 줄일 수 있다"고 덧붙였다. 카르마는 "2026년부터 출시할 모든 차량에는 인텔과 공동 개발한 SDV 아키텍처가 탑재되며 SDV 아키텍처 솔루션을 다른 완성차 업체에도 공급하는 등 B2B 판매도 병행할 것"이라고 밝혔다. ■ 인텔, 이달 초 선전서 자동차용 '아크 A760A'도 공개 인텔은 SDV 특화 자동차용 SoC 이외에 AI 성능을 강화할 수 있는 자동차용 GPU 포트폴리오도 확대중이다. 지난 8일 중국 선전에서 진행된 'AI 칵핏 이노베이션 익스피리언스' 행사에서 첫 제품인 '아크 A760A'를 공개했다. 아크 A760A는 2022년 3분기 출시된 데스크톱PC용 GPU인 아크 A750과 비슷한 성능을 낸다. 그러나 자동차 내 탑재를 고려해 작동 온도는 섭씨 -40도부터 105도까지 확장됐고 최대 작동 클록도 1.9GHz 내외로 다소 낮아졌다. 인텔은 "SDV용 SoC에 아크 A760A를 더하면 운전자와 동승자를 위한 맞춤형 AI 기능을 구현할 수 있고 차종별로 각종 소프트웨어를 별도 개발하는 수고를 줄일 수 있다"고 설명했다. 아크 A760A를 탑재한 자동차는 내년부터 실제 양산차에 투입 예정이다.

2024.08.16 13:54권봉석

폭스콘 "엔비디아 GB200 서버, 계획대로 4분기 출하"

대만 폭스콘이 엔비디아의 최신형 AI 가속기 'GB200'을 당초 계획대로 올 4분기 출하될 것이라고 14일(현지시간) 밝혔다. 폭스콘은 2분기 실적발표 자료를 통해 "GB200 랙(복수의 서버를 저장할 수 있는 특수 프레임) 개발 일정이 순조롭게 진행되고 있다"며 "폭스콘이 확실히 첫 공급업체가 될 것이고, 출하는 올 4분기에 시작될 것"이라고 설명했다. GB200은 엔비디아가 지난 3월 공개한 최신형 GPU인 '블랙웰' 기반의 AI 가속기다. 블랙웰은 4나노미터(nm) 공정을 채택하고, 트랜지스터를 2천80억 개 집적한 것이 특징이다. 두 개의 블랙웰 GPU와 72코어의 그레이스 CPU를 결합하면 GB200이 된다. 폭스콘은 세계 최대 위탁생산업체로서, 엔비디아의 GB200을 도입해 서버 랙을 제작하고 있다. 이달 초 미국 테크 전문매체 디인포메이션 등에서는 엔비디아의 GB200이 설계 결함으로 수율에 문제가 생겼다고 보도한 바 있다. 당시 디인포메이션은 "엔비디아가 마이크로소프트 등 고객사에 GB200의 결함 사실을 알렸다"며 "내년 1분기까지 블랙웰 칩의 대량 출하가 이뤄지지 않을 것으로 예상된다"고 밝혔다. 폭스콘의 이번 발표는 엔비디아를 둘러싼 불안을 잠재우려는 의도로 해석된다. 폭스콘은 "올해 AI 서버가 자사 전체 서버 수익의 40%를 기여할 것이라는 견해를 고수한다"며 "AI 서버에 대한 강력한 수요는 내년에도 지속돼, 향후 폭스콘의 차기 1조 달러 수익 산업이 될 것"이라고 밝혔다.

2024.08.16 08:58장경윤

인텔 아크 GPU, 자동차로 확대...中선전서 '아크 A760A' 공개

인텔이 자체 개발한 아크(Arc) GPU 수요처를 PC와 서버에 이어 자동차까지 확대한다. 8일 중국 선전에서 진행된 'AI 칵핏 이노베이션 익스피리언스' 행사에서 첫 제품인 '아크 A760A'를 공개하고 내년 1분기부터 공급한다고 밝혔다. 인텔은 올 초 공개한 소프트웨어정의자동차(SDV)용 x86 SoC(시스템반도체)에 자동차용 아크 GPU를 더해 운전자와 동승자를 위한 맞춤형 AI 기능을 구현할 수 있다고 밝혔다. 아크 A760A를 탑재한 자동차는 내년부터 실제 양산차에 투입 예정이다. 인텔은 "자동차용 GPU 시장 진출은 날로 복잡해지는 운전석 환경 구현 문제를 해결해 줄 것"이라고 밝혔다. ■ 아크 A750 기반으로 작동 온도 등 보강 인텔은 올 초 CES 2024에서 소프트웨어정의자동차(SDV) 플랫폼을 위한 자동차용 반도체를 올 연말부터 생산한다고 밝힌 바 있다. 최대 12코어 CPU와 GPU를 타일로 구성해 탑재하며 완성차 업체가 직접 설계한 반도체나 외부 반도체도 UCIe 기술로 연결할 수 있다. 인텔이 8일 공개한 아크 A760A는 SDV용 반도체와 PCI 익스프레스 4.0으로 연결해 그래픽 성능이나 AI 연산 성능을 보완할 수 있다. 아크 A760A는 그래픽 처리를 맡는 Xe 코어 28개로 구성되며 AI 처리에서 주로 쓰이는 행렬 연산을 가속하는 XMX(Xe 행렬 확장) 엔진 448개를 내장했다. AI 처리 성능은 INT8(정수, 8비트) 기준 229 TOPS(1초당 1조 번 연산)다. 대부분의 수치가 2022년 3분기 출시된 데스크톱PC용 GPU인 아크 A750과 같다. 그러나 자동차 내 탑재를 고려해 작동 온도는 섭씨 -40도부터 105도까지 확장됐고 최대 작동 클록도 1.9GHz 내외로 다소 낮아졌다. ■ "자동차용 GPU 더해 고급차 위한 추가 기능 구현" 인텔은 "기존 SDV 포트폴리오를 위해 설계된 SoC(시스템반도체)에 아크 GPU를 더해 완성차 업체들이 개방되고 유연하며 확장 가능한 플랫폼으로 차세대 플랫폼을 제공할 수 있게 될 것"이라고 밝혔다. 예를 들어 대중차에는 SDV용 SoC만 탑재해 기본적인 기능을 구현하고 중대형차나 고급차는 SDV SoC와 아크 A760A를 모두 탑재해 풍부한 시각효과와 AI 기반 기능을 제공할 수 있다. 잭 위스트 인텔 오토모티브 총괄(부사장)은 "인텔 전략은 AI를 모든 형태 기기에 접목하는 것이며 방대한 개방형 AI 생태계를 자동차 업계에 소개할 수 있어 기쁘다"고 밝혔다. ■ 중국 전기차 시장서 기회 찾는 인텔 이미 SDV 시장에는 엔비디아 드라이브, 퀄컴 스냅드래곤 디지털 칵핏 등 많은 경쟁자가 존재한다. 이들 업체는 이미 전세계 주요 완성차 업체와 협력해 실제 제품을 공급중이다. 반면 후발주자인 인텔은 자국 업체 중심 생태계가 형성된 중국 전기차 시장을 대상으로 삼았다. 시장조사업체 SNE리서치에 따르면 올 상반기 전기차 출하량 기준 10대 업체에는 BYD(1위), 지리그룹(3위), 상하이자동차(5위), 창안자동차(6위) 등 중국 업체가 대거 이름을 올렸다. 이들의 출하량을 모두 합치면 글로벌 전기차 출하량의 38%를 차지한다. 잭 위스트 인텔 오토모티브 총괄(부사장)은 8일 "중국의 빠른 전기차 개발 사이클과 첨단 기술 수용 속도는 차세대 기술 시험에 최적의 장소"라고 밝히기도 했다. 인텔 아크 GPU는 미국의 대중 반도체 수출 규제 대상에서도 제외됐다. 아크 A760A의 성능은 엔비디아 지포스 RTX 3050과 동급으로 추정되며 미국 상무부의 반도체 수출 규제 기준인 대역폭이나 연산 성능에도 저촉되지 않는다. ■ GPU 버릴 수 없는 인텔, 자동차용 제품으로 불투명성 해소 인텔이 2022년 3월부터 10월에 걸쳐 출시한 아크 A시리즈(개발명 '알케미스트') GPU 성능이 기대에 못 미치는 데다 초기 드라이버 문제로 게임 성능이나 호환성 문제도 불거졌다. 일각에서는 인텔이 GPU 개발 우선 순위를 낮추거나 취소할 수 있다는 전망까지 나왔다. 그러나 생성 AI 등을 클라우드 도움 없이 실행할 수 있는 AI PC 요구사항이 커지면서 CPU와 협동할 수 있는 자체 GPU 개발은 필수 조건이 됐다. 인텔은 오는 9월 정식 출시할 코어 울트라 시리즈2(루나레이크)에 Xe2 기반 GPU를 탑재하고 이를 기반으로 한 2세대 GPU인 배틀메이지도 올 하반기 중 출시 예정이다. 이번 자동차용 GPU 공개는 아크 GPU 포트폴리오 확대와 함께 GPU 사업 관련 불투명성 해소에도 일정 부분 도움을 줄 것으로 보인다.

2024.08.09 14:59권봉석

"엔비디아, 내년 HBM3E 물량 중 85% 이상 차지할 듯"

8일 시장조사업체 트렌드포스에 따르면 엔비디아의 내년 HBM3E 소비량은 전체 물량의 85%를 넘어설 전망이다. 엔비디아가 시장을 주도하고 있는 AI 서버용 칩은 고성능 GPU와 HBM 등을 함께 집적한 형태로 만들어진다. HBM은 여러 개의 D램을 수직으로 적층한 메모리로, 데이터 처리 성능이 일반 D램에 비해 월등히 높다. 엔비디아는 지난 2022년 말 '호퍼' 아키텍처 기반의 H100 칩을 출시했으며, 올해에는 HBM3E 탑재로 성능을 더 강화한 H200 양산을 시작했다. H200에 채택된 HBM3E는 현재 SK하이닉스와 마이크론이 공급하고 있다. 이에 따라 엔비디아의 HBM3E 소비 점유율은 올해 60% 이상으로 예상된다. 나아가 엔비디아는 '블랙웰' 아키텍처 기반의 'B100', 'B200' 등의 제품을 내년부터 출시할 계획이다. 해당 제품에는 HBM3E 8단 및 12단 제품이 탑재된다. 이에 따라 내년 엔비디아의 HBM3E 소비 점유율은 85% 이상을 기록할 전망이다. 트렌드포스는 "블랙웰 울트라, GB200 등 엔비디아의 차세대 제품 로드맵을 고려하면 HBM3E 12단 제품의 비중이 내년 40%를 넘어걸 것으로 추산된다"며 "현재 공급사들이 HBM3E 8단 제품에 집중하고 있으나, 내년에 12단 제품 생산량이 크게 증가할 것"이라고 밝혔다. 트렌드포스는 이어 "현재 삼성전자와 SK하이닉스, 마이크론이 모두 제품 검증을 거치고 있으며, 특히 삼성전자가 시장 점유율을 늘리는 데 적극적"이라며 "검증 순서가 주문량 할당에 영향을 미칠 수 있다"고 덧붙였다.

2024.08.09 08:40장경윤

[유미's 픽] '마하'로 의기투합 한 네이버-삼성…양산 시점은 언제?

네이버와 삼성전자가 함께 개발하고 있는 인공지능(AI) 반도체 '마하'의 주도권을 두고 양사간 갈등이 표면화되면서 업계가 우려하고 있다. 국내 대표 기업들이 의기투합해 엔비디아를 따라잡겠다며 AI 반도체를 개발하기 시작했지만 약 1년 8개월여만에 불협화음을 낸 것을 두고 안타까워하는 분위기다. 2일 업계에 따르면 '마하' 프로젝트를 주도하고 있는 이동수 네이버클라우드 이사는 자신의 소셜미디어(SNS)를 통해 여러 차례 삼성전자를 겨냥해 볼멘 소리를 냈다. 삼성전자의 독단적인 행동에 단단히 뿔이 난 것이다. 이 이사는 지난 1일 한 매체에서 삼성전자와 네이버가 '마하-1' 개발까지만 함께하고 더 이상 협업에 나서지 않을 것이란 내용이 보도된 직후 자신의 페이스북에 해당 기사가 너무 잘못된 내용들이 많다는 점을 지적했다. 또 그는 "무엇이 오보인지에 대해서는 네이버가 아닌 삼성에 물어봐야 할 것 같다"고 강조했다. 그러면서 3시간 30여분이 지난 이후에는 "네이버클라우드의 단합된 힘으로 반도체 사업을 시작한다"며 "자세한 내용은 차차 공개하겠다"고 말해 눈길을 끌었다. 이 이사는 올 초에도 상당히 격분한 듯한 어조로 SNS에 글을 올렸다. 당시 그는 "(마하를) 먼저 만들자고 (삼성전자에) 제안한 것도, 이렇게 만들어보자고 기획한 것도 네이버"라며 "(그런데) 네이버 이름도 빠지고 어떻게 이해해야 할지 모르겠다"고 밝혔다. 이 이사는 이 글이 주목 받자 곧바로 내렸지만 업계에선 네이버클라우드와 삼성전자의 갈등이 표면화됐다는 데 큰 의미를 뒀다. 이 사건의 발단은 지난 3월 말 열린 삼성전자 주주총회였다. 이 자리에서 경계현 삼성전자 미래사업기획단장(당시 DS부문장)이 '마하2' 개발에 대한 계획을 공개한 것이 갈등의 씨앗이 됐다. 경 사장은 "메모리 등 기존 사업만으로는 장기적으로 반도체 1등을 유지할 수 없다"며 "추론 전용인 '마하-1'에 대한 고객들의 관심 또한 증가하고 있고, 연말 정도면 '마하-1'을 만들어 내년 초쯤 우리 칩으로 구성된 시스템을 볼 수 있을 것"이라고 말했다. 그러면서 "일부 고객은 1T 파라미터 이상의 큰 애플리케이션에 '마하'를 쓰고 싶어 한다"며 "생각보다 더 빠르게 '마하-2' 개발을 준비해야겠다"고 덧붙였다. 이 발언 후 네이버클라우드 내부에선 삼성전자에 대한 불만이 고조됐다. 실제 네이버클라우드가 먼저 제안해 삼성전자가 받아들이면서 '마하' 프로젝트가 성사됐지만, 마치 삼성전자가 주도하는 것처럼 분위기를 이끌어 갔기 때문이다. 특히 '마하-1' 연구개발과 설계에 참여한 엔지니어 40여 명 중 상당수는 네이버클라우드 소속인데 삼성전자가 마치 자사 직원인 것처럼 업무를 지시하기도 했다는 말들도 무성했다. 삼성전자는 그간 "서로 잘 협력하고 있다"는 식으로 분위기를 무마하려 했지만, 네이버 측의 불만은 고조돼 갔다. 처음부터 '마하' 프로젝트 기획부터 칩 개발 핵심 아이디어까지 자신들이 도맡았지만, 그 공을 삼성전자가 가로챈 느낌이 많이 들었기 때문이다. 삼성 사장단의 교체로 반도체 수장을 전영현 신임 DS 부문장이 맡게 되면서도 분위기가 오묘하게 흘러갔다. '마하-2' 발언으로 관계에 균열이 생긴 탓에 수장 교체 직후 양사 고위 임원들의 만남도 빠르게 이뤄지지 않았다. '마하'는 HBM(고대역폭 메모리)이 필요 없는 AI 추론에 특화된 반도체로, 이를 만들기 위해 양사는 지난 2022년 12월 협력 사실을 발표한 바 있다. 업계 관계자는 "삼성전자의 제조업 마인드와 네이버의 서비스업 마인드가 충돌하면서 네이버 측이 삼성전자의 태도에 대해 당황해 하는 분위기가 역력했다"며 "삼성전자가 네이버를 제외하고 자신들이 '마하-2'를 다 하는 것처럼 얘기를 한 것이 네이버 측의 심기를 상당히 건드렸다"고 말했다. 그러면서 "네이버는 거대언어모델(LLM)을 기반으로 서비스를 하는 조직이라면, 삼성전자는 그런 경험이 없다는 점에서 양사가 협업하기는 쉽지 않았을 것"이라며 "삼성전자가 자체적으로 잘 만든다고 해도 성능을 잘 검증 받을 수 있어야 하는데 네이버를 배제하면 무슨 의미가 있을까 싶다"고 덧붙였다. 삼성전자의 이 같은 태도에 '마하-1' 양산 시기도 당초 공언했던 것보다 늦어질 수 있다는 관측도 나왔다. 삼성전자는 '마하-1'을 네이버에 공급해 연내 안전성 테스트를 진행한 후 내년 초께 출시할 것이라고 계획을 밝혔으나, 네이버 내부에선 내후년께 출시될 것으로 봤다. 네이버클라우드 관계자는 "지금 계획상으로는 내년 1분기쯤 (자사 데이터센터에서) 테스트를 할 것으로 보인다"며 "반도체 설계부터 생산까지 쉬운 일은 아닌 만큼 내년이나 후년 정도에 양산할 것으로 예상된다"고 말했다. 삼성전자는 네이버 측과의 불화설을 일단 부인했다. 또 '마하-1'을 기점으로 AI 반도체 시장에서 입지를 다져야 하는 삼성전자 입장에선 현재의 분위기를 다소 불편하게 여기는 것으로 알려졌다. 그러면서도 삼성전자는 파트너사 물색과 함께 내부적으로 '마하' 시리즈 개발을 담당하는 시스템LSI 사업부 내에 AI SOC팀에 힘을 실어주는 것으로 알려졌다. 엔비디아 그래픽처리장치(GPU)를 대체할 수 있는 저렴하면서도 AI 컴퓨팅에 특화한 AI 가속기를 하루 속히 개발하기 위해서다. 삼성전자 관계자는 "네이버뿐 아니라 다양한 파트너를 찾고 있는 과정"이라며 "네이버와의 관계를 마침표를 찍는다는 일부 주장은 사실이 아니다"고 강조했다. 업계에선 '마하'가 아직 첫 제품도 나오지 않은 상황에서 양사간 갈등이 점차 표면화되는 것에 대해 안타까워했다. 엔비디아뿐 아니라 구글, 마이크로소프트 등 글로벌 빅테크들이 자체 AI 반도체를 개발하겠다며 속도전을 벌이고 있는 상황에서 두 회사가 주도권 싸움만 벌이는 것으로 비춰지는 것도 아쉬운 점으로 지목됐다. 다만 양사의 균열은 인텔에게 좋은 기회가 됐다. 인텔은 지난해 11월 팻 겔싱어 최고경영자(CEO)가 방한해 네이버 측에 직접 AI 반도체 협업을 제안한 후 협력을 강화하고 있다. 네이버클라우드는 자사 LLM '하이퍼클로바 X'를 기반으로 생성형 AI 서비스를 구축 중으로, 엔비디아 AI 생태계 대신 인텔 AI 칩 '가우디'를 활용해 가속기를 최적화하는 소프트웨어 생태계를 조성하고 있다. 이를 위해 네이버클라우드는 국내 AI 스타트업 스퀴즈비츠와 함께 '가우디2' 인프라에서 훈련과 추론을 할 수 있는 기초 코드를 함께 만든다. 국내 대학 등 연구진은 이 코드를 기반으로 소프트웨어를 개발해 오픈소스 생태계에 공개한다. 이처럼 가우디 생태계 참여자를 늘려 엔비디아의 독점적인 생태계 구조를 깨겠다는 것이 이들의 포부다. 이동수 네이버클라우드 이사는 "현재 거의 모든 서비스에 AI 기술을 접목하고 있고, 좋은 AI 반도체 확보는 서비스 경쟁력 확보에 직결된다"며 "많은 반도체를 평가하고 분석하는 과정에서 인텔 '가우디2' 가속기의 하드웨어 특징과 성능 면에서 좋은 결과를 얻었다"고 평가했다. 하정우 네이버클라우드 AI이노베이션센터장은 "연말에 출시될 '가우디3'에 협업 실험 결과와 노하우, 소스코드 등을 모두 녹여낼 계획"이라며 "이렇게 경쟁력 있는 대안을 확보하게 되면 더 많은 데이터를 중심으로 '하이퍼클로바 X'를 고도화하는 게 가능해지고, 더 저렴한 가격으로 더 많은 사람들에게 서비스를 제공할 수 있게 될 것"이라고 말했다.

2024.08.02 15:21장유미

[기고] AGI 시대, 최적의 인프라 도입 전략

최근 생성형 AI로 기업들의 AI 비즈니스가 활발해지고 있다. 거대언어모델(LLM) 개발 열풍에 GPU 시장 경쟁도 치열하다. AI를 넘어 일반인공지능(AGI)까지 등장하면서 AI 비즈니스에도 큰 변화가 예고된다. AGI는 인간과 유사한 지능과 스스로 학습할 수 있는 능력을 갖춘 AI다. 생성형 AI가 확률과 통계로 답을 찾는 수학적 사고라면 AGI는 AI가 논리와 추론 능력을 가지고 문제를 해결한다. AGI의 등장은 더 큰 데이터 세트와 복잡한 AI모델이 필요함을 의미한다. 따라서 GPU시스템과 데이터 처리 효율이 더욱 중요해진다. ■ AGI 시대, 최적의 인프라 도입 요건 기업들이 자사에 최적화된 AI 인프라를 도입하기 위해서는 아래와 같은 사항들을 고려해야 한다. 첫째, 각 기업의 AI 환경에 적합한 GPU 인프라를 사용해야 한다. 최근 GPU 인프라는 대규모 GPU클러스터 기술을 포함한 초고성능 제품부터 단기간 빠른 성과 요건에 적합한 가성비 높은 제품, GPU와 CPU 일체형 방식 등으로 다양한 라인업과 제조사의 제품으로 확장되고 있다. 둘째, GPU 시스템 사용 효율을 고려해야 한다. 컨테이너 환경에서 GPU 자원의 분할 가상화 솔루션을 도입하고, 데이터 과학자가 AI 개발 업무에 집중하도록 손쉬운 AI 개발 환경을 제공해야 한다. 셋째, AI 최적화 시스템을 설계해야 한다. GPU 고성능을 최대로 발휘하기 위해, 고속 네트워크, 고성능 스토리지까지 최적의 설계가 필요하다. 또한, 여러 GPU 시스템을 사용 중인 기업 중 통합 관리에 어려움을 겪는 경우가 많다. 기존 자원을 활용하면서도 신규 도입 자원을 적절하게 사용하도록 기술 지원이 뒷받침돼야 한다. ■ AI 비즈니스를 위한 핵심 인프라 AI 비즈니스를 준비 중인 기업 가운데 LLM과 AI 모델을 한 가지 관점에서만 고민하는 경우가 많다. 하지만 이 모델들은 끊임없이 진화하고 있어 지속적으로 운영하기가 쉽지 않다. 탄탄한 인프라를 위한 컴퓨팅 파워, 네트워크 속도, 스토리지 구성 등을 초기부터 종합적으로 살펴보고 기업 환경에 맞는 전략을 수립해야 투자 비용을 최소화할 수 있다. 전문 기업의 컨설팅을 통해 자사 환경에 맞는 로드맵을 수립한 후 최적의 인프라를 체계적으로 도입하는 것이 무엇보다 중요하다. AI 시스템에 고속으로 정확하게 데이터를 공급하고 분석하기 위한 스토리지는 하드디스크보다 NVMe 플래시가 효과적이고, 데이터를 고성능으로 분산 처리하기 위한 병렬 분산 파일 시스템이 권장된다. AI를 위한 스토리지에서 고려할 가장 중요한 사항은 초고성능과 무제한 확장성이 결합된 아키텍처이다. 딥러닝은 하나의 데이터셋을 잘게 쪼개 사용하기 때문에 작은 IO 요청이 빈번하게 일어난다. 이 때문에 높은 IOPS(초당 입출력 횟수)가 요구되고 저장소 역시 파일의 메타정보 오버헤드를 최소화하는 구조여야 한다. 또한, 방대한 양의 비즈니스 데이터를 효율적으로 저장 및 관리하기 위한 초고성능 분산 병렬파일 시스템과 대용량을 지원하는 오브젝트 스토리지와의 단일화된 구성은 AI 인프라를 위한 데이터 저장소로 자리잡게 됐다. 효성인포메이션시스템은 AI 인프라를 위해 필요한 GPU 서버부터 초고성능 스토리지, 네트워크를 통합한 '효성 AI 플랫폼'을 통해 AI 연산 환경부터 고성능 데이터 처리, AI솔루션까지 고객의 AI 전환을 위한 핵심 경쟁력을 제공한다. 고성능 AI 연산 환경을 위해 슈퍼마이크로와 협업하여 GPU 서버를 시장에 공급하고, 초고성능 병렬파일 스토리지 'HCSF'를 통해 GPU 성능을 뒷받침하는 고성능 데이터 처리를 지원한다. 또한, AI/ML옵스 솔루션, GPU DB, 인메모리 DB, 고속 네트워크 등 국내외 다양한 파트너사와 연계 및 확장 제안을 통해 고객에게 AI 인프라 구현을 위한 최적의 솔루션을 제시한다.

2024.07.23 09:41강준범

"엔비디아, TSMC에 AI 칩 '블랙웰' 주문량 25% 확대"

엔비디아가 TSMC에 의뢰한 최신 AI 반도체 '블랙웰(Blackwell)'에 대한 주문량을 당초 대비 25% 늘렸다고 대만 연합보가 15일 밝혔다. 연합보는 "TSMC가 가까운 시일 내에 엔비디아의 블랙웰 아키텍처 기반 GPU(그래픽처리장치)의 생산을 시작한다"며 "이는 AI 시장이 전례 없는 호황을 누리고 있다는 의미일 뿐만 아니라, TSMC의 하반기 실적에 강력한 성장요인이 될 것"이라고 밝혔다. 블랙웰은 엔비디아가 지난 3월 공개한 최신형 AI 반도체다. 3분기부터 양산에 들어가, 연말께 본격적으로 출시될 예정이다. 블랙웰은 2천80억개의 트랜지스터를 집적해, 이전 세대인 H100 대비 데이터 연산 속도를 2.5배가량 향상시킨 것이 특징이다. TSMC의 4나노미터(nm) 공정을 활용한다. 블랙웰은 전력 소모량에 따라 B100, B200 등의 모델로 나뉜다. 두 개의 블랙웰 GPU와 72코어의 그레이스 CPU를 결합하면 'GB200'라는 AI 가속기가 된다. 이 GB200을 여러 개 연결하면 서버 랙 스케일 솔루션인 'GB200 NVL'을 만들 수 있다. 연합보는 업계 관계자를 인용해 "아마존, 델, 구글, 메타, 마이크로소프트 등 주요 해외 기업들이 AI 서버 구축을 위해 예상보다 많은 B100 칩을 주문했다"며 "이에 엔비디아가 TSMC에 주문량을 25% 늘렸다"고 설명했다. 이에 따라 B100 기반의 엔비디아 서버 솔루션인 'GB200 NVL72', 'GB200 NVL36' 출하량은 기존 4만대에서 6만대로 50% 증가할 전망이다. 이 중 GB200 NVL36은 출하량이 5만대에 달해 가장 많을 것으로 전망된다. 업계는 GB200 NVL72의 가격을 300만 달러로 주장하고 있다. GB200 NVL36의 예상가격은 180만 달러 수준이다.

2024.07.15 11:03장경윤

[유미's 픽] "블랙웰부터 수랭식 도입해라"…엔비디아 경고에 韓 데이터센터 '이것' 관심

"차기 그래픽처리장치(GPU)인 '블랙웰'부터는 데이터센터에 수랭식(흐르는 물)을 도입하기 바랍니다." 전 세계 인공지능(AI) 칩 시장을 장악한 엔비디아가 최근 데이터센터를 운영하는 업체들을 향해 이처럼 경고하고 나섰다. AI 열풍으로 고성능 GPU 도입이 늘어나면서 현재 공랭식 위주로 운영되는 데이터센터에서 열 관리가 감당되지 않는다고 판단돼서다. 9일 업계에 따르면 국내서 자체 데이터센터를 보유하고 있는 삼성SDS, LG CNS 등 일부업체들은 최근 수랭식보다 한 단계 더 발전한 '액침냉각' 시스템 도입을 잇따라 추진 중인 것으로 파악됐다. 온도가 일정 수준 이상 올라가면 화재 위험이 커지는 데다 서버를 식히는 냉각장치에 들어가는 전기 소비량이 갈수록 늘어나는 만큼, 에너지 낭비를 줄이기 위해 국내 기업들도 대안 찾기에 적극 나선 분위기다. 액침냉각 시스템은 특수 액체인 냉각유에 데이터 서버 등을 담가 열을 식히는 열관리 기술로, 기존의 공기 냉각 방식에 비해 훨씬 높은 냉각 성능을 제공한다. 또 기존에 일부 부품에만 냉각 시스템을 적용했던 것에서 한 걸음 나아간 기술이란 평가도 받는다. 기존에 많이 쓰이던 수랭식, 공랭식 시스템은 기계를 차가운 물이나 공기를 활용해 식히는 간접적인 냉각 방식이다. 반면 액침냉각은 액체 상태의 냉각유가 기계를 휘감아 온도를 내리는 더 직접적인 냉각 시스템으로 분류된다. 수랭식 시스템은 차가운 공기 활용해 열을 식히는 공랭식보다 약 20% 적은 에너지를 사용하는 것으로 알려졌다. 액침냉각은 공랭식보다 전력효율을 약 30% 이상 개선할 수 있는 것으로 전해졌다. 이에 업계에선 액침냉각이 데이터센터의 전력 사용량을 절감하고 향후 운용 비용을 낮출 뿐 아니라 공간 활용도를 높이는 데 더 기여한다는 점에서 크게 주목하고 있다. 업계 관계자는 "현재 많이 쓰이는 공기 냉각 방식은 전력 사용 효율성이 액침냉각 기술보다 낮은데다 소음도 높다"며 "초기 비용과 운영 비용을 고려해야 하지만, 전력 비용 절감과 높은 냉각 성능을 고려하면 장기적인 비용 절감 효과를 기대할 수 있다"고 설명했다. 국내에서 액침냉각에 가장 큰 관심을 보이고 있는 곳은 SK텔레콤이다. 지난해 11월 인천사옥에 AI 서비스를 위한 전용 데이터센터를 구축하며 액침냉각 기술을 이곳에 올 하반기 중 본격 도입하겠다는 계획을 밝힌 바 있다. 이를 위해 SK텔레콤은 업계 최초로 실제 IDC 환경에서 액침냉각 기술 효과를 입증했다. SK엔무브, 미국 GRC와 손잡고 지난해 6월부터 약 4개월간 테스트를 진행한 결과, 기존 공랭식 대비 냉방 전력의 93%, 서버 전력에서 10% 이상 절감돼 총 전력 37%를 줄일 수 있었던 것으로 분석됐다. 삼성SDS는 지난 2022년 12월 가동을 시작한 동탄 데이터센터에 수랭식 시스템과 함께 액침냉각 시스템 적용을 위한 관련 인프라도 갖춰놓은 상태다. 다만 국내 기업들이 비용 부담과 함께 액침냉각에 대한 신뢰가 적어 적극 활용에 나서지 않아 시설을 비워 놓은 채 운영되고 있다. LG CNS는 오는 2028년께 부산 데이터센터에 액침냉각 방식을 적용하기 위해 연구 중이다. 현재 이곳에는 '빌트업 항온 항습 시스템'이 적용돼 있는데, 이 시스템은 차가온 공기를 순환시켜 열을 식히는 기존의 항온항습기보다 한층 진화된 방식으로 평가된다. 이를 통해 LG CNS는 연간 냉방 전력 35%를 이미 절감하고 있다. 다만 다른 대기업 SI 업체들과 달리 SK C&C는 판교, 대덕 등에서 데이터센터를 운영 중이지만 액침냉각 방식은 따로 검토하고 있지 않은 것으로 파악됐다. 비용 부담이 큰 만큼 고객사들이 원하면 도입을 고려하겠다는 입장이다. KT클라우드, NHN클라우드, 카카오엔터프라이즈 등 국내 클라우드 서비스 제공 사업자(CSP)들도 데이터센터에 아직은 액침냉각 도입에 미온적이다. 네이버클라우드만 춘천, 세종에 위치한 데이터센터에 액침냉각 도입을 검토 중이나, 구체적인 일정은 아직 미정이다. 대신 KT와 NHN, 카카오 등은 국내에 아직 적극 도입되지 않은 수랭식에 많은 관심을 보이고 있다. KT는 내년에 오픈하는 가산 데이터센터에, 카카오는 향후 건립될 제2데이터센터에 수랭식을 처음 도입할 계획이다. NHN은 현재 판교 데이터센터와 광주 국가 AI 데이터센터 모두 공랭식을 도입했으나, 액침 및 수랭식 시스템 등 다양한 냉각 방식에 대한 기술 검토를 이어나가고 있다. 다만 KT는 액침냉각 시스템 전문기업 이머젼4와 데이터센터 액침 냉각 시스템 적용을 위한 MOU(업무협약)을 체결했다. 업계 관계자는 "최근 구글, 마이크로소프트(MS), 메타 등 글로벌 빅테크 기업들은 자체 데이터센터를 설립할 때 공랭식 대신 수랭식 시스템을 중심으로 적용하는 추세"라며 "AI 기능이 고도화되면서 고성능 GPU를 써야 하는 경우가 점차 많아지고 있는 만큼, 데이터센터 냉각 시스템 구축에 대한 기업들의 고민도 늘어날 것"이라고 밝혔다. 그러면서도 "아직까지 국내에선 수랭식을 도입한 기업들도 많지 않은 상황에서 액침냉각의 안전성에 대한 불신이 여전하다"며 "국내에서 액침냉각이 널리 쓰이는 데까진 상당한 시일이 걸릴 것으로 보인다"고 덧붙였다.

2024.07.09 10:23장유미

"AMD, 2000년대 초 엔비디아 인수 검토했었다"

엔비디아는 인공지능(AI) GPU 바람을 타고 IT 분야 시가 총액 3조 1천억달러(약 4천291조 원)를 넘어선 회사다. 주당 1천 달러(약 130만원)로 불어난 주가를 감당할 수 없어 얼마 전 10대 1로 액면분할까지 감행했다. 그런데 이런 엔비디아의 현재 위치를 AMD가 누릴 수도 있었다는 증언이 나와 눈길을 끈다. 당시 AMD에 몸담았던 전문가인 허만트 모하파트라가 최근 X(구 트위터)에 이와 같이 증언했다. 그의 증언에 따르면 AMD는 당시 엔비디아 인수를 고려했지만 AMD·엔비디아를 합친 새 회사 CEO는 자신이 되어야 한다는 젠슨 황 CEO와 의견 차이로 이를 포기했다. 결국 AMD는 2006년 ATI를 인수했고 훗날 이것이 AMD를 파산 위기에서 구했다. ■ "AMD, 엔비디아 인수 고려했지만 의견차로 불발" 2000년 초반 당시 AMD는 PC에서 최초로 1GHz 벽을 깬 애슬론 프로세서를 출시하는 한편 2003년 64비트 서버용 프로세서인 옵테론(Opteron)을 공개하는 등 인텔 대비 우위에 있었다. 반면 엔비디아는 설립 후 10년이 채 안된 팹리스로 ATI 등 많은 경쟁사와 싸워야 했다. 2000년대 중반부터 후반까지 CPU/APU/GPU 설계에 관여했다고 밝힌 허만트 모하파트라는 X(구 트위터)에 "엔비디아는 AMD와 인텔의 시가총액을 넘어섰으며 당시만 해도 AMD가 시가총액에서 인텔을 넘어서리라고는 상상하지 못했다"고 설명했다. 이어 "당시 AMD는 엔비디아를 거의 인수할 뻔 했지만 젠슨(황 엔비디아 CEO)이 합병한 회사 CEO는 자신이 되어야 한다며 이를 거부했다. 만약 이것이 성사됐다면 세계는 매우 달라졌을 것"이라고 설명했다. 실제로 AMD는 2006년 캐나다 소재 그래픽업체인 ATI를 인수했다. ATI가 가지고 있던 라데온 등 GPU IP(지적재산권)는 AMD의 손으로 넘어갔다. 이 선택이 훗날 고전하던 AMD를 연명하게 하는 '신의 한수'로 평가받는다. ■ AMD, 인텔 반격에 팹까지 분사 인텔은 2005년 노트북용 코어 프로세서, 2006년 코어 2 듀오 등을 출시하며 AMD에 반격했다. 허만트 모하파트라는 "AMD는 '진정한' 듀얼코어 프로세서를 만들기 위해 노력했지만 이것은 실수였다. 너무 많은 시간이 걸렸고 막상 제품이 나왔을 때는 인텔이 단단한 기반을 구축했다"고 돌이켰다. AMD 창립자 제리 샌더스는 "진정한 남자는 팹(Fab, 반도체 생산 시설)을 가져야 한다"는 명언을 남겼다. 그러나 자금난에 시달리던 AMD는 2009년 팹을 분사하고 중동계 투자자를 끌어들여 글로벌파운드리를 설립한다. ■ AMD, CPU·GPU 통합한 APU로 보릿고개 넘기다 위기에 몰린 AMD를 구한 것은 CPU와 GPU를 통합한 'APU'다. 2006년 ATI를 인수하지 않았다면 개발 자체가 불가능한 제품이다. 인텔 역시 2011년 출시한 2세대 코어 프로세서(샌디브리지)부터 '빌트인 비주얼'을 내세우며 GPU를 통합하고 있다. 그러나 AMD는 한 다이(Die) 안에 CPU와 GPU를 한 데 넣어 지연시간과 개발 복잡성을 줄였다. 소니는 2006년 출시한 플레이스테이션3에 도시바·IBM과 공동 개발한 고성능 프로세서인 셀(Cell)을 통합했지만 개발 복잡성 문제로 게임 출시 등에 문제를 겪고 있었다. 이후 소니는 플레이스테이션4부터 x86 기반 프로세서로 돌아섰고 여기에 AMD APU가 탑재됐다. 레나토 프라게일(Renato Fragale) AMD 제품 관리 부문 시니어 디렉터는 최근 전문가용 소셜미디어인 링크드인 프로파일에 "현재까지 9천100만 대 이상이 팔린 소니 플레이스테이션용 개발팀을 꾸렸고 이는 AMD 역사에서 파산을 막은 가장 성공적인 출시"라고 설명했다. 2005년부터 AMD에 20년 가까이 몸담고 있는 메모리 부문 전문가 필 박(Phil Park) 역시 레나토 프라게일의 증언을 뒷받침했다. 그는 "내가 알고 있는 한 이것은 사실이다. 2008년 세계 경제 위기와 인텔의 경쟁력 회복은 AMD를 엄청나게 나쁜 위치로 몰아넣었다. 돈을 만들기 위해 '아드레노'(Adreno)를 포함한 많은 IP를 팔아야 했고 임금도 삭감됐다"고 부연했다. 실제로 퀄컴은 2009년 1월 "AMD의 휴대용 그래픽·멀티미디어 자산을 인수했다"고 밝혔다. 이후 이 IP 자산은 스냅드래곤 등 퀄컴 모바일용 SoC(시스템반도체)의 GPU인 '아드레노'로 투입된다. '아드레노'(Adreno)의 철자를 거꾸로 잘 조합하면 '라데온'(Radeon)이 되는 이유가 여기에 있다. 레나토 프라게일 시니어 디렉터는 링크드인에 올린 내용이 미국을 포함해 전세계 IT 관련 매체를 통해 알려지자 해당 내용을 삭제했다. ■ GPU 독자노선 선택한 인텔... 올 하반기 'Xe2' 투입 인텔은 2011년 2세대 코어 프로세서(샌디브리지)부터 '빌트인 비주얼'을 내세워 프로세서 내장그래픽을 장점으로 내세웠다. 2017년 11월에는 AMD 출신 라자 코두리를 영입해 새 그래픽 아키텍처인 Xe를 개발했다. 이후 2022년 노트북용, 같은 해 하반기 데스크톱PC용 그래픽카드를 연이어 출시했지만 출시 시기와 성능 면에서 엔비디아와 AMD에 밀려 좋은 평가를 받지 못했다. 실제로 지난 해 하반기부터 업계 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다. 그러나 노트북 시장에서 AI 처리 성능이 요구되는 가운데 GPU를 쉽게 포기할 수 없는 것 또한 사실이다. 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 5월 말 '테크투어 타이완' 행사에서 "차세대 프로세서 '루나레이크'에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재될 것"이라며 이를 일축했다.

2024.07.08 17:34권봉석

KAIST 'AI 가속기'에 잇단 러브콜…"엔비디아 2배 성능"

엔비디아의 GPU 성능을 넘어서는 고용량·고성능 AI 가속기가 상용화 수준으로 개발됐다. 이 기술을 개발한 KAIST 정명수 전기및전자공학부 교수는 "빅테크 기업들의 러브콜이 이어지고 있다"며 “대규모 AI 서비스를 운영하는 이들의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 것"이라고 말했다. KAIST(총장 이광형)는 차세대 GPU간 연결기술인 CXL(Compute Express Link)를 새로 설계해 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는데 성공했다고 8일 밝혔다. 연구는 전기및전자공학부 정명수 교수의 컴퓨터 아키텍처 및 메모리 시스템 연구실이 수행했다. 연구결과는 미국 산타클라라 USENIX 연합 학회와 핫스토리지 연구 발표장에서 공개한다. GPU 내부 메모리 용량은 수십 기가바이트(GB, 10의9승)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 업계에서는 대안으로 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 최신 GPU가격이 비싸 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높인다. 이에 따라 산업계에서는 차세대 인터페이스 기술인 CXL를 활용해 대용량 메모리를 GPU 장치에 직접 연결하는'CXL-GPU'구조 기술이 활발히 검토되고 있다. CXL-GPU는 CXL을 통해 연결된 메모리 확장 장치들의 메모리 공간을 GPU 메모리 공간에 통합시켜 고용량을 지원한다. CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가할 수 있어 시스템 구축 비용을 획기적으로 절감할 수 있다. 그러나 여기에도 근본적인 한계가 있다. 기존 GPU 성능 대비 CXL-GPU의 읽기 및 쓰기 성능이 떨어진다는 점이다. 아무리 GPU가 연산처리를 빨리 해도 CXL-GPU가 이를 같은 속도로 처리하지 못한다. 연구팀이 이 문제를 해결했다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발했다. GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 시스템을 설계했다. 메모리 확장 장치가 내부 작업을 수행 상태에 따라 작업 하도록 했다. GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없다. 연구팀은 또 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치 측에서 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작한다. GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장공간)에서 데이터를 읽어 더욱 빠른 메모리 읽기 성능을 달성할 수 있다. 이 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 테스트 결과 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다. 파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을 두 자리 나노초(10의 9승분의 1초) 이하로 줄인 순수 국내기술의 자체 CXL 컨트롤러를 보유하고 있다. 이는 전세계 최신 CXL 컨트롤러 등 대비 3배 이상 빠른 속도다. 파네시아는 고속 CXL 컨트롤러를 활용해 여러 개의 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다.

2024.07.08 08:22박희범

미루웨어, AMD MI300X 기반 기가바이트 서버 출시

AI, HPC 전문기업인 미루웨어가 5일 AMD AI 처리용 GPU인 MI300X를 탑재한 기가바이트 서버 'G593-ZX1 5U MI300X OAM'을 국내 출시한다. 기가바이트 G593-ZX1 5U MI300X OAM은 AMD 에픽 9004 프로세서 기반 5U 사이즈 서버로 AMD MI300X GPU OAM 모듈을 최대 8개 장착할 수 있다. MI300X는 PCI 익스프레스 5.0 인터페이스로 연결되며 AMD 인피니티 패브릭 메시 기술로 상호 연결을 통해 데이터 병목 현상을 줄이고 더 빠른 데이터 전송이 가능하다. 최대 사양 구성시 연산 성능은 1.3PFLOPS(페타플롭스)이며 MI300X에 내장된 최대 1.5TB 용량의 HBM3 메모리를 활용해 생성 AI와 AI 모델 트레이닝 등 워크로드를 효과적으로 처리할 수 있다. AMD가 제공하는 ROCm 6 오픈 소프트웨어 플랫폼은 파이토치, 텐서플로, ONNX-RT 등 업계 표준 AI·머신러닝 프레임워크를 지원하며 개발자 허브에서 각종 가이드도 제공한다. 이를 통해 생성 AI는 물론 천체물리학, 기후 및 기상, 유체 역학, 지구과학 및 물리학, 분자 역학 분야의 대량 데이터 처리도 가능하다. 이정훈 미루웨어 대표는 "기가바이트 G593-ZX1 모델은 다양한 고객사가 빠른 시간 안에 운용할 수 있는 표준 규격 기반 제품으로 기존 AI 및 서버 인프라에 추가하여 회사 개발 솔루션의 개발 기간과 모델화를 단축시킬 수 있는 제품"이라고 설명했다. 제품 제원과 도입 프로모션 등 상세 내용은 미루웨어 공식 웹사이트 내 제품 문의 메뉴나 뉴스레터로 확인할 수 있다.

2024.07.05 10:00권봉석

CPU·GPU 에너지 사용 100만분의 1로 줄인 '열컴' 나오나

기존 CPU나 GPU가 사용하는 에너지의 100만분의 1만으로도 경로찾기 등 복합한 최적화 계산을 할 수 있는 차세대 열 컴퓨팅 기술이 개발됐다. 인공지능과 딥러닝 등의 확산에 따른 전기 에너지 사용량이 현안으로 부상한 가운데 공개된 혁신적인 컴퓨팅 구동 기술이어서 과학기술계의 관심을 끌었다. KAIST는 신소재공학과 김경민 교수 연구팀이 미국 샌디아 국립연구소와 공동으로 산화물 반도체의 열-전기 상호작용에 기반하는 열 컴퓨팅(Thermal computing) 기술 개발에 성공했다고 26일 밝혔다. 연구팀은 반도체 소자에서 발생하는 열이 CPU의 계산 성능을 떨어뜨리고, 이 열을 처리하는 추가 비용이 발생한다는데 주목했다. 이 같은 문제 해결 방안으로 연구팀은 전기-열 상호작용이 강한 산화나이오븀(NbO₂) 기반의 모트 전이 (Mott transition) 반도체를 눈여겨 봤다. 모트 전이 반도체는 온도에 따라 전기적 특성이 부도체에서 도체로 변하는 전기-열 상호작용이 강한 반도체 소자다. 연구팀은 낮은 열전도도와 높은 비열을 가지고 있는 폴리이미드 기판으로 모트 전이 반도체 소자를 제작했다. 소자에서 발생한 열은 폴리이미드 기판에 저장했다. 저장된 열은 일정 시간 동안 유지돼 시간적 정보 역할을 했다. 또 이 열은 공간적으로도 이웃 소자로 전파되면서 공간적 정보 역할도 했다. 연구팀은 "열 정보를 시,공간적으로 활용해 컴퓨팅을 수행할 수 있었다"며 "CPU나 GPU가 쓰는 에너지 소모량 대비 1백만분의 1 정도만 써도 경로 찾기 등과 같은 복잡한 최적화 문제를 풀수 있었다"고 부연 설명했다. 김경민 교수는 “버려지던 반도체 소자 열을 컴퓨팅에 활용하는 개념을 최초로 제안했다"며 "열 컴퓨팅 기술을 활용하면 뉴런과 같은 신경계의 복잡한 신호도 매우 간단히 구현할 수 있다"고 말했다. 김 교수는 또 고차원의 최적화 문제를 기존의 반도체 기술을 바탕으로 해결할 수 있어 양자 컴퓨팅의 현실적인 대안이 될 수 있다”고 기술의 장점을 강조했다 이 연구는 KAIST 신소재공학과 김광민 박사과정, 인재현 박사, 이영현 박사과정 연구원이 공동 제1 저자로 참여했다. 관련 논문은 재료 분야 국제 학술지 `네이처 머티리얼즈(Nature Materials, Impact factor: 41.2)'(6월18일자)에 게재됐다.

2024.06.26 05:06박희범

KAIST, 챗GPT4.0 정답률보다 32.5% 더 나은 'PlanRAG' 첫 공개

KAIST가 거대언어모델(LLM)을 이용해 챗GPT4.0의 기업 의사결정 정답률을 32.5% 개선한 '플랜래그'(Plan RAG)를 처음 공개했다. 오픈AI의 최신모델인 챗GPT 4.0은 의사결정 구조에서 통상 40~50%의 정답률을 보인다. 이를 30% 이상 개선했다. KAIST는 전산학부 김민수 교수 연구팀이 ▲의사결정 문제 ▲기업 데이터베이스 ▲비즈니스 규칙 집합 등 3 가지를 기반으로 비즈니스 규칙에 부합하는 최적의 의사결정을 내릴 수 있는 '플랜래그(PlanRAG)'을 개발했다고 19일 밝혔다. 김 교수는 엔비디아 GPU 연구센터장과 IBM 알마덴 연구센터 연구원을 지냈다. 지난 2021년부터 KAIST 전산학부 교수로 재직 중이다. 연구팀은 기업 의사결정 문제를 푸는데 있어 GPT-3.5 터보에서 반복적 RAG 기술을 사용하더라도 정답률이 10% 미만이라는데 착안해 대안을 모색했다. 최근 AI분야에서는 LLM이 학습된 내용만으로 답변하는 것 대신, 데이터베이스를 검색해 답변을 생성하는 검색 증강 생성(Retrieval-Augmented Generation; 이하 RAG) 기술이 각광받고 있다. 연구팀은 여기에서 한 단계 더 나아갔다. 반복적 RAG를 이용하기 전에 먼저 어떤 데이터 분석이 필요한지에 대한 거시적 차원의 계획을 먼저 생성했다. 마치 기업의 의사결정권자가 어떤 데이터 분석이 필요한지 먼저 계획을 세우면, 그 계획에 따라 데이터 분석팀이 데이터베이스 솔루션들을 이용해 분석하는 형태와 유사한 구조다. 연구팀은 "다만 이러한 과정을 모두 사람이 아닌 거대언어모델이 수행하도록 한 것이커다란 차이"라며 "'플랜래그' 기술은 계획에 따른 데이터 분석 결과로 적절한 답변을 도출하지 못하면, 다시 계획을 수립하고 데이터 분석을 수행하는 과정을 반복한다"고 설명했다. 김민수 교수는 “지금까지 LLM 기반으로 의사결정 문제를 푼 연구가 없었다"며 "기업 의사결정 성능을 평가할 수 있는 의사결정 질의응답(DQA) 벤치마크를 새롭게 만들었다"고 말했다. 실제 이 벤치마크에서 GPT-4.0을 사용할 때 종래의 반복적 'RAG'의 의사결정 정답률에 비해 '플랜래그'는 최대 32.5%까지 정답률을 개선했다. 김 교수는 "기업 CEO가 '플랜래그'를 실제 활용하기 까지는 1~2년이 더 걸릴 것으로 예상한다"며 "기존 챗GPT 4.0의 의사결정 정답률을 획기적으로 끌어올려 문제의 3분의 2가량을 맞출 수 있다는데 큰 의미를 부여한다"고 덧붙였다. 이 연구에는 KAIST 전산학부 이명화 박사과정과 안선호 석사과정이 공동 제1 저자, 김민수 교수가 교신 저자로 참여했다. 연구 결과는 자연어처리 분야 최고 학회(top conference)인 'NAACL' 에 지난 17일 발표됐다.

2024.06.19 09:14박희범

슈퍼마이크로, '블랙웰' 탑재 AI 최적화 서버 공개

슈퍼마이크로컴퓨터는 생성형 AI 개발 및 구축을 지원하는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼에 최적화된 '슈퍼클러스터'를 11일 공개했다. 슈퍼마이크로 슈퍼클러스터는 산업을 막론하고 기업의 생성형 AI 채택을 가속화하는 클라우드 네이티브 솔루션을 위해 설계된 R2D 액침 냉각식 AI 데이터센터에서 사용된다. 엔비디아에서 최근 선보인 블랙웰 GPU에 슈퍼마이크로의 4U 수냉식 냉각 서버가 탑재돼 단일 GPU에서 20 페타 플롭스(FLOPS)의 AI 성능을 완벽하게 구현할 수 있다. 기존 GPU 대비 4배 강력한 AI 훈련 및 30배 강력한 추론 성능을 자랑하며, 추가적인 비용 절감 효과를 가져온다. 슈퍼마이크로는 시장 선점 전략에 따라 최근 블랙웰 아키텍처를 기반으로 한, 엔비디아 HGX B100, B200, 그리고 GB200 그레이스 블랙웰 슈퍼칩용 신규 제품군을 선보인 바 있다. 슈퍼마이크로는 '컴퓨텍스 2024'에 참가해 곧 출시될 엔비디아 블랙웰 GPU에 최적화된 서버를 공개했으며, 여기에는 엔비디아 HGX B200 기반의 10U 공냉식 및 4U 수냉식 냉각 서버가 포함됐다. 8U 공냉식 엔비디아 HGX B100 시스템, 엔비디아 NV링크 스위치와 상호 연결된 GPU 72개를 탑재한 슈퍼마이크로의 엔비디아 GB200 NVL72 랙, 그리고 엔비디아 H200 NVL PCLe GOU 및 엔비디아 GB200 NVL2 아키텍처를 지원하는 신규 엔비디아 MGX 시스템을 제공할 예정이다. 젠슨 황 엔비디아 창립자 겸 CEO는 “생성형 AI가 모든 컴퓨팅 스택의 재설정을 주도하고 있는 가운데, 새로운 데이터센터는 GPU 가속화로 AI에 최적화될 것”이라며 “슈퍼마이크로는 최첨단 엔비디아 가속 컴퓨팅 및 네트워킹 솔루션을 설계하고, 수조 달러 규모의 글로벌 데이터센터가 AI 시대에 최적화될 수 있도록 지원한다”고 밝혔다. LLM의 급속한 발전과 더불어 메타 라마3 및 믹스트랄 8x22B 같은 오픈소스 모델의 지속적인 출시로 인해 오늘날 최첨단 AI 모델에 대한 기업의 접근성이 높아졌다. 현재 폭발적인 AI 혁신을 지원하는 데 있어 가장 중요한 요소는 AI 인프라를 간소화하고 가장 비용 효율적인 방식에 대한 접근성을 제공하는 것이다. 슈퍼마이크로 클라우드 네이티브 AI 슈퍼클러스터는 엔비디아 AI 엔터프라이즈를 활용해 클라우드의 즉각적인 접근 편의성과 휴대성 사이의 간극을 메운다. 또한, 파일럿부터 프로덕션까지 모든 규모의 AI 프로젝트를 원활하게 추진할 수 있도록 지원한다. 이를 통해 호스팅 시스템이나 온프레미스 대규모 데이터센터를 비롯해 데이터를 안전하게 보호하는 곳에 유연성을 제공한다. 여러 업계의 기업들이 빠르게 생성형 AI 사용 사례를 실험하고 있는 가운데, 슈퍼마이크로는 엔비디아와의 긴밀한 협업을 통해 시험 및 파일럿 AI 애플리케이션에서 양산형 배포 및 대규모 데이터센터 AI로의 원활하고 매끄러운 전환을 보장한다. 이는 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼을 통해 랙 및 클러스트 단위의 최적화를 이룬 결과로, 초기 탐색부터 확장 가능한 AI 구현까지 원활한 여정을 지원한다. 관리형 서비스는 인프라 채택, 데이터 공유, 그리고 생성형 AI 전략 제어에 부정적인 영향을 미친다. 하지만 슈퍼마이크로는 엔비디아 AI 엔터프라이즈의 일부인 엔비디아 NIM 마이크로서비스를 통해 관리형 및 생성형 AI 및 오픈소스 배포의 장점만을 제공한다. 마이크로서비스를 활용한 다목적 추론 수행 시간은 오픈소스부터 엔비디아 기반 모델에 이르기까지 다양한 모델에서 생성형 AI 구축을 가속화한다. 또한, 엔비디아 NeMo를 지원해 데이터 큐레이션, 고급 커스터마이징 및 RAG를 통한 엔터프라이즈급 솔루션용 맞춤형 모델 개발이 가능하다. 슈퍼마이크로의 엔비디아 AI 엔터프라이즈용 슈퍼클러스터와 결합된 엔비디아 NIM은 확장 가능하고 가속화된 생성형 AI 프로덕션 구축을 향한 지름길로 안내한다. 슈퍼마이크로 수냉식 냉각 엔비디아 HGX H100·H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 5개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 공냉식 냉각 엔비디아 HGX H100/H200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 H100/H200 GPU 256개를 탑재한다. 슈퍼마이크로 엔비디아 MGX GH200 슈퍼클러스터는 전용 네트워킹 랙 1개를 포함해 총 9개의 랙에서 확장 가능한 컴퓨팅 단위로 그레이스 호퍼 슈퍼칩 256개를 탑재한다. 슈퍼마이크로 슈퍼클러스터는 엔드투엔드 생성형 AI 커스터마이징을 위해 엔비디아 NIM 마이크로서비스 및 엔비디아 네모(NeMo) 플랫폼 등 엔비디아 AI 엔터프라이즈를 탑재했다. 400Gbps의 네트워킹 속도로 수십만 개의 GPU가 있는 대규모 클러스터까지 확장 가능하며, 엔비디아 퀀텀-2 인피니밴드 및 신규 엔비디아 스펙트럼-X 이더넷 플랫폼에 최적화됐다. 슈퍼마이크로 슈퍼클러스터 솔루션은 LLM 학습, 딥러닝, 그리고 대용량 및 대규모 추론에 최적화됐다. 슈퍼마이크로의 L11 및 L12 검증 테스트와 현장 구축 서비스는 고객에게 원활한 경험을 선사한다. 데이터센터에서 도입이 쉽고, 그 결과를 보다 빠르게 확인할 수 있는 플러그 앤 플레이 확장형 유닛을 제공한다. 찰스 리앙 슈퍼마이크로 사장 겸 CEO는 "슈퍼마이크로는 랙 스케일 액침 냉각식 AI 솔루션을 개발 및 구축하며 지속적으로 업계를 선도하고 있다"며 "수냉식 냉각 데이터선터는 전력 사용량 감축을 통해 사실상 무상으로 제공되며, 이는 고객에게 추가적인 가치를 제공할 수 있다”고 밝혔다. 그는 “슈퍼마이크로의 솔루션은 다양한 산업군의 고객을 위해 엔비디아 AI 엔터프라이즈 소프트웨어에 최적화됐다”며 “엔비디아 HGX H100 및 H200은 물론, 새로 출시된 B100, B200, 그리고 GB200에 수냉식 또는 공냉식 냉각 턴키 클러스터를 배포하는 시간을 단축할 수 있다”고 설명했다. 그는 “냉각판부터 CPU와 냉각탑에 이르기까지 슈퍼마이크로의 랙 스케일 종합 액체 냉각 솔루션은 데이터센터에서 사용하고 있는 전력량을 최대 40%까지 줄일 수 있다”고 덧붙였다.

2024.06.11 10:31김우용

GPU 포기설 부인한 인텔...2세대 '배틀메이지' 온다

[타이베이(대만)=권봉석 기자] 인텔은 GPU 시장 재진출 선언 이후 오랜 준비 과정을 거쳐 지난 2022년 3월 모바일(노트북)용 아크 A350M, 6월 데스크톱용 아크 A380, 10월 데스크톱용 아크 A750/A770 등 아크 A시리즈(개발명 '알케미스트') GPU를 출시했다. 그러나 개발 과정이 지연된 탓에 출시 시점이 지연됐고 결국 AMD와 엔비디아 등 경쟁사 제품 대비 한 세대 전 제품 성능으로 경쟁하는 상황이 벌어졌다. 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다. 이에 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "차세대 프로세서, 루나레이크에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재되며 이를 기반으로 한 2세대 GPU '배틀메이지'도 출시될 것"이라고 밝혔다. ■ Xe2, AI 성능 강화에 중점 톰 피터슨 펠로우는 "Xe2는 Xe 코어를 개발하며 얻은 경험을 바탕으로 전력 효율과 성능 향상에 중점을 뒀고 기존 게임과 호환성을 강화했다. 게임 뿐만 아니라 고부하 작업에 최적화된 GPU"라고 설명했다. 핵심을 이루는 것은 2세대 Xe 코어이며 내부를 완전히 새로 설계했다. 512비트 벡터 엔진 8개는 AI 연산에 필요한 XMX(Xe 행렬 확장) 엔진도 8개 추가했다. 이는 기존 모바일(노트북)용 아크 그래픽스에는 추가되지 않았던 것이다. 벡터 엔진은 SIMD16(16개 수치를 동시에 처리)급 ALU(정수연산유닛)와 XMX 엔진 8개 등으로 구성됐다. XMX 엔진은 INT2, INT4, INT8, FP16, BF16 등 AI 연산이 요구하는 자료형을 폭넓게 지원한다. FP16 자료형 기준으로 행렬 곱셈시 한 클록당 2천48개 작업, INT8 자료형 기준으로 클록당 4천96 작업을 처리한다. AI 연산 성능은 INT8 자료형 기준 최대 67 TOPS(1초 당 1조번 연산)이며 정밀도가 낮은 INT4 등을 이용하면 TOPS는 더 높아진다. ■ 메테오레이크와 전력소모 같지만 성능은 1.5배 향상 전작 메테오레이크는 GPU 타일을 별도로 분리했지만 루나레이크는 GPU, 각종 코덱을 다루는 미디어, 출력을 담당하는 디스플레이 등 반도체 IP(지적재산권)를 모두 '플랫폼 제어 타일'에 분산 통합했다. Xe2 GPU는 2세대 Xe 코어 8개로 구성된다. 톰 피터슨 펠로우는 "Xe2 GPU는 기존 메테오레이크 GPU 대비 같은 전력으로 1.5배 높은 성능을 낼 것"이라고 설명했다. 2세대 Xe 코어 8개로 구성된 루나레이크 GPU의 AI 연산 성능은 67 TOPS다. 스테이블 디퓨전 1.5로 그림 파일 한 장을 생성하는 시연에서 메테오레이크 소요시간은 13.29초, 루나레이크 소요 시간은 6.345초로 처리 시간이 절반으로 단축됐다. ■ 디스플레이 엔진, 주사율 조정·절전 기능 포함 GPU가 처리한 영상을 모니터나 화면을 보내는 디스플레이 엔진은 8K60p HDR 화면 1개, 혹은 4K 60p HDR 화면 3개를 동시에 출력할 수 있다. HDMI 2.1, 디스플레이포트 2.1 규격 외에 노트북 화면을 제어하는 eDP 1.5를 지원한다. eDP 1.5의 주요 기능 중 화면주사율 가변 조정이 있다. 초당 24개 그림으로 구성된 영화 재생시 60Hz 디스플레이에서는 움직임이 부자연스러워질 수 있지만 이를 2의 배수인 48Hz로 표시하면 보다 자연스러운 화면을 볼 수 있다. 이외 기능으로는 같은 화면이 표시될 경우 데이터 전송 빈도를 낮추고 대기 상태에서 전력 소모를 최소화하는 기능을 포함했다. 대기 화면에서는 기존 대비 18mW, 유튜브 전체 화면 재생시는 351mW를 절감해 배터리 지속시간을 늘린다. ■ 미디어 엔진, 차세대 코덱 VVC 재생 지원 미디어 엔진은 각종 영상 코덱을 압축·재생하는 역할을 담당한다. 루나레이크에 포함된 미디어 엔진은 최대 8K 60p HDR 영상까지 처리할 수 있다. 처리 가능한 코덱은 현재 널리 쓰이는 영상 코덱인 H.264/265, 오픈소스 코덱인 AV1이며 H.265 이후 차세대 코덱으로 꼽히는 VVC(H.266) 재생도 추가했다. VVC 코덱은 AV1 코덱 대비 파일 용량을 10% 더 줄일 수 있고 화면의 글자나 그림에 맞는 압축방법을 지원해 화면 녹화시 유용하다. 그러나 현 시점에서 이를 재생하려면 고성능 CPU/GPU가 필요하다. 루나레이크 내장 미디어 엔진은 VVC 코덱 재생을 하드웨어로 처리해 전력 소모를 줄였다. 4K(3840×2160 화소) 재생시 메테오레이크는 CPU를 이용한 소프트웨어 재생으로 35W를, 루나레이크는 2.9W를 써 전력 소모는 1/10 수준으로 줄어든다. ■ XeSS 이용해 1080p 게임 초당 60프레임 이상으로 구동 톰 피터슨 펠로우는 루나레이크 내장 Xe2 GPU가 AI 기반 저해상도 업스케일 기술 'XeSS'를 활용해 최신 게임을 보다 원활하게 즐길 수 있다고 강조했다. 이를 극단적으로 드러나는 것이 게임 'F1 24' 시연이다. 지난 5월 28일 출시된 게임을 루나레이크는 1080p '높음' 설정에서 문제없이 소화했다. 초당 프레임도 60프레임 이상으로 매우 원활히 구동된다. 인텔 관계자는 "게임 실행시 960×540 화소 화면을 업스케일해 풀HD(1920×1080 화소) 해상도로 4배 업스케일하는 XeSS 기능을 이용했다. 레이트레이싱이 적용돼 보다 사실적인 화면을 볼 수 있다"고 설명했다.

2024.06.04 12:30권봉석

"AI PC, 사생활 침해·지연 없는 맞춤형 경험 제공할 것"

[타이베이(대만)=권봉석 기자] AI PC의 핵심은 클라우드에 의존했던 AI 기능을 PC로 가져오는 것이다. 미리 학습된 AI 모델을 내려받아 CPU와 GPU, NPU(신경망처리장치)를 모두 활용해 가동하므로 LTE/5G나 와이파이가 없는 곳에서도 작동한다. 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "AI PC는 금융 정보나 건강 정보 등 민감한 정보를 관리하는 한편 이용자 특성을 학습해 맞춤형 비서 서비스를 제공할 수 있다"고 밝혔다. 이어 "금융 정보나 건강 정보 모두 외부에 공개하기 어려운 정보지만 AI PC는 이를 클라우드에 올리는 대신 기기 내에서 자체적으로 처리해 사생활 침해나 유출을 막는다"고 덧붙였다. ■ "AI PC 구현에 CPU·GPU·NPU 모두 중요" 현재 인텔을 포함해 주요 프로세서 제조사가 AI 처리 성능 기준으로 NPU TOPS(1초당 1조 번 연산)를 내세운다. 이는 모든 AI 처리가 NPU만 활용한다는 인식을 줄 수 있지만 실제는 이와 다르다. 톰 피터슨 펠로우는 지난 5월 인텔 자체 조사 결과를 토대로 "올해 AI 엔진을 구동하는 장치 비중은 NPU가 25%, GPU가 40%, CPU가 35%지만 내년에는 NPU 비율이 30%대로 다소 상승, CPU 비율은 30%로 다소 변화가 있을 것"이라고 전망했다. 그는 "AI 응용프로그램의 작동 방식에 따라 차이가 있다. GPU는 생성과 인식에, NPU는 항시 가동돼야 하는 악성코드 감지 등에 유용하다. CPU의 TOPS는 낮지만 빠른 시간 안에 결과를 얻어야 할 때 유용하다"고 설명했다. ■ "AI 처리 부하 줄이는 양자화 기술, 오픈소스로 개방" AI 모델의 정밀도가 높아질 수록 처리 시간과 용량, CPU/GPU/NPU에 가해지는 부하도 급증한다. 현재 AI 모델의 주류를 이루는 것은 FP32(32비트 부동소수점), FP16이지만 용량과 처리 속도 면에서 이를 PC로 처리하는 데는 무리가 있다. 정밀도를 FP16(32비트 부동소수점), INT8(8비트 정수) 등 PC에서 처리할 수 있는 수준으로 조절해야 한다. 이를 해결하기 위한 방법이 양자화이며 처리 속도 향상, AI 모델 용량 축소 등이 가능하다. 톰 피터슨 펠로우는 "양자화를 쉽게 처리할 수 있는 기술인 '인텔 신경망 압축'을 오픈소스 AI 생태계인 ONNX에 오픈소스 기술로 제공할 것"이라고 설명했다. ■ 인텔, 파이3 코어 울트라에 최적화...초당 25 단어 생성 인텔은 지난 4월 공개된 마이크로소프트 LLM(거대언어모델)인 파이3를 코어 울트라 시리즈 프로세서에 최적화했다. 코어 울트라 시리즈1(메테오레이크)에서 첫 단어가 나오는 데는 1초 미만, 초당 25단어를 생성해 이미 사람 눈으로 따라갈 수 없는 수준까지 향상됐다. 루나레이크의 AI 처리 성능은 여기서 한 단게 더 나아갔을 것으로 추정된다. 톰 피터슨 펠로우는 "AI 처리 속도를 높이는 것은 매우 중요한 일이다. 앞으로는 AI 응용프로그램이 사람 대신 다른 프로그램, 다른 서비스와 직접 상호작용하며 학습하게 될 것"이라고 설명했다. ■ "생태계 확대 위해 루나레이크 개발자 키트 곧 공급" 인텔이 AI PC 구현을 위해 이용하는 기술은 오픈비노(OpenVINO)다. PC의 CPU와 GPU, NPU를 모두 활용해 AI 처리 연산을 가속한다. 윈도 다이렉트ML, ONNX 런타임, 윈도 AI 등 다양한 소프트웨어를 지원한다. 인텔은 오픈비노를 활용한 개발자 생태계 확대를 위해 루나레이크 프로세서 기반 AI PC 개발 키트도 사전 공급할 예정이다. 가로·세로 165mm×150mm, 높이 27mm의 슬림한 케이스에 루나레이크 프로세서와 LPDDR5 32GB 메모리를 장착했다. 톰 피터슨 펠로우는 "루나레이크는 5 TOPS CPU, 67 TOPS GPU, 48 TOPS NPU를 결합해 최대 120 TOPS를 발휘할 수 있으며 게임과 AI 비서, 생성 AI를 이용한 콘텐츠 제작에 최적화됐다"고 강조했다.

2024.06.04 12:00권봉석

인텔 루나레이크, 저전력·고효율 목표로 경쟁력 강화

[타이베이(대만)=권봉석 기자] "3분기 출시할 모바일(노트북)용 프로세서 '루나레이크'(Lunar Lake)는 x86 프로세서에 대해 사람들이 가진 생각은 물론 AI PC를 경험하는 방식을 바꿀 것이다. CPU와 GPU(그래픽처리장치), NPU(신경망처리장치) 모두 경쟁에서 이길 것이다." 컴퓨텍스 타이베이 2024 전 주 진행된 '인텔 테크투어 타이완' 기조연설에서 미셸 존스턴 홀타우스 인텔 CCG(클라이언트 컴퓨팅 그룹) 총괄(수석부사장)이 이렇게 강조했다. 인텔 테크투어는 2022년부터 시작된 연례 기술 행사다. 매년 새 프로세서 출시를 앞두고 각국 기자단에 강점과 특징 등을 소개한다. 올해 행사에는 한국을 포함해 15개 국가와 지역에서 150개 매체, 227명이 참석했다. 올해 행사 핵심은 오는 3분기 출시될 모바일용 프로세서, 루나레이크다. 이달부터 국내 포함 전 세계 시장에 출시되는 퀄컴 스냅드래곤 X 엘리트/플러스, 하반기 출시될 AMD 라이젠 프로세서와 경쟁할 제품이다. ■ TSMC 위탁생산 타일과 메모리, 인텔 기술로 조립 전작인 코어 울트라 시리즈1(메테오레이크)는 컴퓨트(CPU), GPU, SOC, I/O 등 4개 타일을 인텔과 TSMC가 생산한 다음 3차원 적층 기술 '포베로스'(FOVEROS)로 결합해 구성했다. 반면 루나레이크는 CPU 타일, 그리고 GPU와 NPU, 미디어 엔진 등 다양한 반도체 IP(지적재산권)를 재배치/통합한 플랫폼 제어 타일 등 단 두 개로 구성됐다. 여기에 LPDDR5X 메모리를 결합해 주요 PC 제조사에 공급된다. CPU와 GPU가 한 메모리를 같이 쓰는 통합 구조로 애플 M시리즈 프로세서와 같은 방식의 접근을 택했다. 한 다이(Die) 안에서 데이터가 오가므로 메모리를 분리했던 과거와 달리 지연시간과 면적은 줄이면서 대역폭은 높일 수 있다. 핵심 요소인 컴퓨트 타일(TSMC N3B), 그리고 플랫폼 제어 타일 모두 대만 TSMC가 만들었다는 것도 특징이다. 두 타일을 연결하는 베이스 타일은 인텔 22나노미터 공정에서 생산됐다. ■ 컴퓨트 타일 내 P·E코어, 전력 효율성 강화에 방점 컴퓨트 타일은 고성능 P(퍼포먼스) 코어 '라이언코브'(Lion Cove) 4개와 저전력·고효율 E(에피션트) 코어 '스카이몬트'(Skymont) 4개, 총 8개 코어로 구성된다. 대부분의 작업은 E코어가 먼저 처리하며 고성능이 필요한 작업에서 P코어가 작동한다. P코어와 E코어는 최근 강조되는 지표인 와트 당 성능, 다시 말해 전력 효율성 향상에 중점을 뒀다. E코어 '스카이몬트'는 P코어 '라이언코브'보다 적은 전력으로 같은 성능을 내도록 설계됐다. 인텔 자체 검증 결과 전작(메테오레이크) 대비 클록 당 명령어 처리 성능은 P코어 최대 14%, E코어 최대 68%까지 향상됐다. 동영상 재생이나 대기 상태 등 단순한 작업만 처리하던 '저전력 아일랜드 E코어' 성능도 전세대 대비 최대 2배 향상됐다. P코어 한 개를 두 개처럼 쓰는 프로세서 효율 향상 기술인 '하이퍼스레딩'은 루나레이크에서 빠졌다. 하이퍼스레딩이 빠진 대신 IPC(클록당 처리 가능 명령어 수)를 크게 높여 성능 하락이 일어나지 않을 것이라는 것이 인텔 관계자 설명이다. ■ 성능 높이고 전력소모 줄인 Xe2 GPU로 AI 가속 GPU는 게임이나 동영상 처리 뿐만 아니라 AI PC에서 중요도가 한층 커졌다. 고밀도 연속 AI 연산을 단시간에 처리하려면 GPU의 도움은 필수다. AI 연산 성능을 가늠하는 지표인 TOPS(1초 당 1조 번 AI 연산) 중 상당수가 GPU에서 나온다. 루나레이크의 GPU는 새롭게 개발한 Xe 코어 8개를 결합한 'Xe2'다. 내부 구조를 보완해 메테오레이크 대비 성능은 50% 가까이 늘어났다. AI 연산 중 상당수를 차지하는 행렬 관련 처리를 위한 XMX도 더해 AI 처리량은 1.5배 이상 향상됐다. Xe2 GPU의 AI 연산 성능은 최대 67 TOPS다. 디스플레이 규격은 2022년 하반기 정식 확정된 디스플레이포트 2.1, HDMI 2.1과 함께 노트북 직결 디스플레이 패널과 연결되는 eDP 1.5도 함께 지원한다. 처리가 쉽지 않은 차세대 코덱인 VVC(H.266) 재생도 지원한다. ■ AI 연산 성능 NPU 단독 48 TOPS, 최대 120 TOPS 가능 마이크로소프트는 최근 '빌드' 행사에서 PC 이용 이력을 추적하는 기능인 '리콜' 등을 담은 새로운 PC 카테고리인 '코파일럿+ PC'를 공개한 바 있다. 코파일럿+ PC는 40 TOPS 이상 NPU 탑재를 요구한다. 루나레이크에 탑재된 인텔 4세대 NPU인 'NPU 4' 성능은 전작(10.5 TOPS) 대비 3배 이상인 최대 48 TOPS까지 향상됐다. 과거 2개에 그쳤던 NPU 내 연산 장치를 최대 6개까지 늘리는 한편 작동 클록도 끌어올렸다. NPU와 GPU의 성능 강화에 따라 루나레이크의 AI 연산 성능도 세 자릿수까지 올라섰다. NPU 48 TOPS, GPU 67 TOPS와 CPU 5 TOPS를 합해 최대 120 TOPS까지 AI 연산이 가능해졌다는 것이 인텔 설명이다. ■ S/W 생태계 확대 위해 루나레이크 개발킷도 보급 AI PC의 쓰임새를 최대한 확보할 수 있는 소프트웨어 관련 역량 확보도 중요하다. 인텔은 이미 AI 모델 500개를 코어 울트라에 최적화하는 한편 에이수스와 협력해 코어 울트라 시리즈1 기반 개발자 키트도 보급중이다. 미셸 존스턴 홀타우스 총괄은 "최대 120 TOPS를 실현 가능한 개발자 키트를 생산해 AI PC용 소프트웨어 개발자에게 공급할 것이다. 업그레이드가 가능한 구조로 개발돼 향후 등장할 '팬서레이크'(Panther Lake) 등 다음 제품과도 호환될 것"이라고 설명했다. 인텔은 현재 루나레이크 제품화 단계인 'B0' 스테핑 단계 실리콘이 생산에 들어갔다고 밝혔다. 오는 3분기부터 주요 PC 제조사에 공급되며 오는 연말까지 20개 제조사가 80개 이상의 제품을 출시 예정이다.

2024.06.04 12:00권봉석

인텔 "루나레이크 NPU 성능 4배 강화... 전력 효율도 개선"

[타이베이(대만)=권봉석 기자] 인텔이 올 3분기부터 주요 PC 제조사에 공급할 모바일(노트북)용 프로세서, 루나레이크(Lunar Lake)는 플랫폼 컨트롤러 타일에 최대 48 TOPS(1초 당 1조 번) AI 연산이 가능한 4세대 NPU(신경망처리장치), NPU 4를 탑재한다. NPU 4는 CPU나 GPU 대비 훨씬 적은 전력으로 CPU(5 TOPS)의 5배 이상, Xe2 GPU(67 TOPS)의 71% 수준 AI 처리를 수행한다. AI 연산 성능만 따지면 코어 울트라 시리즈1(메테오레이크)의 CPU, GPU, NPU를 모두 합친 수치(34 TOPS)를 넘어선다. NPU 4는 PC가 켜져 있을 때 항상 같이 돌아가야 하는 음성 인식, 악성코드 탐지, 카메라를 이용한 사물 인식 등에 적합하다. 스테이블 디퓨전 1.5 기준으로 NPU 3 대비 최대 4배 빠르게 이미지를 생성해 전력 효율도 2.9배 향상됐다. ■ 인텔 NPU, 2018년 첫 출시 이후 올해 4세대 돌입 인텔 NPU는 2016년 인텔이 인수한 스타트업 '모비디우스' 기술력 기반으로 만들어졌다. 2018년 출시된 첫 제품은 별도 칩으로 출시돼 USB 단자 등을 통해 PC에 연결해 작동했다. 연산 성능은 0.5 TOPS로 영상 처리나 사물 인식 등에 적합했다. 2세대 제품인 'NPU 2'는 2021년 출시된 제품이며 IoT(사물인터넷) 기기를 대상으로 했다. 연산 속도는 7 TOPS 수준이며 배경 흐림, 프레임 인물 고정 등 윈도 스튜디오 효과를 지원했다. 지난 주 진행된 '테크투어 타이완' 행사에서 대런 크루스(Darren Crews) 인텔 NPU 수석 아키텍트는 "NPU는 7년 전만 해도 카메라를 통한 사물 인식 등에 주로 쓰였지만 현재는 높은 연산 성능과 함께 전력 효율성 등 두 가지 목표를 모두 달성해야 하는 상황"이라고 설명했다. ■ NPU 4 하나로 메테오레이크 연산 성능 능가 지난 해 출시된 코어 울트라 시리즈1(메테오레이크)는 SOC 타일에 3세대 제품 'NPU 3'를 통합했다. 연산 성능은 11.5 TOPS로 전체 연산 성능(34 TOPS)의 1/3 가량을 차지한다. 반면 후속 제품인 루나레이크에 탑재된 NPU 4의 AI 연산 성능은 최대 48 TOPS로 메테오레이크의 CPU, GPU, NPU를 모두 합친 것보다 더 빠르다. 대련 크루스 수석 아키텍트는 "AI 연산을 실제로 수행하는 엔진 수 증가, 작동 주파수 향상, 내부 아키텍처 개선으로 NPU 4의 성능이 급격히 향상됐다"고 설명했다. ■ "TOPS 수치, 작동 클록과 MAC 연산 능력이 좌우" 최근 PC용 프로세서를 구성하는 CPU와 GPU, NPU의 AI 연산 성능 측정을 위한 기준으로 'TOPS'가 널리 쓰인다. 그러나 이 수치가 정확히 어떤 과정을 거쳐 나오는지 정확히 아는 사람은 드물다. 대런 크루스 수석 아키텍트는 "TOPS는 AI 처리에 주로 쓰이는 연산 속도와 NPU 작동 클록에 크게 영향을 받는다" 고 설명했다. AI 연산에 가장 널리 쓰이는 연산 방식은 큰 수치를 서로 곱해 더하는 행렬 연산인 MAC 연산이다. 메테오레이크의 NPU 3내 연산 엔진은 두 개이며 한 클록당 4천96개의 MAC 연산을 수행한다. 여기에 작동 클록(1.4GHz)을 곱하고 1조 번(10의 12승)으로 나눈 값이 11.5 TOPS다. 같은 방식으로 계산하면 루나레이크 내장 NPU 4의 TOPS는 48 TOPS다. ■ "TOPS는 행렬 연산에 치중... 벡터 계산 성능 향상도 중요" 단 MAC 연산 처리량은 자료형(데이터타입)의 정밀도에 큰 영향을 받는다. 예를 들어 인텔이 기준으로 삼은 자료형은 INT8(정수 8비트)이다. 이를 INT4(정수 4비트)로 바꾸면 MAC 연산량과 TOPS는 각각 두 배로 뛴다. 대런 크루스 수석 아키텍트는 "TOPS 값은 계산으로 얻어진 값이며 주로 행렬 연산에 집중됐다. 그러나 큰 수치를 한꺼번에 처리하는 벡터 연산이 실제 AI 응용프로그램 성능에 더 큰 영향을 미친다"고 설명했다. NPU 4는 벡터 연산을 처리하는 레지스터 크기를 512비트로 확장하고, 대역폭은 전 세대 대비 4배 높였다. 행렬과 수치 연산을 모두 강화해 다양한 AI 연산을 처리할 수 있게 됐다. 양자화 전용 회로도 내장해 INT8, FP16 자료형을 모두 지원한다. ■ "TOPS, 행렬 연산에 치중...벡터 계산 성능 향상도 중요" NPU 4는 뉴럴 연산 엔진을 2개에서 6개로 3배 늘렸다. MAC 연산을 담당하는 어레이도 4천 개에서 1만 2천개로 늘어났다. 같은 소비 전력에서 NPU 3 대비 성능은 두 배 늘어났고 최대 성능은 4배로 뛰어올랐다. 벡터 연산 성능은 최대 12배, TOPS는 4배 이상 향상됐다. LLM(거대언어모델)의 토큰 생성 속도에 영향을 미치는 대역폭도 최대 2배 향상됐다. 오픈소스 그래픽 프로그램 '김프'(GIMP)로 스테이블 디퓨전 1.5 플러그인을 이용해 이미지를 생성하는 테스트에서 메테오레이크는 22.08초, 루나레이크는 5.43초로 실제 처리 시간이 1/4 수준으로 줄었다. 전력 소모는 NPU 3와 NPU 4 사이에 큰 차이가 없다. 메테오레이크 소모전력은 9W, 루나레이크 소모전력은 11.2W다. 대런 크루스 수석 아키텍트는 "소모 전력이 높아졌지만 소요 시간이 크게 줄어 실제 전력 소모는 줄어든다. 이를 통해 전력 효율을 2.9배 높였다"고 밝혔다.

2024.06.04 12:00권봉석

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

윤곽 잡힌 K-로봇 청사진…자원 효율적 안배 집중해야

"갤S25 엣지, 더 싸게 사자"...자급제폰 온라인몰서 인기

닛산 몰락·혼다 후퇴 '후진하는 일본차'..."남일 아냐"

"기술이 뚫려도 제도가 막았어야"...유심 해킹 민낯

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현