• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 가속기'통합검색 결과 입니다. (35건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

'델' 주도 AI 서버 시장, 엔비디아 최신 칩 등장 속 판도 변화 올까

생성형 인공지능(AI) 시장 확대와 맞물려 AI 가속기 기반 서버 수요가 폭발하면서 관련 업체들이 고객 확보 경쟁에 본격 나섰다. 각 업체들은 최신 AI 칩을 기반으로 한 신무기를 잇따라 선보이며 점유율 확대에 사활을 건 분위기다. 16일 블룸버그통신에 따르면 델 테크놀로지스는 엔비디아의 AI 가속기인 '블랙웰' 칩을 탑재한 서버를 다음 달부터 일부 고객에게 발송한다. 내년 초부터는 일반 고객에게도 제공될 예정이다. '블랙웰'은 기존 엔비디아 AI 칩인 'H100', 'H200' 등 호퍼(Hopper)를 이을 최신 칩으로, 올해 11월부터 본격적인 양산에 들어간다. 'GB200'은 엔비디아가 블랙웰 아키텍처로 생산된다. 블랙웰 AI 서버 시스템인 'GB200 NVL72'는 이미 출하되고 있는 상태로, 2개의 블랙웰 GPU와 엔비디아의 CPU인 그레이스를 하나로 연결한 GB200 슈퍼칩 36개로 구성됐다. 가격은 380만 달러에 달하며 엔비디아 'GB200' 출하의 대부분을 차지할 것으로 전망됐다. 델 테크놀로지스는 'GB200 NVL72' 시스템을 기반으로 한 파워엣지 'XE9712'를 현재 일부 고객들에게 샘플용으로 공급하고 있다. '블랙웰' 칩은 지난 8월 패키징 결함으로 출시가 다소 늦어질 것으로 예상됐으나 최근 본격 생산되기 시작하며 수요가 폭발적으로 늘어나고 있는 상태다. 특히 마이크로소프트, 오픈AI 등 빅테크들이 AI 데이터센터 구축을 위해 '블랙웰'을 대량 주문하면서 이미 12개월치 생산 물량이 매진됐다. 이 같은 상황에서 델 테크놀로지스는 엔비디아와의 끈끈한 협력 관계를 바탕으로 '블랙웰' 초기 물량 확보에 성공하며 AI 서버 시장에서 입지를 더 탄탄히 구축할 수 있게 됐다. 아서 루이스 델 테크놀로지스 인프라스트럭처 부문 사장은 "'블랙웰' 칩이 포함된 AI 기반 서버는 다음 달 일부 고객에게 보내져 내년 초에 일반 공급될 것"이라며 "다양한 서비스 및 제품으로 차별화한 덕분에 엔비디아의 최신 칩을 조기에 공급 받을 수 있었다"고 설명했다. 델 테크놀로지스는 현재 AI 작업용 고성능 서버 판매 사업 확장에 주력하고 있는 상태로, '블랙웰' 외에 AMD의 기술을 탑재한 AI 특화 서버 신제품 'XE7745'도 전날 공개해 고객들의 선택 폭을 넓혔다. 이 제품은 4U 공냉식 섀시에서 최대 8개의 이중 폭 또는 16개의 단일 폭 PCIe GPU와 AMD 5세대 에픽 프로세서를 지원한다. 이 제품은 AMD 5세대 에픽 프로세서를 탑재한 '델 파워엣지 R6715'와 '델 파워엣지 R7715' 서버와 함께 내년 1월까지 순차적으로 출시된다. 경쟁사인 HPE는 엔비디아 '블랙웰'의 대항마로 여겨지는 AMD의 '인스팅트 MI325X' 가속기를 탑재한 'HPE 프로라이언트 컴퓨트(ProLiant Compute) XD685'를 새로운 무기로 꺼내들었다. 이 서버는 대규모 언어 모델(LLM) 학습, 자연어 처리(NLP), 멀티모달 학습 등 고성능 인공지능(AI) 클러스터를 신속하게 배포할 수 있도록 설계된 제품이다. 또 5U 모듈형 섀시로 다양한 GPU, CPU, 구성 요소, 소프트웨어 및 냉각 방식을 수용할 수 있는 유연성을 갖추고 있다. 이번 일을 기점으로 HPE는 AMD와의 협력을 통해 앞으로 AI 서비스 제공업체, 정부, 대규모 AI 모델 개발자들이 요구하는 유연하고 고성능의 솔루션을 제공해 AI 경쟁에서 우위를 점하겠다는 목표를 가지고 있다. 트리시 댐크로거 HPE HPC 및 AI 인프라 솔루션 부문 수석 부사장은 "AMD와 협력해 HPE 프로라이언트 컴퓨트 XD685로 AI 혁신을 확장할 것"이라며 "AI 모델 개발자 시장의 수요에 부응하며 산업 전반에서 과학과 공학의 혁신을 가속화할 것"이라고 말했다. 슈퍼마이크로 역시 AMD '인스팅트 MI325X' 기반의 새로운 서버를 최근 선보였다. 이번에 출시한 'H14' 서버 포트폴리오는 슈퍼마이크로의 하이퍼 시스템, 트윈 멀티노드 서버 및 AI 추론 GPU 시스템을 포함하고 있다. 또 모든 제품이 공냉식 또는 수냉식 옵션으로 제공된다. 찰스 리앙 슈퍼마이크로 CEO는 "'H14' 서버는 에픽 9005 64코어 CPU를 탑재해 2세대 에픽 7002 시리즈 CPU를 사용하는 자사 'H11' 서버 대비 2.44배 더 빠른 성능을 제공한다"며 "고객은 데이터센터의 총면적을 3분의 2 이상 줄이고 새로운 AI 처리 기능을 추가할 수 있다"고 설명했다. 이처럼 각 업체들이 AI 시장을 노리고 잇따라 성능을 높인 새로운 서버를 출시하면서 업계에선 시장 판도에 변화가 생길 지 주목하고 있다. 전 세계 서버 시장은 현재 델테크놀로지스가 주도하고 있는 상태로, HPE와 슈퍼마이크로가 뒤를 잇고 있다. 특히 현재 5~7%가량의 점유율을 차지하고 있는 슈퍼마이크로는 GPU 기반 AI 서버 시장에서 존재감을 높이며 델 테크놀로지스를 점차 위협하고 있다. 미즈호증권 비제이 라케시 애널리스트에 따르면 2022~2023년 AI 서버 시장 내 슈퍼마이크로의 점유율은 80~100%에 달했다. 다만 델 테크놀로지스도 최근 들어 AI 서버 매출을 점차 늘리고 있다. 올해 5~7월에는 31억 달러가 출하됐고, 지난해 5월부터 올해 4월까지는 60억 달러가량의 AI 서버가 판매됐다. 업계 관계자는 "AI 서비스에 대한 수요가 증가함에 따라 자연스럽게 AI 서버에 대한 수요도 함께 늘어나고 있다"며 "우수한 설계 능력과 강력한 AI 파트너십을 바탕으로 존재감을 드러내고 있는 슈퍼마이크로가 향후 델, HPE 등 경쟁사들의 점유율을 빼앗을 가능성이 높다"고 말했다. 아거스리서치 애널리스트들은 "슈퍼마이크로는 AI 시대를 선도하는 컴퓨터 및 서버 업체"라며 "지난 1년간 큰 폭의 이익을 얻었는데 앞으로도 수년 동안 강력한 매출 성장과 마진 확대, 주당순이익(EPS) 가속화에 대비하고 있다"고 평가했다.

2024.10.16 11:51장유미

차세대 발사체 지재권 논쟁 재점화…"매칭펀드 입장 서로 달라"

8일 세종 과학기술정보통신부에서 진행된 국회 과학기술정보방송통신위원회 국정감사 과학기술계 분야에서는 예상대로 R&D예산과 과학기술 경쟁력, 인력 유출 등이 집중 거론됐다. 그러나 관심을 끌 폭탄급 이슈는 없었다. 무난하게 진행됐다는 평가다. 정동영 의원(더불어민주당, 전북 전주시병)은 과학기술 경쟁력에 대해 질문 공세를 폈다. 정 의원은 "우주항공해양 첨단 바이오 핵심기술 136개 기술 평가에서 중국이 처음 우리를 넘어섰다. 충격이다"며 대응책을 따졌다. 이에 대해 유상임 과기정통부 장관은 "개인적으로 예상했다"며 "최소한 AI는 한 번 경쟁해야 한다"고 답변했다. 윤영빈 청장 "일본 JAXA와 규모 유사...경쟁해볼만" 정 의원은 "중국은 우주항공, 자율주행 등 첨단 분야에서 일취월장인데, 우리는 제자리 걸음"이라며 "우주항공의 경우 우리는 기술 개발을 R&D 측면에서 접근한다면, 중국은 국가발전 원동력이자 전략 차원으로 접근한다"고 방안 마련을 촉구했다. 윤영빈 우주항공청장은 우주 항공 비전과 목표에 대해 "20년 뒤 시장의 10%를 차지할 계획"이라며 " 현재 293명이 정원이다. 168명이 채워져 있다. 우리는 우주 개발 정책을 수립한다. 항우연 1천 명, 천문연 300명 합치면 1천600명이다. 일본 JAXA(우주항공연구개발기구) 규모는 된다. 해볼 만 하다"고 답변했다. 정 의원은 중국이 양자 컴퓨팅에 국가 차원에서 집중 투자한다며 우리나라도 양자 컴퓨팅 투자도 촉구했다. 유상임 장관은 "3대 게임저 중에 양자파트가 상대적으로 약하다고 생각했다. 그런데 양자컴은 휘발성이 아주 크다"며 "취약한 상황을 단시일내에 따라 잡을 계획이다. 인재양성과 R&D는 같이 인력을 수급하며 풀어가야 한다"고 답했다. 박민규 의원(더불어민주당,서울 관악구갑)은 국립전파연구원의 R&D 전액 예산 삭감을 따져 물었다. 이해민 의원(조국혁신당)은 최근 논란을 일으킨 김형숙 한양대 교수의 전공을 집중 추궁하며, 낙하산 채용 의혹을 제기했다. 이 의원은 김 교수가 '한양대 데이터 사이언스학과 심리뇌과학 전공 교수'라는 점을 찍어 이름과 전공을 공개하며 질문 공세를 폈다. 용산 어린이 정원 계획 과기정통부 예산 42억 배정 따지기도 이정헌 더불어민주당 의원(광진구갑)은 용산 공원(어린이 정원)을 조성하며 과학정통부 예산이 졸속으로 편성된 것 아니냐고 질책했다. 이 의원은 "지난 2월 전시가 제안되고, 5월 논의가 된 것으로 아는데, 42억 1천500만원을 갑자기 용산공원 프로젝트에 포함시킨 이유가 뭐냐"고 따졌다. 용산공원 프로젝트는 6개 부처가 736억 원을 들여 진행하는 어린이 정원 공사다. 국토교통부가 416억 원으로 가장 많이 부담한다. 이에 대해 이창윤 1차관은 "용산 공원이 어린이 접근성이 좋다"며 "그런 측면에서 용산 예산 투입을 결정했다"고 해명했다. 조인철 더불어민주당 의원(광주 서구갑)은 국가 R&D예산을 지역별로 뽑아 달라고 주문해 관심을 끌었다. 김우영 의원(더불어민주당, 서울 은평구을)은 글로벌 R&D와 한미일 협력 방안, 김형숙 교수 논란 등에 대해 따졌다. 최수진 의원(국민의힘, 비례대표)는 출연연구기관 예산과 인력 감소 문제를 꺼내 들었다. "인력 유출 주로 20~30대...출연연 환경 개선을" 최 의원은 "출연연구기관이 공공기관에서 제외되고, PBS(연구성과중심제)의 문제점을 잘 안다. 출연연 예산이 5조 3천억 원까지 증가한 것도 안다. 그런데 출연금은 전체의 17% 정도다, 인건비가 10.66%고, 경상비가 6.65%인데, 이는 물가 상승분에 못미치는 수치"라고 연구 환경 개선을 촉구했다. 최 의원은 인력 유출 문제도 거론했다. 최 의원은 "20~30대가 메인인데, 지난 5년간 487명이 떠났다. 40~50대는 232명이었다"며 "이를 위해 ▲자율적인 책임경영 ▲블럭펀딩 확대 ▲인건비 재량권 확대 ▲우수 연구자 정년 연장 ▲주당 근무 52시간에 대한 유연성 확보 등을 주문했다. 이에 대해 유상임 장관은 "출연연 연구자가 대학과 경쟁하는 것은 바람직하지 않다"며 "CDMA 등 처럼 국가 전략 기술은 블럭펀딩으로 연구해야 한다"고 집단 연구에 공감을 나타냈다. 최 의원은 이를 개선하기 위한 TFT라도 짜서 대응할 것을 주문했고, 이에 대해 유상임 장관은 확실한 실행과 추진을 약속했다. "항우연선 하드디스크 떼어 들고 다녀도 되나" 질책 박충권 의원(국민의원, 비례대표)은 항공우주연구원-한화에어로스페이스 간 차세대발사체 관련한 지적 재산권 분쟁과 인력 유출 문제를 거론했다. 박 의원은 "이와 관련 11명이 조사받아 결국 무혐의 결론이 났지만 나머지 4명은 이직 과정에서 불법이 발견돼 조사가 진행 중"이라며 "이직 연구원들이 무리하게 하드 디스크를 떼어 들고 다니고, 특정 자료를 과도하게 들여다본 것에 대한 내부 제보로 과기정통부 감사가 진행됐다"고 했다. 박 의원은 이들 4명을 영입할 것이냐고 다그쳤고, 이에 대해 손재일 한화에어로스페이스 공동대표는 "4명 조사 끝나면 검토할 것"이라고 답했다. 손 대표는 "이 사건은 당황스럽고, 황당하다. 문제되는 연구원은 채용을 안하고 있다"고 말했다. 손 대표는 또 항우연과의 지재권 분쟁에 대해 "입찰 공고 때 공동소유라고 돼 있다"며 "작업 실질 내용을 보면 인적, 물적 자원을 투입해 공동개발하기에 공동 소유를 주장한다"고 답했다. 손 대표는 전체 과제가 900건이 넘는 것으로 보고 받았다. 그 가운데 40%를 주관하고 있고, 그걸 포함해서 80%를 주관 또는 참여하고 있다"고 부연 설명했다. 이에 대해 윤영빈 우주청장은 "매칭펀드를 내지 않으면 지재권을 가져갈 수 없다"고 명확히 못박았다. 차세대 발사체 개발에서 펀딩를 했느냐 않했느냐의 여부가 쟁점으로 부상할 전망이다. 이어 황정아 의원은 포항가속기연구소 채용비리와 예산 남용, 허위보고 등의 문제를 지적했다.강홍식 포항가속기연구소장은 이에 대해 "채용비리나 아차사고 등은 문제가 안되고, 레이저 안전사고 등의 규정을 잘 몰라 늦게 보고한 것"이라고 대답했다.

2024.10.08 19:02박희범

퓨리오사AI, 차세대 AI칩 '레니게이드' 공개

AI 반도체 스타트업 퓨리오사AI는 미국 현지시간 기준 26일 'Hot Chips 2024' 컨퍼런스에서 2세대 AI 반도체 RNGD(레니게이드)를 공개했다고 28일 밝혔다. 퓨리오사의 2세대 AI 반도체 RNGD는 거대언어모델(LLM) 및 멀티모달모델의 효율적인 추론을 위해 설계된 데이터센터용 가속기다. 국내 팹리스가 Hot Chips 행사에서 신제품 발표자로 선정된 것은 최초다. HBM3가 탑재된 추론용 AI 반도체에 대한 행사 현장의 관심과 반응도 높았던 것으로 전해진다. 이날 백준호 대표는 '퓨리오사 RNGD: 지속 가능한 AI 컴퓨팅을 위한 텐서 축약 프로세서(Tensor Contraction Processor)'라는 주제로 제품 소개 및 초기 벤치마크를 공개하며, Llama 3.1 70B의 라이브 데모를 선보였다. 초기 테스트 결과 RNGD는 GPT-J 및 Llama 3.1과 같은 주요 벤치마크 및 LLM에서 경쟁력 있는 성능을 보였으며, 단일 PCIe 카드 기준으로 약 100억 개의 파라미터를 가진 모델에서 초당 2천~3천개의 토큰을 처리할 수 있는 성능을 나타냈다. RNGD는 범용성과 전력 효율의 균형을 이룬 텐서 축약 프로세서(TCP) 기반 아키텍처다. 주요 GPU의 TDP가 1000W 이상인 것에 비해, 150W TDP의 높은 효율성을 갖췄다. 또한 48GB HBM3 메모리를 탑재해 Llama 3.1 8B와 같은 모델을 단일 카드에서 효율적으로 실행 가능하다. 퓨리오사AI는 2017년 삼성전자, AMD, 퀄컴 출신의 세 명의 공동 창업자에 의해 설립된 이후, 지속적인 기술 혁신과 제품 양산에 집중해 왔다. 그 결과 TSMC로부터 첫RNGD 샘플을 올 5월에 받은 후 빠른 속도로 브링업을 완료했다. 소프트웨어 역량도 강화했다. 퓨리오사AI는 2021년 당시 출시된 1세대 칩 첫 샘플을 받은 지 3주 만에 브링업을 완료하고 MLPerf 벤치마크 결과를 제출한 바 있으며, 이후 컴파일러 개선만을 통해 성능을 113% 향상시킨 바 있다. 백준호 퓨리오사AI 대표는 "이번 Hot Chips에서 RNGD를 글로벌 시장에 공개하고 빠른 초기 브링업 결과를 발표할 수 있었던 것은 회사의 기술 개발이 하나의 결실을 맺은 것”이라며 “RNGD는 업계의 실질적인 추론 니즈를 충족시킬 수 있는 지속 가능하고 현실적인 AI 컴퓨팅 솔루션”이라고 강조했다. 그는 이어 “우리 제품이 LLM을 효율적으로 연산할 수 있다는 것을 증명하였다는 것은 회사가 다음 성장 단계에 접어들었다는 것을 의미한다"며 "팀의 헌신과 지속적인 노력에 대해 매우 자랑스럽고 감사하다”고 말했다. 아디티아 라이나 GUC 최고마케팅책임자(CMO)는 "퓨리오사AI와의 협력으로 성능과 전력 효율성 모두 뛰어난 RNGD를 시장에 선보이게 됐다"며 "퓨리오사AI는 설계에서부터 양산 샘플 출시까지 탁월한 역량을 보여주며, 업계에서 가장 효율적인 AI 추론 칩을 출시하게 되었다"고 밝혔다.

2024.08.28 15:04장경윤

'삼성 2나노' 고객사 日 PFN, 현지서 대규모 투자 받는다

일본 주요 금융그룹 SBI홀딩스가 현지 AI 반도체 스타트업 PFN(Preferred Networks)에 100억 엔(한화 약 920억원)을 투자하고, AI 반도체를 협력 설계할 계획이라고 닛케이아시아가 27일 보도했다. PFN은 일본 기업 10개사를 중심으로 투자를 유치하고 있다. SBI는 해당 라운드에서 주도적인 역할을 담당할 것으로 예상되며, 이전 PFN에 투자한 도요타와 함께 PFN의 최대 투자자 중 하나가 될 계획이다. 2014년 설립된 PFN은 일본의 주요 AI 딥러닝 전문 개발업체다. 일본의 유니콘 기업 중 하나로, 기업 가치는 약 3천억 엔 수준으로 평가받고 있다. PFN은 자체 개발한 딥러닝 프레임워크인 '체이너(Chainer)'를 기반으로 다양한 산업에 AI 솔루션을 공급하고 있으며, 슈퍼컴퓨터용 AI 칩도 자체적으로 개발해 왔다. 특히 PFN은 올해 초 삼성전자에 2나노미터(nm) 공정 양산을 의뢰했다. 2나노는 삼성전자·TSMC 등 주요 파운드리가 오는 2025년부터 양산화를 목표로 하고 있는 최선단 기술에 해당한다. 이전 PFN은 자사 AI 칩인 'MN-코어' 제조를 TSMC에 의뢰한 바 있으나, 2나노 공정서에는 삼성전자와 삼성전자 DSP(디자인솔루션파트너)인 가온칩스를 채택했다. 제조 공정 변경에 신중할 수 밖에 없는 팹리스가 파운드리 공급망을 변경했다는 점에서 업계의 주목을 받았다. 닛케이아시아는 "SBI가 데이터센터 등의 성장에 대응하고자 PFN과 협력해 차세대 AI 반도체에 대한 연구를 수행할 계획"이라며 "중기적으로 SBI는 패키징, 테스트와 같은 백엔드 공정을 포함해 일본 반도체 공급망을 구축하기 위한 다른 분야에도 투자할 계획"이라고 밝혔다.

2024.08.27 09:59장경윤

마우저, AMD의 최신 AI·엣지 반도체 제공

반도체 및 전자부품 유통기업 마우저일렉트로닉스는 AMD의 최신 AI(인공지능) 및 엣지용 반도체를 공급한다고 밝혔다. 마우저는 AMD 알베오 V80 컴퓨팅 가속기 카드 판매를 시작했다. 이 가속기는 대규모 데이터 세트를 가진 메모리 의존적 애플리케이션을 위해 HBM2E D램을 통합한 AMD 버설 HBM 적응형 SoC(adaptive system-on-chip)를 기반으로 한다. 또 FPGA의 적응형 기능을 제공한다. 마우저가 공급 중인 알베오 MA35D 미디어 가속기는 고밀도, 초저지연 스트리밍을 위해 설계된 ASIC(application-specific integrated circuit)을 기반의 AI 지원 비디오 프로세싱 PCIe 카드다. 이 가속기는 비디오 품질 전용 엔진과 통합 AI 프로세서를 갖추고 있어, 비트 전송률을 최소화하면서도 인식되는 시각적 품질을 향상할 수 있다. AMD 크리아 SOM(시스템온모듈)은 징크 울트라스케일+ MPSoC(multiprocessor systems-on-chip)을 기반으로 한다. 크리아 SOM은 커넥터 호환이 가능한 상호 보완적인 두 종의 제품으로 공급된다. 비용에 최적화된 디지털 신호 처리(DSP) 애플리케이션과 중간급 비전 AI 및 로보틱스에 활용될 수 있다. 크리아 SOM에는 DDR 메모리와 비휘발성 메모리, 보안 모듈 및 방열 솔루션이 포함됐다. 솔루션별로 특화된 주변장치와 함께 캐리어 카드에 삽입할 수 있도록 설계됐다. 마우저는 비전 AI, 로보틱스 및 모터 제어 등 애플리케이션별로 특화된 스타터 키트(starter kit)도 공급한다. 버설 HBM 시리즈 VHK158 평가 키트는 AMD 버설 HBM VH1582 적응형 SoC가 탑재됐다. 이 키트는 데이터센터, 유선 네트워킹, 테스트 및 측정, 우주항공 애플리케이션 등 컴퓨팅 집약적인 메모리 의존적 애플리케이션에서 필요로 하는 대용량 메모리를 지원한다.

2024.08.23 12:19이나리

"엔비디아, 내년 HBM3E 물량 중 85% 이상 차지할 듯"

8일 시장조사업체 트렌드포스에 따르면 엔비디아의 내년 HBM3E 소비량은 전체 물량의 85%를 넘어설 전망이다. 엔비디아가 시장을 주도하고 있는 AI 서버용 칩은 고성능 GPU와 HBM 등을 함께 집적한 형태로 만들어진다. HBM은 여러 개의 D램을 수직으로 적층한 메모리로, 데이터 처리 성능이 일반 D램에 비해 월등히 높다. 엔비디아는 지난 2022년 말 '호퍼' 아키텍처 기반의 H100 칩을 출시했으며, 올해에는 HBM3E 탑재로 성능을 더 강화한 H200 양산을 시작했다. H200에 채택된 HBM3E는 현재 SK하이닉스와 마이크론이 공급하고 있다. 이에 따라 엔비디아의 HBM3E 소비 점유율은 올해 60% 이상으로 예상된다. 나아가 엔비디아는 '블랙웰' 아키텍처 기반의 'B100', 'B200' 등의 제품을 내년부터 출시할 계획이다. 해당 제품에는 HBM3E 8단 및 12단 제품이 탑재된다. 이에 따라 내년 엔비디아의 HBM3E 소비 점유율은 85% 이상을 기록할 전망이다. 트렌드포스는 "블랙웰 울트라, GB200 등 엔비디아의 차세대 제품 로드맵을 고려하면 HBM3E 12단 제품의 비중이 내년 40%를 넘어걸 것으로 추산된다"며 "현재 공급사들이 HBM3E 8단 제품에 집중하고 있으나, 내년에 12단 제품 생산량이 크게 증가할 것"이라고 밝혔다. 트렌드포스는 이어 "현재 삼성전자와 SK하이닉스, 마이크론이 모두 제품 검증을 거치고 있으며, 특히 삼성전자가 시장 점유율을 늘리는 데 적극적"이라며 "검증 순서가 주문량 할당에 영향을 미칠 수 있다"고 덧붙였다.

2024.08.09 08:40장경윤

KAIST 'AI 가속기'에 잇단 러브콜…"엔비디아 2배 성능"

엔비디아의 GPU 성능을 넘어서는 고용량·고성능 AI 가속기가 상용화 수준으로 개발됐다. 이 기술을 개발한 KAIST 정명수 전기및전자공학부 교수는 "빅테크 기업들의 러브콜이 이어지고 있다"며 “대규모 AI 서비스를 운영하는 이들의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 것"이라고 말했다. KAIST(총장 이광형)는 차세대 GPU간 연결기술인 CXL(Compute Express Link)를 새로 설계해 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는데 성공했다고 8일 밝혔다. 연구는 전기및전자공학부 정명수 교수의 컴퓨터 아키텍처 및 메모리 시스템 연구실이 수행했다. 연구결과는 미국 산타클라라 USENIX 연합 학회와 핫스토리지 연구 발표장에서 공개한다. GPU 내부 메모리 용량은 수십 기가바이트(GB, 10의9승)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 업계에서는 대안으로 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 최신 GPU가격이 비싸 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높인다. 이에 따라 산업계에서는 차세대 인터페이스 기술인 CXL를 활용해 대용량 메모리를 GPU 장치에 직접 연결하는'CXL-GPU'구조 기술이 활발히 검토되고 있다. CXL-GPU는 CXL을 통해 연결된 메모리 확장 장치들의 메모리 공간을 GPU 메모리 공간에 통합시켜 고용량을 지원한다. CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가할 수 있어 시스템 구축 비용을 획기적으로 절감할 수 있다. 그러나 여기에도 근본적인 한계가 있다. 기존 GPU 성능 대비 CXL-GPU의 읽기 및 쓰기 성능이 떨어진다는 점이다. 아무리 GPU가 연산처리를 빨리 해도 CXL-GPU가 이를 같은 속도로 처리하지 못한다. 연구팀이 이 문제를 해결했다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발했다. GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 시스템을 설계했다. 메모리 확장 장치가 내부 작업을 수행 상태에 따라 작업 하도록 했다. GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없다. 연구팀은 또 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치 측에서 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작한다. GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장공간)에서 데이터를 읽어 더욱 빠른 메모리 읽기 성능을 달성할 수 있다. 이 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 테스트 결과 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다. 파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을 두 자리 나노초(10의 9승분의 1초) 이하로 줄인 순수 국내기술의 자체 CXL 컨트롤러를 보유하고 있다. 이는 전세계 최신 CXL 컨트롤러 등 대비 3배 이상 빠른 속도다. 파네시아는 고속 CXL 컨트롤러를 활용해 여러 개의 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다.

2024.07.08 08:22박희범

솔루스첨단소재, 엔비디아 AI 가속기에 동박 공급

솔루스첨단소재가 엔비디아 차세대 AI가속기에 동박을 공급한다. 국내 기업 중 AI가속기용 동박의 승인을 얻어 양산까지 연결된 것은 솔루스첨단소재가 처음이다. 솔루스첨단소재는 북미 N사로부터 최종 양산 승인을 받아 동박적층판(CCL, Copper Clad Laminate) 제조사인 두산전자BG(비즈니스 그룹)에 하이엔드 제품인 '초극저조도(HVLP, Hyper Very Low Profile)' 동박을 공급한다고 밝혔다. N사는 엔비디아다. 솔루스첨단소재의 하이엔드 동박은 두산의 동박적층판(CCL)에 포함돼 엔비디아가 올해 출시 예정인 차세대 AI가속기에 탑재될 예정이다. HVLP 동박은 전자 제품의 신호손실을 최소화하기 위해 표면 거칠기(조도)를 0.6마이크로미터(μm) 이하로 낮춘 하이엔드 동박이다. 신호 저손실 특성으로 인해 AI가속기 뿐만 아니라 5G 통신장비, 고효율 신호전송용 네트워크 기판소재 등에도 활용된다. 현재 솔루스첨단소재는 섬세한 센서 및 드럼 관리를 통해 극도로 균일한 표면의 고품질 동박을 안정적으로 양산할 수 있는 전세계 점유율 1위 동박 제조회사다. 이런 기술력은 룩셈부르크 소재 인쇄회로기판(PCB) 기판용 동박 제조 공장인 서킷포일룩셈부르크(CFL, Circuit Foil Luxembourg)가 1960년부터 65년간 동박을 제조하며 축적한 노하우를 바탕으로 한다. 곽근만 솔루스첨단소재 대표이사는 "챗GPT의 등장 이후 급격히 성장하고 있는 AI가속기 시장에 당사 HVLP 동박이 첫 양산으로 연결된 점은 매우 큰 성과"라면서 "이번에 양산 승인을 받은 'N사' 외에 'I사'로부터도 차세대 AI가속기용 동박의 제품 승인을 얻었고, 또 다른 'A사'에서도 성능 테스트가 진행 중이다. 궁극적으로 북미 GPU 3사 모두에 솔루스첨단소재의 동박을 납품하는 것이 목표"라고 말했다.

2024.07.01 11:39이나리

인텔 "가우디3, 납기·비용·성능 모두 뛰어난 엔비디아 대체재"

[타이베이(대만)=권봉석 기자] 인텔이 4일(이하 대만 현지시간) 오전 대만 타이베이 난강전시관에서 진행된 기조연설에서 AI 가속기 '가우디3'의 가격 대비 성능을 강조했다. 가우디3는 2022년 5월 출시된 가속기인 가우디2 후속 제품이며 TSMC 5나노급 공정에서 생산된다. 96MB S램과 128GB HBM2e 메모리를 이용해 최대 대역폭 3.7TB/s를 구현했다. 서버용 프로세서와 PCI 익스프레스 5.0 규격으로 연결되며 200Gbps 이더넷으로 서로 연결된다. 전세계 10개 이상의 글로벌 공급업체가 올 3분기부터 가우디3 기반 솔루션을 공급 계획중이다. ■ "네이버도 가우디 선택했다...TCO·TTM에서 엔비디아 대비 우위" 이날 팻 겔싱어 인텔 CEO는 "현재 클라우드 이용 현황을 보면 전체 워크로드 중 60%가 클라우드에서 실행되며 생성된 데이터 중 80%가 여전히 활용되지 않는 상황"이라고 설명했다. 이어 "LLM(거대언어모델)에 기업이나 기관의 데이터를 더한 검색증강생성(RAG)은 잠자는 데이터를 활용할 수 있는 기회를 줄 것이다. 6월부터 내년 1분기에 걸쳐 출시될 제온6 프로세서와 가우디 가속기는 이를 바꿀 수 있다"고 설명했다. 현재 AI용 GPU 시장은 엔비디아가 독식하고 있다. 팻 겔싱어 CEO는 "기업들은 대안과 개방형 구조를 원한다. 또 제품/서비스 출시 시간(TTM)을 단축하고 총소유비용을 낮추길 희망하고 있다"고 지적했다. 이어 "한국 네이버클라우드가 가우디를 쓰고 있다. 또 오픈소스 리눅스 재단과 기업용 AI 플랫폼 구축에 협업하고 있으며 제온6와 가우디가 기업 AI 워크로드에 도움을 줄 것"이라고 강조했다. ■ "가우디3, 덜 쓰고 더 얻을 수 있는 '가성비' 가속기" 팻 겔싱어 CEO는 올 3분기부터 공급될 차세대 가속기 가우디3에 대해 "같은 규모 클러스터 구성시 엔비디아 H100에서 추론 성능은 2배이며 H200 GPU 대비 경쟁력을 갖고 있다"고 설명했다. 인텔 자체 성능비교에 따르면 가우디3 8천192개 클러스터 구성시 같은 규모 엔비디아 H100 클러스터 대비 학습 시간은 40% 단축할 수 있다. 또 700억 개 매개변수로 구성된 LLM인 메타 라마2(Llama2) 구동시 가우디3 64개 클러스터는 엔비디아 H100 대비 최대 15% 빠른 학습 처리량을 제공할 예정이다. 팻 겔싱어 CEO는 "가우디3는 '덜 쓰고 더 얻을 수' 있는 AI 가속기"라며 가우디3의 개방성도 강조했다. 그는 "가우디3는 업계 표준 인터페이스인 이더넷으로 작동하며 파이토치 등 오픈소스 AI 프레임워크에 최적화됐고 수십만 개의 AI 모델을 지원한다"고 말했다. ■ 가우디3 솔루션 공급 업체 10개 이상으로 확대 가우디3는 서버용 OCP 가속화 모듈인 HL-325L, HL-325L을 8개 탑재한 UBB 표준 모듈인 HLB-325, 워크스테이션에 장착 가능한 확장 카드인 HL-338 등 3개 형태로 시장에 공급된다. 인텔은 이날 가우디3 기반 AI 서버 공급업체로 델테크놀로지스, HPe, 레노버, 슈퍼마이크로에 더해 폭스콘, 기가바이트, 인벤텍, 콴타, 위스트론 등 총 10개 이상 글로벌 업체가 참여하고 있다고 밝혔다.

2024.06.04 19:01권봉석

지멘스, AI 가속기 위한 SoC 설계 솔루션 '캐터펄트 AI NN' 발표

지멘스 디지털 인더스트리 소프트웨어인 지멘스 EDA 사업부는 애플리케이션별 집적 회로(ASIC) 및 시스템온칩(SoC)에서 신경망 가속기의 상위수준합성(HLS) 솔루션인 캐터펄트 AI NN을 발표했다고 31일 밝혔다. 캐터펄트 AI NN은 AI 프레임워크에서 신경망 기술에서 시작해 C++로 변환하고, 이를 반도체칩 설계의 프로그램 언어인 베릴로그(Verilog) 또는 VHDL의 RTL(register transfer level) 가속기로 합성해 실리콘에서 전력, 성능 및 면적(PPA)에 최적화된 하드웨어 설계를 변환 및 최적화시켜 구현할 수 있도록 지원하는 솔루션이다. 캐터펄트 AI NN은 머신 러닝 하드웨어 가속을 위한 오픈 소스 패키지인 hls4ml과 상위수준합성(HLS)을 위한 Siemens의 Catapult HLS 소프트웨어를 결합시켰다. 캐터펄트 AI NN은 미국 에너지부 산하 연구소인 페르미연구소(Fermilab) 및 기타 hls4ml의 주요 기여자들과 긴밀히 협력해 개발됐다. 맞춤형 실리콘의 전력, 성능 및 면적에 대한 머신 러닝 가속기 설계의 고유한 요구 사항을 해결한다. 지멘스 측은 "소프트웨어 신경망 모델을 하드웨어로 구현하기 위해 수작업으로 변환하는 과정은 매우 비효율적이고 시간이 많이 걸리며 오류가 발생하기 쉽다"며 "새로운 캐터펄트 AI NN 솔루션을 통해 개발자는 소프트웨어 개발 과정에서 최적의 PPA를 위한 신경망 모델을 자동화하고 동시에 구현할 수 있어 AI 개발의 효율성과 혁신의 새로운 시대를 열 수 있다"고 밝혔다. AI의 실행시간 및 머신 러닝 작업이 기존 데이터센터는 물론, 소비자 가전부터 의료 기기까지 모든 분야로 이전됨에 따라 전력 소비를 최소화하고 비용을 절감하며 최종 제품의 차별화를 극대화하기 위한 '적절한 크기의' AI 하드웨어에 대한 요구가 빠르게 증가하고 있다. 그러나 대부분의 머신 러닝 전문가들은 합성 가능한 C++, Verilog 또는 VHDL보다는 텐서플로우(TensorFlow), 파이토치(PyTorch), 케라스(Keras)와 같은 반도체칩 설계 프로그램 언어 도구로 작업하는 것이 더 익숙하다. AI 전문가가 적절한 크기의 ASIC 또는 SoC 구현으로 머신 러닝 애플리케이션을 가속화할 수 있는 간편한 방법이 지금까지는 없었다. 머신 러닝 하드웨어 가속을 위한 오픈 소스 패키지인 hls4ml를 사용하면 텐서플로우와 파이토치, 케라스 등과 같은 AI 프레임워크에 기술된 신경망에서 C++를 생성하여 이러한 간극을 매울 수 있다. 그런 다음 C++를 FPGA, ASIC 또는 SoC 구현을 위해 배포할 수 있다. 캐터펄트 AI NN은 hls4ml의 기능을 ASIC 및 SoC 설계로 확장한다. 여기에는 ASIC 설계에 맞게 조정된 특별한 C++ 머신 러닝 함수의 전용 라이브러리가 포함돼 있다. 설계자는 이러한 함수를 사용해 C++ 코드로 구현함에 있어 지연 시간 및 리소스 절충을 통해 PPA를 최적화할 수 있다. 또한 설계자는 이제 다양한 신경망 설계의 영향을 평가하고 하드웨어에 가장 적합한 신경망 구조를 결정할 수 있다. 캐터펄트 AI NN은 현재 얼리 어답터들이 사용할 수 있으며, 2024년 4분기에 모든 사용자가 사용할 수 있게 될 예정이다.

2024.05.31 16:16장경윤

네이버 "인텔 '가우디2' 기반 생성 AI 생태계 구축 목표"

인텔이 네이버와 AI 가속기 '가우디2'(Gaudi 2)를 이용한 LLM(거대언어모델)과 소프트웨어 생태계 확대에 나선다. 네이버클라우드는 인텔 개발자 클라우드 상에 구축된 가우디2 인스턴스를 활용해 LLM 구축 가능성을 평가하는 한편 국내 대학교·스타트업과 협업해 가우디2 기반 오픈소스 모델 등을 공동 개발할 예정이다. 11일 오전 서울 여의도 한경협회관에서 인텔코리아 주최로 진행된 질의응답에서 이동수 네이버클라우드 하이퍼스케일 AI담당 이사(박사)는 "네이버와 인텔 협력 결과물이 오픈소스로 제공되면 학계와 스타트업의 AI 소프트웨어 개발의 문턱을 크게 낮출 수 있다. 국산 소프트웨어 대중화 면에서 큰 의미가 있다"고 강조했다. ■ 네이버 "가우디2 기반 고성능 LLM 모델 개발 목표" 인텔은 9일(미국 현지시간) 미국 애리조나 주 피닉스에서 진행된 '인텔 비전' 행사에서 네이버와 협업을 발표했다. 당일 기조연설에 등장한 하정우 네이버클라우드 AI 혁신센터장은 "생성 AI 생태계 확대를 위한 공동 연구소 설립, 가우디2 성능 평가, LLM(거대언어모델) 인스턴스 제공을 위해 인텔과 협업할 것"이라고 밝혔다. 하정우 혁신센터장은 "가우디2 가속기는 AI 전용 설계를 통해 와트당 성능과 총소유비용(TCO) 측면에서 뛰어난 성능을 낸다. 이번 인텔과 협력을 통해 고성능, 비용 효율 인프라 기반으로 강력한 LLM 기반 모델을 개발하는 것이 목표"라고 설명했다. ■ "가우디2, 하드웨어 특성·성능 면에서 좋은 평가" 이날 오전 이동수 네이버클라우드 하이퍼스케일 AI담당 이사(박사)는 "네이버는 현재 거의 모든 서비스에 AI 기술을 접목하고 있으며 좋은 AI 반도체 확보는 서비스 경쟁력 확보에 직결된다"고 설명했다. 이어 "많은 반도체를 평가하고 분석하는 과정에서 인텔 가우디2 가속기의 하드웨어 특징과 성능 면에서 좋은 결과를 얻었고 이것을 향후 네이버 서비스와 융합하려면 생태계와 소프트웨어 확보가 필요하다"고 밝혔다. 이날 네이버클라우드 관계자는 "일부 언론 관측처럼 이번 협업에 네이버 사옥이나 데이터센터 내에 물리적인 공간을 확보하는 것은 아니다. 평가는 가우디2가 적용된 인텔 개발자 클라우드를 활용할 것"이라고 밝혔다. ■ "가우디2 기반 최적화 코드로 개발 문턱 낮출 것" 이동수 이사는 "현재 LLM 기반 코드 최적화는 고수준 언어가 아닌 어셈블리어(기계어) 수준에서 이뤄지지만 이런 기술력을 갖춘 엔지니어는 극히 드물다"고 설명했다. 이어 "엔비디아 쿠다 역시 하드웨어가 바뀔 때마다 코드를 바꿔야 한다. 이런 난점때문에 엔비디아 역시 별도 개발 없이 기업들이 그대로 쓸 수 있는 바이너리(실행파일)를 제공하고 있다"고 설명했다. 권세중 네이버클라우드 리더는 "국내 대학과 스타트업은 GPU나 가속기 활용이 어려워 연구에 어려움을 겪는다. 국내 상위권 대학 내 연구실과 협업을 논의중이며 이들이 가우디2 기반 코드를 오픈소스로 공개하면 어려움을 덜 수 있을 것"이라고 밝혔다. ■ "삼성전자 마하1도 활용... 생태계 확장이 우선" 이동수 이사는 "가우디2 역시 성능 대비 전력 효율성이 뛰어나며 LLM이나 서비스 운영에 여전히 장점을 지니고 있다. 이번 인텔과 협업은 소프트웨어나 생태계 확장에 중점을 둔 것이며 소프트웨어나 드라이버 등이 안정된 가우디2로 진행할 것"이라고 설명했다. 반도체 업계에 따르면 네이버는 LLM 처리에 특화된 삼성전자 AI 반도체 '마하1'을 이르면 올 연말부터 공급받아 활용할 예정이다. 이동수 이사는 "인텔과 삼성전자 모두 중요한 협력사이며 함께 생태계 확장을 하는 것이 목표다. 마하1이나 가우디2는 모두 초기 단계이며 모델 학습·훈련이나 추론 등 용도를 정해둔 것은 아니다"라고 밝혔다.

2024.04.11 11:15권봉석

인텔 "가우디3 AI 가속기, 오는 3분기 출시"

인텔이 9일(미국 현지시간) 미국 애리조나 주 피닉스에서 진행된 '인텔 비전' 행사에서 차세대 AI 가속기 '가우디3'(Gaudi 3) 성능과 출시 일정을 공개했다. 가우디3는 2022년 5월 출시된 가속기인 가우디2 후속 제품이며 TSMC 5나노급 공정에서 생산된다. 지난 해 말 팻 겔싱어 인텔 CEO가 가우디3 시제품을 공개하고 "'파워 온'(실제 작동)에 성공했다"고 밝히기도 했다. 가우디3는 96MB S램과 128GB HBM2e 메모리를 이용해 최대 대역폭 3.7TB/s를 구현했다. 서버용 프로세서와 PCI 익스프레스 5.0 규격으로 연결되며 200Gbps 이더넷으로 서로 연결된다. 서버용 OCP 가속화 모듈인 HL-325L, HL-325L을 8개 탑재한 UBB 표준 모듈인 HLB-325, 워크스테이션에 장착 가능한 확장 카드인 HL-338 등 3개 형태로 시장에 공급된다. 이날 인텔은 가우디3가 전작 대비 BF16 연산 성능은 최대 4배, 메모리 대역폭은 1.5배 향상될 것이라고 밝혔다. 또 70억/130억개 매개변수를 지닌 라마2(Llama2) 모델 훈련 시간을 엔비디아 H100 대비 절반으로 줄였다고 설명했다. 인텔은 델테크놀로지스, HPe, 레노버, 슈퍼마이크로 등 주요 고객사에 이번 분기부터 시제품을 공급하고 3분기부터 대량 생산에 들어간다. 또 개발자 클라우드에 가우디3를 적용해 실제 출시 전 개발을 도울 예정이다.

2024.04.10 10:36권봉석

엔비디아, 4분기 매출 265% 급증…AI 서버로 '퀀텀 점프'

글로벌 팹리스 엔비디아가 또 다시 '어닝 서프라이즈'를 달성했다. 폭발적인 인공지능(AI) 서버 수요 증가세에 따른 효과로, 회사는 올해 상반기에도 당초 예상을 뛰어넘는 매출을 달성할 수 있을 것으로 내다봤다. 엔비디아는 22일 2023 회계연도 4분기(2024년 1월 종료) 매출이 221억 달러로 전년 동기에 비해 265% 증가했다고 발표했다. 이는 전분기에 비해서도 22% 늘어난 것이며 증권가 전망치 204억 달러를 크게 웃돌았다. 같은 분기 주당 순이익(GAAP 기준)도 4.93달러로 전분기 대비 33%, 전년동기 대비 765% 늘어났다. 엔비디아 호실적의 주역은 데이터센터 사업이다. 해당 분기 데이터센터 사업 매출은 184억 달러로 전분기 대비 27%, 전년동기 대비 409% 증가했다. 젠슨 황 엔비디아 최고경영자(CEO)는 "가속컴퓨팅 및 생성형 AI가 티핑 포인트(특정 현상이 급속도로 커지는 지점)에 도달했다"며 "국가, 산업을 가리지 않고 전 세계적으로 수요가 급증하고 있다"고 밝혔다. 엔비디아는 올 상반기 실적에 대해서도 긍정적인 전망을 내비쳤다. 회사는 2024 회계연도 1분기(2024년 4월 종료) 매출 예상치로 전분기 대비 8% 증가한 240억 달러를 제시했다. 이 전망치 역시 증권가 예상보다 9% 가량 상회한 수치다. 현재 엔비디아는 AI 산업의 핵심인 고성능 그래픽처리장치(GPU)와 이를 기반으로 한 AI 가속기 시장을 사실상 독과점하고 있다. 올해에도 3나노미터(nm) 기반의 신규 제품 'B100' 출시를 목표로 하는 등, 시장 지배력 유지를 위한 행보를 이어가고 있다.

2024.02.22 08:50장경윤

젠슨 황 엔비디아 "세계 각국, AI 인프라 독자 구축해야"

젠슨 황 엔비디아 CEO가 세계 각국이 독자적인 AI(인공지능) 인프라를 구축해야 함을 강조했다고 로이터통신 등이 12일 보도했다. 이날 두바이에서 열린 '세계정부정상회의(WGS) 2024'에 참석한 황 CEO는 "AI의 경제적 잠재력을 활용하면서 자국의 문화를 보호하려면 모든 국가가 자체 AI 인프라를 보유해야 한다"며 "다른 국가가 그런 일을 하도록 허용해서는 안 된다"고 말했다. 그는 이어 "가능한 한 빨리 AI 산업의 주도권을 잡고, 업계를 활성화하고, 인프라를 구축하는 것은 전적으로 각국 정부에 달렸다"고 덧붙였다. AI 산업의 위험성에 대해서는 "과도한 두려움"이라는 입장을 밝혔다. 황 CEO는 "자동차, 항공 등 다른 신기술 및 산업도 성공적으로 규제된 바 있다"며 "AI에 대한 공포를 부추기면서 아무 것도 하지 않도록 장려하는 사람들은 실수를 하고 있다고 생각한다"고 강조했다. 현재 엔비디아는 AI 구현의 핵심으로 꼽히는 고성능 서버용 GPU(그래픽처리장치) 분야에서 압도적인 시장 점유율을 차지하고 있다. 덕분에 최근 엔비디아의 시가총액은 1조8천200억 달러까지 상승하면서 지난 2002년 이후 처음으로 아마존을 앞지르기도 했다.

2024.02.13 08:49장경윤

AI 에브리웨어를 위한 인텔의 소프트웨어 전략

인텔은 최근 'AI 에브리웨어'란 캐치프레이즈를 전면에 걸었다. 클라우드, 데이터센터, 디바이스에 이르는 AI 전 영역에서 입지를 새롭게 다지려는 시도다. PC용 코어 프로세서, 서버용 제온 프로세서, AI 가속기 등을 통해 생성형 AI 개발과 배포, 사용에 이르는 전 수명주기를 뒷받침하겠다고 강조한다. 최상의 AI 성능을 제공하는 하드웨어 및 소프트웨어 솔루션을 지원해 고객이 클라우드, 네트워크는 물론 PC와 엣지 인프라까지 AI를 원활하게 구축하고 확장해나갈 수 있도록 지원한다는 것이인텔 AI 에브리웨어 전략의 골자다. 이런 인텔의 AI 에브리웨어 전략은 하드웨어와 소프트웨어 등에서 전방위적으로 진행된다. CPU는 AI 연산 역량을 자체적으로 내장하고, GPU나 가속기는 업계 선두권의 성능을 내도록 발전하고 있다. AI 소프트웨어 생태계에도 공격적으로 투자하고 있다. 현재 챗GPT나 구글 바드 같은 생성 AI 서비스는 대규모 클라우드에서만 돌아가는 것으로 여겨진다. 대규모언어모델(LLM)이란 개념 자체가 방대한 GPU 클러스터를 활용해야만 적절한 속도로 서비스될 수 있다고 보기 때문이다. 이는 생성 AI 서비스 사용자가 반드시 인터넷에 접속돼 있어야 한다는 뜻이기도 하다. 안정적인 네트워크를 활용하지 못하는 상황에선 생성 AI를 제대로 활용하기 어렵다. 인텔은 AI를 클라우드에서만 하게 되면, 시간적 지연, 데이터 이동, 데이터 주권 등에 따른 비용 상승이 일어난다고 지적한다. 민감하거나 기밀인 데이터를 옮기지 않고 AI 모델을 PC에서 개발하고, 완성된 모델을 클라우드로 옮기거나 그냥 PC나 모바일 기기에서 구동하면 앞서 지적한 문제를 해소할 수 있다고 강조한다. 인텔의 AI 에브리웨어 전략이 제대로 기능하려면 기본적으로 '하이브리드 AI' 환경을 구현해야 한다. LLM의 연산 위치를 클라우드와 사용자 디바이스 어디로든 옮기기 편해야 하는 것이다. 트랜스포머 아키텍처에 기반한 LLM은 그 크기가 매우 크다. 이를 디바이스 환경에서도 작동하려면 사용자 기기의 사양으로도 빠르고 고품질로 성능을 내도록 경량화, 최적화하는 게 필요하다. 나승주 인텔코리아 상무는 “하이브리드 AI는 하드웨어만 갖고 되지 않고, 한몸과 같은 소프트웨어의 역할이 중요하다”며 “각 하드웨어에서 최적 성능을 뽑아내고, 모든 곳에서 모델을 운영하게 하는 역할이 소프트웨어 부분”이라고 설명했다. 인텔의 AI 소프트웨어 스택은 기본적으로 다양한 하드웨어 위에 존재한다. 제온 프로세서, 코어 프로세서, 가우디 프로세서 등이 생성 AI를 잘 구동할 수 있게 준비됐다. 이런 하드웨어를 운영하기 위한 인프라 소프트웨어가 존재한다. 운영체제(OS)와 쿠버네티스나 레드햇 오픈시프트 같은 가상화나 컨테이너 기술이 올라간다. 그 위에 모델 개발과 서비스 환경이 자리한다. AI옵스, 개발 및 운영 흐름 등을 처리하는 곳이다. 데이터를 수집하고, 가공하며, 모델을 학습시키고, 모델을 추론하도록 배포하며, 결과를 다시 가져와 재학습시키는 '루프'가 올라간다. 이런 기반 위에 다양한 AI 라이브러리가 있다. 하드웨어와 직접 소통하는 라이브러리로, DNN, DAL, MPI, KNN, CCL 등이 대표적이다. 이 라이브러리를 개발자가 더 쉽게 활용할 수 있는 파이토치, 텐서플로우, 오픈비노 같은 프레임워크가 그 위에 있다. 데이터 분석용 도구도 있다. 인텔은 기본적인 라이브러리와 각종 도구를 직접 개발하거나, 오픈소스를 최적화해 제공하고 있다. 원API를 기본으로, 원DNN, 원MKL, 원DAL, 인텔오픈MP, 원CCL, 인텔MPI 등을 이용할 수 있다. 시중의 여러 프레임워크와 미들웨어를 활용할 수 있도록 인텔 옵티마이제이션(ITEX 및 IPEX)을 제공하고 있다. 파이토치, 텐서플로우, 오픈비노 등의 개방형 프레임워크는 업스트림 개발에 참여함으로써 인텔 하드웨어와 라이브러리를 쓸 수 있게 한다. 나승주 상무는 “파이토치, 텐서플로우, ONNX 런타임 등은 인텔의 소유가 아니므로 업스트림에 참여해 최적화하고, 업스트림에서 모든 걸 만족시킬 수 없는 부분의 경우 익스텐션으로 보강한다”며 “가령 파이토치에서 인텔 익스텐션을 쓰면 더 뛰어난 성능을 얻을 수 있고, 하드웨어에서 기대한 성능을 얻지 못하는 경우 익스텐션으로 그 성능을 더 끌어올릴 수 있다”고 설명했다. 나 상무는 “라이브러리뿐 아니라 뉴럴컴프레셔 같은 자체 툴도 제공하고, 데이터 수집, 학습, 추론, 배포에 이르는 모든 과정을 커버하는 소프트웨어를 보유했다”며 “최근 ML옵스 업체인 컨버지드닷아이오를 인수함으로써 모든 오퍼레이션도 다 다룰 수 있게 됐다”고 강조했다. 인텔의 AI 소프트웨어는 기본적으로 '원API'란 개방형 표준을 따른다. 원API는 리눅스재단에서 관리하는 오픈소스다. 인텔은 표준의 원API를 자사 하드웨어에 최적화한 버전으로 '인텔 원API'란 것을 고객사에 제공한다. 엔비디아 쿠다에 최적화된 라이브러리나 코드를 인텔 하드웨어에서 사용할 수 있도록 C++ 기반 개방형 프로그래밍 모델 SYCL로 변환하는 툴도 제공한다. 작년말 AI 에브리웨어 전략을 실현하는 새로운 코어 울트라 프로세서는 이런 인텔 소프트웨어를 바탕으로 '온디바이스 AI'를 작동시킨다. 모델이 경량화돼 다른 곳으로 옮겨갔을 때 정확도 문제도 해결 가능한 문제라 본다. 나 상무는 “매개변수 감소나 플로팅포인트 변경 같은 경량화가 이뤄지면 이론 상 성능은 빨라지고 정확도가 줄어들게 된다”며 “하지만 실제 환경에서 정확도 차이는 1~2% 정도이며, 트랜스포머 아키텍처 자체가 반복적인 재학습을 통해 정확도로 올린다는 특성을 갖기 때문에 에너지 효율이나 성능 문제가 두드러지는 시나리오에서 크게 문제되지 않는다”고 설명했다. 인텔의 AI 소프트웨어를 활용하면 기존의 LLM이나 모델을 여러 하드웨어 환경에 맞게 만들 수 있다. 인텔 하드웨어에서도 AI 소프트웨어만 바꿔도 모델의 성능을 바로 향상시킬 수 있다. 굳이 모든 AI 모델을 GPU에서만 구동하는 것도 낭비라고 본다. CPU와 소프트웨어 최적화로 LLM 비용을 절감할 수 있다는 것이다. 나 상무는 “만약 4세대 제온 프로세서 기반의 AI 시스템이라면, 소프트웨어만 바꿔서 32% 성능을 올릴 수 있다”며 “파치토치에 제온 8480 프로세서, 인텔 익스텐션 등을 활용하면 10주 만에 3~5배 성능 향상을 누릴 수 있게 된다”고 말했다. 나 상무는 “LLM은 GPU 집약적인 컴퓨팅 외에도 엔터프라이즈에서 운영되는 여러 일반 서버와 엣지 서버, 단말기 등에서도 활용된다”며 “5세대 제온 기반 서버는 싱글노드에서 라마2 13B 같은 경량의 LLM에 대해 레이턴시를 75밀리초 이내로 매우 빠르게 처리하며, GPT-J 6B의 경우 25~50 밀리초로 처리한다”고 강조했다. 그는 “LLM의 성능에서 매개변수도 중요하지만, 이를 실제 성능을 유지하게면서 디바이스로 가져오기 위한 경량화나 알고리즘 기법이 많다”고 덧붙였다. 인텔은 생성 AI 분야에서 텍스트를 넘어선 비전, 오디오 등의 발전에 주목하고 있다. GPT로 대표되는 텍스트 모델은 어느정도 성숙해졌지만, 비전과 오디오 분야는 이제 막 시작됐다. 인텔 가우디의 경우 비주얼랭귀지모델을 돌릴 때 엔비디아 H100 GPU보다 더 빠르다는 결과가 허깅페이스에서 나오기도 했다. 나 상무는 “비전을 처리하려면 이미지 트레이닝으로 시작하는데, 이미지를 가져와 JPEG나 MP4 같은 인코딩을 로우 데이터로 변환하는 디코딩 과정과 증강하는 과정이 필요하다”며 “디코딩부터 증강까지 단계를 엔비디아는 GPU 대신 CPU에서 처리하게 하지만, 인텔은 전체 프로세싱을 가우디 안에서 한번에 하게 하므로 시간이 덜 걸리는 것”이라고 설명했다. 그는 “AI PC와 AI 에브리웨어는 AI를 어디서나 쓸 수 있게 하는 것”이라며 “모든 AI의 혜택을 모든 사람이 저렴하고 쉽게 얻게 하는 게 인텔의 전략”이라고 강조했다.

2024.02.01 14:53김우용

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

전자담배 온라인·무인 판매 이대로 괜찮을까

티메프 사태로 달라진 여행업 생태계...'부익부 빈익빈'

"강남역 사수하라"...350평 올리브영 등장에 시코르 ‘긴장’

삼성 파운드리, 2나노 3세대 공정 2년내 구현..."고객이 다시 찾게 하자"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.