검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'인텔 아크'통합검색 결과 입니다. (24건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

GPU 포기설 부인한 인텔...2세대 '배틀메이지' 온다

[타이베이(대만)=권봉석 기자] 인텔은 GPU 시장 재진출 선언 이후 오랜 준비 과정을 거쳐 지난 2022년 3월 모바일(노트북)용 아크 A350M, 6월 데스크톱용 아크 A380, 10월 데스크톱용 아크 A750/A770 등 아크 A시리즈(개발명 '알케미스트') GPU를 출시했다. 그러나 개발 과정이 지연된 탓에 출시 시점이 지연됐고 결국 AMD와 엔비디아 등 경쟁사 제품 대비 한 세대 전 제품 성능으로 경쟁하는 상황이 벌어졌다. 일각에서는 인텔이 GPU 개발 우선순위를 낮추거나 포기할 수 있다는 전망도 나왔다. 이에 톰 피터슨(Tom Peterson) 인텔 그래픽 및 소프트웨어 아키텍처 부문 펠로우는 지난 주 진행된 '테크투어 타이완' 행사에서 "차세대 프로세서, 루나레이크에는 성능과 AI 연산 성능을 크게 강화한 Xe2 그래픽 기술이 탑재되며 이를 기반으로 한 2세대 GPU '배틀메이지'도 출시될 것"이라고 밝혔다. ■ Xe2, AI 성능 강화에 중점 톰 피터슨 펠로우는 "Xe2는 Xe 코어를 개발하며 얻은 경험을 바탕으로 전력 효율과 성능 향상에 중점을 뒀고 기존 게임과 호환성을 강화했다. 게임 뿐만 아니라 고부하 작업에 최적화된 GPU"라고 설명했다. 핵심을 이루는 것은 2세대 Xe 코어이며 내부를 완전히 새로 설계했다. 512비트 벡터 엔진 8개는 AI 연산에 필요한 XMX(Xe 행렬 확장) 엔진도 8개 추가했다. 이는 기존 모바일(노트북)용 아크 그래픽스에는 추가되지 않았던 것이다. 벡터 엔진은 SIMD16(16개 수치를 동시에 처리)급 ALU(정수연산유닛)와 XMX 엔진 8개 등으로 구성됐다. XMX 엔진은 INT2, INT4, INT8, FP16, BF16 등 AI 연산이 요구하는 자료형을 폭넓게 지원한다. FP16 자료형 기준으로 행렬 곱셈시 한 클록당 2천48개 작업, INT8 자료형 기준으로 클록당 4천96 작업을 처리한다. AI 연산 성능은 INT8 자료형 기준 최대 67 TOPS(1초 당 1조번 연산)이며 정밀도가 낮은 INT4 등을 이용하면 TOPS는 더 높아진다. ■ 메테오레이크와 전력소모 같지만 성능은 1.5배 향상 전작 메테오레이크는 GPU 타일을 별도로 분리했지만 루나레이크는 GPU, 각종 코덱을 다루는 미디어, 출력을 담당하는 디스플레이 등 반도체 IP(지적재산권)를 모두 '플랫폼 제어 타일'에 분산 통합했다. Xe2 GPU는 2세대 Xe 코어 8개로 구성된다. 톰 피터슨 펠로우는 "Xe2 GPU는 기존 메테오레이크 GPU 대비 같은 전력으로 1.5배 높은 성능을 낼 것"이라고 설명했다. 2세대 Xe 코어 8개로 구성된 루나레이크 GPU의 AI 연산 성능은 67 TOPS다. 스테이블 디퓨전 1.5로 그림 파일 한 장을 생성하는 시연에서 메테오레이크 소요시간은 13.29초, 루나레이크 소요 시간은 6.345초로 처리 시간이 절반으로 단축됐다. ■ 디스플레이 엔진, 주사율 조정·절전 기능 포함 GPU가 처리한 영상을 모니터나 화면을 보내는 디스플레이 엔진은 8K60p HDR 화면 1개, 혹은 4K 60p HDR 화면 3개를 동시에 출력할 수 있다. HDMI 2.1, 디스플레이포트 2.1 규격 외에 노트북 화면을 제어하는 eDP 1.5를 지원한다. eDP 1.5의 주요 기능 중 화면주사율 가변 조정이 있다. 초당 24개 그림으로 구성된 영화 재생시 60Hz 디스플레이에서는 움직임이 부자연스러워질 수 있지만 이를 2의 배수인 48Hz로 표시하면 보다 자연스러운 화면을 볼 수 있다. 이외 기능으로는 같은 화면이 표시될 경우 데이터 전송 빈도를 낮추고 대기 상태에서 전력 소모를 최소화하는 기능을 포함했다. 대기 화면에서는 기존 대비 18mW, 유튜브 전체 화면 재생시는 351mW를 절감해 배터리 지속시간을 늘린다. ■ 미디어 엔진, 차세대 코덱 VVC 재생 지원 미디어 엔진은 각종 영상 코덱을 압축·재생하는 역할을 담당한다. 루나레이크에 포함된 미디어 엔진은 최대 8K 60p HDR 영상까지 처리할 수 있다. 처리 가능한 코덱은 현재 널리 쓰이는 영상 코덱인 H.264/265, 오픈소스 코덱인 AV1이며 H.265 이후 차세대 코덱으로 꼽히는 VVC(H.266) 재생도 추가했다. VVC 코덱은 AV1 코덱 대비 파일 용량을 10% 더 줄일 수 있고 화면의 글자나 그림에 맞는 압축방법을 지원해 화면 녹화시 유용하다. 그러나 현 시점에서 이를 재생하려면 고성능 CPU/GPU가 필요하다. 루나레이크 내장 미디어 엔진은 VVC 코덱 재생을 하드웨어로 처리해 전력 소모를 줄였다. 4K(3840×2160 화소) 재생시 메테오레이크는 CPU를 이용한 소프트웨어 재생으로 35W를, 루나레이크는 2.9W를 써 전력 소모는 1/10 수준으로 줄어든다. ■ XeSS 이용해 1080p 게임 초당 60프레임 이상으로 구동 톰 피터슨 펠로우는 루나레이크 내장 Xe2 GPU가 AI 기반 저해상도 업스케일 기술 'XeSS'를 활용해 최신 게임을 보다 원활하게 즐길 수 있다고 강조했다. 이를 극단적으로 드러나는 것이 게임 'F1 24' 시연이다. 지난 5월 28일 출시된 게임을 루나레이크는 1080p '높음' 설정에서 문제없이 소화했다. 초당 프레임도 60프레임 이상으로 매우 원활히 구동된다. 인텔 관계자는 "게임 실행시 960×540 화소 화면을 업스케일해 풀HD(1920×1080 화소) 해상도로 4배 업스케일하는 XeSS 기능을 이용했다. 레이트레이싱이 적용돼 보다 사실적인 화면을 볼 수 있다"고 설명했다.

2024.06.04 12:30권봉석

인텔 루나레이크, 저전력·고효율 목표로 경쟁력 강화

[타이베이(대만)=권봉석 기자] "3분기 출시할 모바일(노트북)용 프로세서 '루나레이크'(Lunar Lake)는 x86 프로세서에 대해 사람들이 가진 생각은 물론 AI PC를 경험하는 방식을 바꿀 것이다. CPU와 GPU(그래픽처리장치), NPU(신경망처리장치) 모두 경쟁에서 이길 것이다." 컴퓨텍스 타이베이 2024 전 주 진행된 '인텔 테크투어 타이완' 기조연설에서 미셸 존스턴 홀타우스 인텔 CCG(클라이언트 컴퓨팅 그룹) 총괄(수석부사장)이 이렇게 강조했다. 인텔 테크투어는 2022년부터 시작된 연례 기술 행사다. 매년 새 프로세서 출시를 앞두고 각국 기자단에 강점과 특징 등을 소개한다. 올해 행사에는 한국을 포함해 15개 국가와 지역에서 150개 매체, 227명이 참석했다. 올해 행사 핵심은 오는 3분기 출시될 모바일용 프로세서, 루나레이크다. 이달부터 국내 포함 전 세계 시장에 출시되는 퀄컴 스냅드래곤 X 엘리트/플러스, 하반기 출시될 AMD 라이젠 프로세서와 경쟁할 제품이다. ■ TSMC 위탁생산 타일과 메모리, 인텔 기술로 조립 전작인 코어 울트라 시리즈1(메테오레이크)는 컴퓨트(CPU), GPU, SOC, I/O 등 4개 타일을 인텔과 TSMC가 생산한 다음 3차원 적층 기술 '포베로스'(FOVEROS)로 결합해 구성했다. 반면 루나레이크는 CPU 타일, 그리고 GPU와 NPU, 미디어 엔진 등 다양한 반도체 IP(지적재산권)를 재배치/통합한 플랫폼 제어 타일 등 단 두 개로 구성됐다. 여기에 LPDDR5X 메모리를 결합해 주요 PC 제조사에 공급된다. CPU와 GPU가 한 메모리를 같이 쓰는 통합 구조로 애플 M시리즈 프로세서와 같은 방식의 접근을 택했다. 한 다이(Die) 안에서 데이터가 오가므로 메모리를 분리했던 과거와 달리 지연시간과 면적은 줄이면서 대역폭은 높일 수 있다. 핵심 요소인 컴퓨트 타일(TSMC N3B), 그리고 플랫폼 제어 타일 모두 대만 TSMC가 만들었다는 것도 특징이다. 두 타일을 연결하는 베이스 타일은 인텔 22나노미터 공정에서 생산됐다. ■ 컴퓨트 타일 내 P·E코어, 전력 효율성 강화에 방점 컴퓨트 타일은 고성능 P(퍼포먼스) 코어 '라이언코브'(Lion Cove) 4개와 저전력·고효율 E(에피션트) 코어 '스카이몬트'(Skymont) 4개, 총 8개 코어로 구성된다. 대부분의 작업은 E코어가 먼저 처리하며 고성능이 필요한 작업에서 P코어가 작동한다. P코어와 E코어는 최근 강조되는 지표인 와트 당 성능, 다시 말해 전력 효율성 향상에 중점을 뒀다. E코어 '스카이몬트'는 P코어 '라이언코브'보다 적은 전력으로 같은 성능을 내도록 설계됐다. 인텔 자체 검증 결과 전작(메테오레이크) 대비 클록 당 명령어 처리 성능은 P코어 최대 14%, E코어 최대 68%까지 향상됐다. 동영상 재생이나 대기 상태 등 단순한 작업만 처리하던 '저전력 아일랜드 E코어' 성능도 전세대 대비 최대 2배 향상됐다. P코어 한 개를 두 개처럼 쓰는 프로세서 효율 향상 기술인 '하이퍼스레딩'은 루나레이크에서 빠졌다. 하이퍼스레딩이 빠진 대신 IPC(클록당 처리 가능 명령어 수)를 크게 높여 성능 하락이 일어나지 않을 것이라는 것이 인텔 관계자 설명이다. ■ 성능 높이고 전력소모 줄인 Xe2 GPU로 AI 가속 GPU는 게임이나 동영상 처리 뿐만 아니라 AI PC에서 중요도가 한층 커졌다. 고밀도 연속 AI 연산을 단시간에 처리하려면 GPU의 도움은 필수다. AI 연산 성능을 가늠하는 지표인 TOPS(1초 당 1조 번 AI 연산) 중 상당수가 GPU에서 나온다. 루나레이크의 GPU는 새롭게 개발한 Xe 코어 8개를 결합한 'Xe2'다. 내부 구조를 보완해 메테오레이크 대비 성능은 50% 가까이 늘어났다. AI 연산 중 상당수를 차지하는 행렬 관련 처리를 위한 XMX도 더해 AI 처리량은 1.5배 이상 향상됐다. Xe2 GPU의 AI 연산 성능은 최대 67 TOPS다. 디스플레이 규격은 2022년 하반기 정식 확정된 디스플레이포트 2.1, HDMI 2.1과 함께 노트북 직결 디스플레이 패널과 연결되는 eDP 1.5도 함께 지원한다. 처리가 쉽지 않은 차세대 코덱인 VVC(H.266) 재생도 지원한다. ■ AI 연산 성능 NPU 단독 48 TOPS, 최대 120 TOPS 가능 마이크로소프트는 최근 '빌드' 행사에서 PC 이용 이력을 추적하는 기능인 '리콜' 등을 담은 새로운 PC 카테고리인 '코파일럿+ PC'를 공개한 바 있다. 코파일럿+ PC는 40 TOPS 이상 NPU 탑재를 요구한다. 루나레이크에 탑재된 인텔 4세대 NPU인 'NPU 4' 성능은 전작(10.5 TOPS) 대비 3배 이상인 최대 48 TOPS까지 향상됐다. 과거 2개에 그쳤던 NPU 내 연산 장치를 최대 6개까지 늘리는 한편 작동 클록도 끌어올렸다. NPU와 GPU의 성능 강화에 따라 루나레이크의 AI 연산 성능도 세 자릿수까지 올라섰다. NPU 48 TOPS, GPU 67 TOPS와 CPU 5 TOPS를 합해 최대 120 TOPS까지 AI 연산이 가능해졌다는 것이 인텔 설명이다. ■ S/W 생태계 확대 위해 루나레이크 개발킷도 보급 AI PC의 쓰임새를 최대한 확보할 수 있는 소프트웨어 관련 역량 확보도 중요하다. 인텔은 이미 AI 모델 500개를 코어 울트라에 최적화하는 한편 에이수스와 협력해 코어 울트라 시리즈1 기반 개발자 키트도 보급중이다. 미셸 존스턴 홀타우스 총괄은 "최대 120 TOPS를 실현 가능한 개발자 키트를 생산해 AI PC용 소프트웨어 개발자에게 공급할 것이다. 업그레이드가 가능한 구조로 개발돼 향후 등장할 '팬서레이크'(Panther Lake) 등 다음 제품과도 호환될 것"이라고 설명했다. 인텔은 현재 루나레이크 제품화 단계인 'B0' 스테핑 단계 실리콘이 생산에 들어갔다고 밝혔다. 오는 3분기부터 주요 PC 제조사에 공급되며 오는 연말까지 20개 제조사가 80개 이상의 제품을 출시 예정이다.

2024.06.04 12:00권봉석

3D 벤치마크 대명사 '타임스파이', GPU 성능 상향 평준화로 8년만에 퇴장

그래픽카드와 게임용 데스크톱PC·노트북 성능 비교용으로 널리 쓰이는 벤치마크 프로그램 '3D마크'(3DMark)에 최근 새 그래픽 성능 테스트 시나리오 '스틸노매드'(Steel Nomad)가 추가됐다. 2016년 투입된 다이렉트X 12 얼티밋 기반 테스트 시나리오 '타임스파이'가 최근 2~3년간 급격한 그래픽카드 성능 향상으로 변별력을 상실했고 퀄컴 등 Arm IP 기반 비(非) x86 프로세서 탑재 PC를 제대로 지원하지 못하는 것이 그 이유로 꼽힌다. 스틸노매드는 타임스파이를 대신해 4K 해상도에서 그래픽 부하를 측정해 변별력을 강화했다. 이르면 올 연말 등장할 지포스 RTX 50 시리즈 등을 포함해 앞으로 눈부시게 발전할 그래픽카드 성능 평가의 지표가 될 것으로 보인다. ■ '타임스파이', 2016년 처음 등장 후 실행 건수 4천800만 건 돌파 타임스파이는 2016년 처음 등장한 3D 벤치마크 시나리오로 윈도 운영체제의 다이렉트X 12 얼티밋 기반 게임의 구동 성능을 측정한다. 프레임 생성에 걸리는 시간과 프로세서·그래픽카드 성능을 종합해 절대 점수를 표시한다. 본지를 비롯해 국내외 많은 IT 전문매체가 데스크톱용 프로세서와 게임용 노트북, 그래픽카드 성능 측정에 타임스파이를 활용했다. 일반 소비자도 새 PC 조립 후, 혹은 그래픽카드 교체 전/후 성능 파악을 위해 타임스파이를 '돌렸다'. 타임스파이를 실행한 후 각종 데이터는 3D마크 개발사인 UL 퓨처마크에 전송된다. 지금까지 집계된 테스트 결과는 총 4천800만 건 이상이다. ■ "테스트 평균 점수 8년만에 4배 가까이 급등" 그러나 UL 퓨처마크는 최근 "등장 초기 4천 점대 후반에서 5천점 대 초반에 그쳤던 타임스파이 평균 점수가 최근 3배 이상으로 급증했다"고 밝혔다. 실제로 최근 2-3년간 PC용 그래픽카드 성능은 비약적으로 발전했다. 예를 들어 엔비디아 지포스 RTX 20 시리즈(2018년), RTX 30 시리즈(2020년), RTX 40 시리즈(2022년) 등 2년 단위로 새 그래픽카드가 나올 때마다 성능이 크게 향상됐다. 커넥트웨이브 가격비교서비스 다나와가 제공한 자료에 따르면 노트북용 외장 그래픽칩셋 벤치마크 점수는 지포스 RTX 3050 선에서 5천 점에 근접했고 지포스 RTX 4060에서 1만 점을 넘겼다. 최상위 칩인 지포스 RTX 4090의 점수는 2만 점을 넘어섰다. ■ 최근 3년간 노트북 내장 GPU 성능도 크게 향상 노트북용 프로세서 내장 그래픽칩셋(GPU) 성능도 최근 3년간 급격히 향상됐다. 과거 MX150 등 노트북용 외장 그래픽칩셋을 공급하던 엔비디아는 이런 추세에 따라 지난 해부터 추가 생산과 공급을 중단한 상태다. 인텔 11세대 코어 프로세서(타이거레이크) 내장 GPU인 아이리스 Xe는 1816점에 그쳤다. 반면 지난 해 출시된 코어 울트라 프로세서 내장 아크 그래픽스 점수는 4157점으로 2배 이상 올랐다. 이는 풀HD(1920×1080 화소) 해상도에서 옵션을 조절하면 초당 60프레임 내외로 게임을 즐길 수 있는 수준이다. 여기에 올 3분기부터 공급될 차세대 프로세서 루나레이크 역시 AI 처리 속도 단축을 위해 GPU 성능을 크게 향상시킬 예정이다. ■ 스틸노매드, 4K 해상도 기본으로 부하 최대 7배 강화 새롭게 개발된 벤치마크 시나리오인 스틸노매드는 앞으로 대중화될 4K 해상도를 기점으로 삼고 처리 부하를 크게 높였다. UL 퓨처마크는 "타임스파이 대비 3배, 파이어스트라이크 대비 7배 가까이 처리가 무거워졌다"고 설명했다. 여기에 인텔·AMD 등 x86 프로세서 뿐만 아니라 퀄컴 스냅드래곤 X 엘리트/플러스 등 Arm 계열 프로세서가 등장하는 것을 감안해 다이렉트X와 벌칸을 모두 지원한다. 안드로이드(벌칸)와 iOS(메탈)도 지원한다. 단 아직 맥OS를 정식 지원하지 않아 최근 공개된 M4 등 애플 M시리즈 내장 GPU 성능을 측정할 수는 없다. UL 퓨처마크는 "맥OS와 리눅스 지원 버전도 개발을 준비중"이라고 밝혔다.

2024.05.28 15:34권봉석

인텔 "서버·AI PC서 메타 라마3 구동 지원"

인텔은 19일 메타가 공개한 생성 AI LLM(거대언어모델) 라마3(Llama 3)를 제온 프로세서와 가우디 AI 가속기, 코어 울트라 탑재 AI PC 등에서 지원한다고 밝혔다. 메타가 공개한 라마3는 오픈소스 생성 AI 모델이며 데이터셋 중 비영어권 데이터 비중을 5%까지 높였다. 현재 매개변수 80억 개, 700억 개 버전이 선 공개됐다. 매개변수 4천억 개 버전은 현재 데이터셋 훈련중이다. 인텔은 가우디 AI 가속기, 제온/코어 울트라 프로세서와 아크 GPU로 메타가 선공개한 매개변수 80억/700억 개 버전의 구동을 검증했다고 밝혔다. 인텔은 파이토치(PyTorch), 딥스피드, 인텔 옵티멈 하바나 라이브러리, 인텔 파이토치 익스텐션 등 오픈소스 소프트웨어로 수행한 자체 벤치마크 결과도 공개했다. 인텔이 2분기 중 출시할 P코어 제온6 프로세서는 80억 개 모델 추론 구동시 4세대 제온 스케일러블 프로세서 대비 지연 시간을 절반으로 단축했다. 또 700억 개 버전에서 토큰 하나당 지연시간을 0.1초 미만으로 줄였다. 코어 울트라 프로세서는 내장 아크 GPU를 이용해 라마3 구동시 사람이 읽을 수 있는 것보다 더 빠른 속도로 토큰을 생성했다. Xe 행렬곱셈 확장(XMX)을 내장한 아크 A770은 16GB 메모리를 활용해 라마3 처리를 가속한다. 가우디2 AI 가속기는 라마2 3개 모델(70억개, 130억개, 7천억개)에 이어 라마3 모델도 구동했다. 올 하반기 출시될 가우디3 AI 가속기도 라마3를 지원한다. 인텔은 향후 매개변수를 늘리고 성능을 강화한 라마3 모델도 지속 지원할 예정이다.

2024.04.19 10:24권봉석