• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'벤치마크'통합검색 결과 입니다. (18건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"성능 개선했다더니"…GPT-4.1 출시한 오픈AI, 가격·정확도 논란

오픈AI가 차세대 인공지능(AI) 모델 'GPT-4.1' 시리즈를 회사 애플리케이션 프로그램 인터페이스(API) 중심 전략의 핵심으로 삼았다. 기존 고사양 모델의 부담을 줄이고 실사용 효율성을 높이려는 전략이지만 업계 일각에서는 기대와 우려가 엇갈리는 분위기다. 오픈AI는 'GPT-4.1' 기본형과 경량형 모델을 함께 제시하고 고비용 모델인 'GPT-4.5'는 오는 7월을 기점으로 단계적으로 퇴장시킬 계획이라고 15일 밝혔다. 새로운 '4.1' 시리즈에는 멀티모달 기능과 장문 대응 구조를 적용하며 사용자 범용성을 강화했다는 점을 강조했다. 다만 '4.1'의 실제 성능과 가격 구조를 놓고는 회의적인 시선도 제기된다. 일부 벤치마크 결과에서 경쟁 모델에 비해 정확도가 낮게 나타났고 지표 구성 방식에 대한 지적도 뒤따르며 향후 시장 내 경쟁력에 관심이 쏠린다. 멀티모달·장문 대응 갖춰…'4.5'는 5개월 만에 퇴장 오픈AI는 새로 출시된 'GPT-4.1' 시리즈가 프론트엔드 앱 생성, 코드 리뷰, 문서 분석, 고객 응대 등 실사용 환경에 더욱 적합하도록 최적화됐다고 설명했다. 특히 프로그래밍 업무의 생산성을 높이는 데 중점을 두고 개발됐으며 기존 'GPT-4o'보다 다양한 지시 유형과 포맷을 정확하게 따를 수 있다는 것이다. 'GPT-4.1' 시리즈의 입력당 가격은 모델별로 구분된다. 가장 성능이 높은 'GPT-4.1'은 입력 1백만 토큰당 2달러(한화 약 2천800원), 출력은 8달러(한화 약 1만1천200원)다. 'GPT-4.1 미니'는 입력 당 0.4달러(한화 약 560원), 출력 1.6달러(한화 약 2천200원)로 책정됐다. 가장 작은 'GPT-4.1' 나노는 입력 0.1달러(한화 약 160원), 출력 0.4달러(한화 약 640원)로 가격 접근성이 높다. 동일 프롬프트를 반복 사용하는 경우에는 최대 75%까지 입력 요금 할인이 적용된다. 이러한 'GPT-4.1'의 투입은 고성능 모델로 자리했던 'GPT-4.5'의 단계적 종료와 맞물린다. 오픈AI는 오는 7월을 기점으로 'GPT-4.5' 애플리케이션 프로그램 인터페이스(API) 제공을 종료하고 후속 제품인 'GPT-4.1'을 주력 모델로 대체한다고 밝혔다. 'GPT-4.5'의 연산 비용이 지나치게 높아 상용화 부담이 컸기 때문이라는 점이 교체의 배경으로 제시됐다. 'GPT-4.5'는 지난 2월 말 발표된 오픈AI 최대 규모 모델로, 보다 많은 학습량과 계산 자원을 투입해 설득력과 문장 구성 능력을 개선한 바 있다. 그럼에도 출시 5개월 만에 API 시장에서 퇴장 수순을 밟게 되면서 'GPT-4.1'이 향후 오픈AI의 API 전략을 실질적으로 이끌 주력 제품이 될 것으로 전망된다. "개선된 게 맞나"…벤치마크 해석·가성비 논란에 경쟁력 의문 이같이 오픈AI가 'GPT-4.1'이 향상된 명령 이행력과 코딩 성능을 가졌다고 전면에 내세웠지만 실제 성능을 두고는 업계 일각에서 회의적인 시선이 나온다. 실제로 'GPT-4.1'은 오픈소스 프로젝트의 코드 이슈를 해결하는 능력을 평가하는 SWE-벤치 베리파이드(SWE-bench Verified) 기준 54.6%의 정확도를 기록했지만 같은 지표에서 구글의 제미니 2.5 프로는 63.8%, 앤트로픽의 클로드 3.7 소넷은 62.3%로 오히려 더 높은 수치를 보였다. 자연어 기반 코드 수정과 리팩토링 성능에서 오픈AI가 경쟁사보다 앞서 있다고 보긴 어려운 수치다. 가격 대비 성능에서도 의문이 제기된다. 'GPT-4.1'은 입력 1백만 토큰당 2달러, 출력은 8달러로 책정돼 가격이 높은 편이다. 같은 범주의 제품인 구글 '제미나이 2.5 프로'는 출력 단가는 10달러(한화 약 1만4천원)로 다소 높지만, 입력 요금은 1.25달러(한화 약 1천500원)로 저렴하다. SWE-벤치 코딩 성능에서 입력 단가가 낮은 '제미나이 2.5' 모델이 더 높은 정확도를 기록한 만큼, 가성비 면에서는 오픈AI가 밀린다는 평가다. '미니' 모델도 상황은 비슷하다. 입력 비용이 경쟁 프로덕트인 구글 '제미나이 플래시'보다 2배 이상 비싸지만 성능은 오히려 낮다는 분석이 뒤따른다. 컨텍스트 캐싱을 적용하지 않는 경우에는 가격 차이가 더 벌어져 규모가 작은 프로젝트에서 선택하기 어려운 구조다. 오픈AI의 벤치마크 구성 방식에 대한 지적도 나온다. 'GPT-4.1'의 성능을 보여주는 공식 차트에는 고난도 문제와 논리 추론 항목이 포함된 공신력 있는 벤치마크인 표준 MMLU 대신 다국어 MMLU(M-MMLU)가 사용됐기 때문이다. MMLU는 다양한 학문 분야의 지식과 추론 능력을 평가하는 대표적 지표로, 표준 MMLU는 영어 기반으로 구성되며 M-MMLU는 이를 여러 언어로 번역한 버전이다. 원본보다 번역된 문항이 많아 모델에 유리하게 작용할 가능성이 있다는 분석도 나온다. 고난도 문제를 포함한 MMLU-프로 성능은 아예 공개되지 않았다. 이외에도 오픈AI가 공개한 차트의 y축 수치가 표시되지 않아 모델 간 실제 성능 격차를 시각적으로 축소하려는 의도가 아니냐는 해석도 있다. 점수 차이가 적음에도 불구하고 동일한 막대 높이로 표시돼 상대적 우위를 부각시키는 방식이 아니냐는 지적이다. 테크크런치는 "'GPT-4.1'은 SWE-벤치 기준으로만 보면 전작보다 향상된 결과를 보이지만 실제 활용 환경에서는 여전히 보완이 필요하다"고 평가했다.

2025.04.15 17:14조이환

新 LLM 내놓은 메타, 벤치마크 모델 성능 조정 의혹…"일반 버전과 달라"

메타가 새 인공지능(AI) 모델 성능 테스트에 사용한 모델과 실제 일반 버전이 다른 정황이 포착됐다. 7일 테크크런치에 따르면 메타가 챗봇 성능을 비교하는 'LM 아레나' 테스트에서 2위를 차지한 모델 '매버릭'이 일반 매버릭 버전과 다르다는 의혹이 개발자들 사이에서 나왔다. 테스트 버전과 일반 개발자가 다운로드할 수 있는 버전 구성이 다른 셈이다. 현재 LM 아레나에 적용된 매버릭 버전은 '실험적인 챗 전용 버전'으로 명시됐다. 반면 배포용 버전은 정교한 대화 조정이 적용되지 않은 것으로 드러났다. 결과적으로 LM 아레나에 등록된 모델은 공개 모델보다 더 사람처럼 반응할 수 있도록 설계된 셈이다. 실제 사용 환경에서 두 버전은 성능 차이를 보일 수 있다. 다수 외신은 벤치마크용 모델과 실제 공개 모델이 다를 경우 생기는 혼란을 우려했다. 특정 벤치마크에 맞춰 성능 높인 모델이 실제로 제공되지 않거나, 동일한 이름으로 배포될 때 사용자 혼동이 발생한다는 지적이다. 실제 개발자들도 LM 아레나에 올라간 매버릭은 공개 다운로드 버전과 크게 다르다고 입을 모았다. LM 아레나에 올라간 버전은 이모티콘을 과도하게 쓰거나 응답이 지나치게 길었다는 의견이 이어졌다. 이들은 해당 버전이 대화 특화형 조정을 거친 것으로 파악했다. 미국 AI 정보 플랫폼 세마포어 관계자는 "메타가 테스트용 버전을 숨긴 채 일반 버전과 구분하지 않고 공개한 것은 큰 오해를 불러올 수 있다"며 "벤치마크는 다양한 작업에서 장단점을 파악할 수 있는 기준이 돼야 한다"고 지적했다.

2025.04.07 10:48김미정

"GPU 72장 돌려야 답 나온다"…엔비디아, AI 추론 '끝판왕' 내놔

엔비디아가 복잡한 사고력 기반 AI 모델 확대에 맞춰 새로운 추론 성능 전략을 공개한다. 점점 더 많은 연산을 요구하는 AI 모델 등장에 따른 글로벌 평가 기준 변화에 선제 대응하려는 조치다. 3일 업계에 따르면 엔비디아는 지난 1일 정오 온라인으로 진행한 프리브리핑에서 AI 성능 벤치마크인 '엠엘퍼프(MLPerf)' 추론 AI 부문의 변화에 대응하기 위한 기술 전략을 공개했다. 이번 행사는 국제 컨소시엄 엠엘커먼스(MLCommons)가 '사고 기반 AI'인 추론 모델을 평가 항목에 포함하려는 움직임에 초점을 맞췄다. 엠엘퍼프는 AI 모델의 훈련(training)과 추론(inference) 성능을 하드웨어·소프트웨어 통합 기준으로 측정하는 글로벌 표준 벤치마크다. 엠엘커먼스가 주도하는 이 평가 항목은 업계 기술 흐름에 따라 주기적으로 갱신된다. 최근에는 단순 예측을 넘어 복잡한 추론과 의사결정을 요구하는 리즈닝 모델이 AI 기술의 중심으로 떠오르면서 해당 항목의 공식 도입 논의가 본격화되고 있다. 엔비디아는 아직 리즈닝 모델 항목이 공식 도입되지는 않았지만 차기 엠엘퍼프 버전에서는 채택 가능성이 높다고 판단하고 있다. 이를 선제적으로 대비하기 위해 회사는 중국의 AI 스타트업인 딥시크가 개발한 생성형 AI 모델을 활용해 복잡한 사고 기반 작업에서의 추론 성능을 시연했다. 이처럼 복잡한 추론 모델이 확산되면서 AI 추론 환경 전반에도 근본적인 변화가 일고 있다. 추론 연산량이 전례 없이 폭증하고 있는 상황에서 과거에는 단일 그래픽처리장치(GPU)나 단일 노드에서 충분했던 작업들이 이제는 다수 GPU를 동시 투입하는 복잡한 병렬 연산 없이는 처리할 수 없다는 것이 엔비디아의 분석이다. 이에 더해 추론 모델의 확산은 AI 개발의 모든 단계에서 연산 자원의 수요를 급격히 증가시키고 있다. 엔비디아는 모델 재학습(retraining), 도메인 맞춤화(post-training), 테스트 시점 확장(test-time scaling) 등에서 연산량이 기하급수적으로 늘고 있다고 분석했다. 특히 테스트 단계에서도 추론 정확도를 높이기 위한 병렬 연산 수요가 계속해서 증가하고 있다는 점을 강조했다. 이에 이날 엔비디아는 고성능 시스템 예시로 'GB200 MBL'을 제시했다. 해당 시스템은 총 72개의 GPU를 동시 연동하며 복잡한 추론을 빠르게 처리할 수 있도록 설계됐다. 회사는 이러한 대규모 병렬 환경이 향후 추론 표준이 될 것으로 보고 있다. 엠엘커먼스 역시 추론 모델을 엠엘퍼프의 공식 평가 항목에 포함하기 위한 논의를 본격적으로 시작한 상황이다. 현재 다양한 기술 커뮤니티와 협업을 통해 평가 기준과 워크로드 확장을 준비하고 있다. 공식 도입 시점은 아직 정해지지 않았으나 실증 사례와 모델 테스트가 계속 이어지고 있어 연내 도입이 확정될 가능성도 있다. 엔비디아 관계자는 "모델의 크기와 지능이 커짐에 따라 연산량이 모든 단계에서 폭증하고 있다"며 "재학습, 도메인 최적화, 테스트 시점 스케일링 모두 고성능 GPU를 요구한다"고 설명했다. 이어 "72개의 GPU처럼 다수의 칩을 동시에 작동시켜야 하는 이유가 바로 이 때문"이라고 덧붙였다.

2025.04.03 01:00조이환

통신사가 만든 AI 모델, 벤치마크로 품질 평가

세계이동통신사업자연합회(GSMA)가 MWC25 개막을 앞두고 '오픈 텔코 LLM 벤치마크'를 출범한다고 밝혔다. 통신사들이 개발하고 있는 AI 언어 모델을 자체적으로 평가할 수 있는 도구를 내놓고 AI 서비스의 고도화를 이끌겠다는 전략이다. 25일(현지시간) GSMA에 따르면 오픈 텔코 LLM 벤치마크는 오픈소스 커뮤니티 형태로 AI 모델을 평가하기 위한 통신업계 최초의 프레임워크로 고안됐다. 공식 출범은 MWC25 기간에 이뤄질 예정이다. GSMA가 주도하고 주요 산업 파트너들이 지원하는 벤치마크를 통해 AI 모델을 실제 통신 사용 사례와 비교해 평가하게 된다. 산업 전반의 협력을 촉진시키고 통신 AI 서비스의 정확성,효율성, 안전성을 높이겠다는 전략이다. 루이스 파월 GSMA AI이니셔티브 책임자는 “현재 AI 모델은 통신사별 쿼리에 어려움을 겪으며 부정확하거나 오해 소지가 있거나 비현실적인 추천을 생성하는 경우가 많다”며 “벤치마크 세트로 AI 모델 성능을 향상시키는 것을 넘어 통신사의 AI가 안전하고 신뢰할 수 있고 실제 운영 요구 사항에 부합하도록 보장할 것”이라고 말했다. 이같은 오픈소스 이니셔티브 개발에는 허깅페이스와 리눅스재단 외에 국내 통신사인 SK텔레콤과 LG유플러스가 직접 참여했다.

2025.02.26 18:05박수형

"AI, 역사 시험은 빵점"…거대언어모델, 전문 시험서 한계 드러내

인공지능(AI)이 고급 역사 질문에서는 신뢰할 만한 답변을 내놓지 못한다는 연구 결과가 나왔다. 21일 테크크런치에 따르면 오스트리아 연구기관 복잡성 과학 허브(CSH)는 최근 발표한 연구에서 'GPT-4', '라마', 구글 '제미나이' 같은 거대언어모델(LLM)들이 역사적 전문성을 테스트하는 벤치마크인 '히스트-LLM(Hist-LLM)'에서 낮은 성과를 보였다고 밝혔다. 가장 높은 성과를 보인 'GPT-4 터보'도 정확도가 46%에 불과했다. 이번 테스트는 '세샤트 글로벌' 역사 데이터베이스를 바탕으로 진행됐으며 고대 이집트와 같은 특정 역사적 상황을 포함한 고급 질문을 포함했다. 이 질문에서 LLM은 대부분의 질문에 대해 부정확하거나 과장된 답변을 내놓으며 한계를 드러냈다. 일례로 연구진은 고대 이집트에 특정 시기에 찰갑 갑옷이 존재했는지 물었다. 'GPT-4'는 "예"라고 답했지만 실제로 찰갑은 해당 시기로부터 1천500년 뒤에 등장했다. 또 다른 질문에서는 고대 이집트에 상비군이 있었는지를 물었으나 모델은 잘못된 정보를 바탕으로 "있었다"고 답했다. 연구팀은 이런 오류의 원인으로 AI가 널리 퍼진 데이터를 우선적으로 학습하는 특성을 지적했다. 페르시아 같은 제국의 상비군에 대한 정보가 풍부한 반면 고대 이집트와 같은 특정 시기와 관련된 희귀 데이터는 학습이 부족하다는 것이다. 또 AI 모델은 특정 지역에 대한 역사적 지식의 성능이 더 낮은 경향도 보였다. 특히 사하라 이남 아프리카와 같은 지역에 대한 데이터의 부족과 편향이 더 큰 문제로 작용했다. 연구진은 이번 결과가 LLM의 역사적 한계와 개선 가능성이 있다는 점을 동시에 보여준다고 강조했다. 향후에는 대표성이 부족한 지역의 데이터를 추가하고 보다 복잡한 질문을 포함하는 방향으로 기준을 개선할 계획이다. 피터 투르힌 CSH 교수는 "AI는 기본적인 역사적 질문에는 유용하지만 고급 질문에서는 아직 전문성을 갖추지 못했다"며 "향후 기술 개선을 통해 역사 연구를 보조할 수 있는 가능성은 충분하다"고 말했다.

2025.01.21 09:57조이환

갤럭시S25 울트라, 벤치마크 테스트 공개…결과는?

삼성전자가 이번 달 공개할 차세대 스마트폰 '갤럭시S25 울트라' 벤치마크 테스트 결과가 공개됐다고 IT매체 폰아레나가 최근 보도했다. 이번에 공개된 모델명 삼성 SM-S9380인 갤럭시S25 울트라는 퀄컴 스냅드래곤8 엘리트 칩과 12GB 램을 탑재했으며, 테스트 결과 단일코어 점수 3천49점과 멀티코어 점수 9천793점을 기록했다. 갤S25 울트라에 사용될 스냅드래곤 8 엘리트 칩은 오버클럭된 CPU 코어를 특징으로 할 것으로 예상되고 있다. 예전 스냅드래곤8 2세대, 3세대 칩 모두 오버클럭된 CPU 코어를 갖춘 갤럭시용 변형 칩이 나온 바 있다. 벤치마크 테스트에 따르면, 갤럭시 애플리케이션 프로세서(AP)용 스냅드래곤8 엘리트 칩은 클록 속도가 최대 4.47GHz인 2개 주요 CPU 코어와 최대 3.53GHz의 클록 속도를 자랑하는 6개 CPU 코어를 특징으로 한다. 해당 칩은 중국 시장을 겨냥한 모델에 탑재될 것으로 예상되고 있다. 이번에 공개된 것은 갤럭시S25 울트라 벤치마크 테스트 결과로는 가장 최근 수치다. 하지만 아직 기기 최적화 작업이 진행 중인 것으로 보인다고 해당 매체는 전했다. 약 두 달 전에 나왔던 갤S25 울트라 미국 모델의 벤치마크 테스트 결과에서 멀티코어 점수가 1만 점을 넘어 새로운 성능 표준을 제시하기도 했다. 삼성전자가 갤럭시 S25 시리즈를 공개할 때까지 약 3주 가량이 남은 상태다. 삼성전자는 이번 달 22일 언팩 행사를 열고 갤럭시S25 시리즈를 발표할 것으로 전망되고 있다.

2025.01.02 10:38이정현

스냅드래곤8 엘리트 칩 탑재 폰, 테스트했더니…"너무 뜨거워"

퀄컴의 차세대 모바일 플랫폼 '스냅드래곤 8 엘리트' 칩을 탑재한 리얼미 GT7 프로의 벤치마크 성능 테스트 결과가 공개됐다. 리얼미 GT7 프로가 손에 잡기 불편할 정도로 뜨거워지는 발열 현상이 포착됐다고 IT매체 폰아레나가 3일(현지시간) 안드로이드오쑈리티 등의 테스트 결과를 인용 보도했다. 스냅드래곤 8 엘리트 칩은 최대 4.32GHz 클럭의 프라임 코어 2개, 최대 3.53GHz 클럭의 성능 코어 6개로 구성된 맞춤형 옥타코어 칩셋으로, 싱글 코어와 멀티 코어 성능이 각각 45%, 웹 브라우징 성능은 62% 향상됐다고 퀄컴 측은 밝혔다. 전력 효율도 개선되면서 CPU는 45%, GPU 전력은 40% 개선됐다. AI 전력 효율도 45% 향상됐다. 안드로이드오쏘리티가 진행한 3D마크 GPU 스트레스 테스트 도중 리얼미 GT7 프로는 과열돼 보호 메커니즘이 작동하면서 테스트 도중 앱이 중단됐다. 또, 전화·메시지를 제외한 모든 앱이 비활성화됐으며, 전화기 온도는 46도까지 오른 것으로 알려졌다. 이는 스마트폰에 냉각 챔버가 있다는 점을 고려하면 우려스러운 부분이라고 폰아레나는 평했다. 벤치마크 앱 테스트 중에 리얼미가 벤치마크 앱 테스트를 속이려고 한 부분도 포착됐다. 안드로이드오쏘리티가 벤치마크 최적화를 우려해 3D마크를 다른 앱으로 위장한 후 테스트한 결과 이전과 결과는 달랐다. 그 결과 스마트폰 성능은 이전 테스트 보다 떨어졌으나 발열 문제는 눈에 띄지 않았고 기기는 정상적으로 작동했다. 또, 스트레스 테스트보다 스마트폰에 부담을 덜 주는 긱벤치 테스트에서 스냅드래곤 8 엘리트는 이전 세대 칩보다 약 11~13% 가량 성능이 더 향상됐으나, 퀄컴이 주장하는 40% 이상 향상에는 미치지 못했다. 벤치마크 테스트는 기기의 가장 빠른 이론적 성능을 알아내고 모든 코어를 최대 주파수로 밀어붙여 테스트 하는 것으로, 이 결과는 전반적인 사용자 경험을 나타내는 것은 아니다. 하지만, 퀄컴이 야심차게 선보인 최신 칩이 장착된 기기가 벤치마크에서 부정행위를 한 것이 적발된 것은 퀄컴에도 좋은 모습이 아니며, 익명화된 벤치마킹 앱을 사용했을 때 퀄컴이 말했던 수준에 성능이 도달하지 못했다는 점은 실망스러운 점이라고 폰아레나는 전했다. 스냅드래곤 8 엘리트 칩은 내년 초 갤럭시S25 시리즈를 포함한 향후 플래그십 안드로이드 스마트폰에 탑재될 예정이기 때문에 다소 우려스럽다고 해당 매체는 덧붙였다.

2024.11.04 15:20이정현

딥엑스, DX-M1 저전력 성능 입증...양산 체제 돌입

딥엑스는 AI 반도체 'DX-M1'가 버터 벤치마크 실험을 통해 글로벌 경쟁 제품 대비 초격차 기술력을 입증했다고 밝혔다. 이번 실험은 발열 관리가 성능과 제품 수명에 미치는 영향을 고려할 때, 딥엑스의 차별화된 저전력 및 고효율 기술력을 부각하는 중요한 계기가 됐다. 버터 벤치마크 실험은 반도체의 발열 성능을 직관적으로 시각화할 수 있는 간단한 방법으로 30~36℃에서 녹는 버터를 반도체 칩 위에 놓고 구동 중에 발생하는 열을 비교하는 방식으로 이루어진다. 반도체가 발열을 제대로 관리하지 못할 경우, 성능 저하와 응용 시스템의 오작동을 초래할 수 있어 과도한 전력 소모를 일으키는 AI 반도체에서 저전력 설계는 필수적인 기술이다. 이번 실험에서 딥엑스의 DX-M1은 대표적인 객체 인식 AI 알고리즘인 Yolo5s 모델을 초당 30번 추론하는 작업 중에 버터가 녹지 않을 정도로 뛰어난 발열 제어 성능을 입증했다. 동일한 조건에서 테스트 된 경쟁사 제품들은 버터가 빠르게 녹아내리며 발열 관리의 한계가 드러났다. Yolov7 같은 더 복잡한 알고리즘에서도 DX-M1은 동일한 조건에서 경쟁 제품을 20~40도의 저온 차이로 압도하는 성능을 보여주며 기술적 우위를 다시 한번 입증했다. 특히 DX-M1은 주변 온도를 상승시켜 140도라는 극한의 온도에서도 안정적인 성능을 유지하는 것을 확인했다. 딥엑스는 올 하반기부터 DX-M1의 양산 체제에 본격 돌입했으며, 수율 확보를 위한 다양한 기술 검증을 진행하고 있다. MPW(멀티 프로젝트 웨이퍼)로 제작된 샘플을 통해 조기 양산 테스트와 신뢰성 테스트를 진행해 양산성과 수율을 극대화하고 있다. 또한 OSAT(후공정) 파트너사들과 협력해 다양한 응용 분야에 맞춘 칩 패키지를 다변화함으로써, 제품의 단가를 최적화고 품질은 극대화하고 있다. 딥엑스는 "DX-M1는 물리보안 시스템, 로봇, 산업용 솔루션, 서버 등의 여러 응용 분야에서 글로벌 기업들과 양산 협력을 진행하고 있다"고 전했다. 한편, 딥엑스는 오는 23일부터 25일까지 서울 코엑스에서 개최되는 국내 최대 반도체 전시회 '2024 반도체대전'에 참가해 DX-M1 등 주력 제품을 선보일 예정이다.

2024.10.21 10:26이나리

백준호 퓨리오사AI 대표 "2세대 레니게이드 AI칩, 글로벌 경쟁력 입증 완료"

"AI 반도체 스타트업으로서 많은 선입견이 있었지만, 회사의 차세대 AI 반도체인 '레니게이드'는 하드웨어와 소프트웨어 모두 글로벌 시장에서 경쟁력을 갖춘 제품입니다. 실제로 엔비디아의 칩과 비슷한 성능을 구현하면서도, 전력소모량은 크게 낮춘 테스트 결과를 도출하기도 했습니다." 백준호 퓨리오사AI 대표는 10일 서울 삼성동 코엑스에서 개막한 '디지털 혁신 페스타 2024' 부대행사로 열린 '퓨처 테크 컨퍼런스'에서 이같이 밝혔다. 이날 '생성형 AI시대의 AI반도체 프론티어'를 주제로 발표를 진행한 백 대표는 AI 반도체 '레니게이드'의 경쟁력을 강조했다. 레니게이드는 회사의 2세대 NPU(신경망처리장치) 칩으로, 최대 초당 1.5 TB(테라바이트) 이상의 대역폭을 구현한다. 퓨리오사는 이 레니게이드에 대해 올 하반기부터 잠재 고객사와 제품(퀄) 테스트를 본격화했다. 레니게이드는 대만 주요 파운드리 TSMC의 5나노미터(nm) 공정 및 첨단 2.5D 패키징 기술인 'CoWoS'를 기반으로 한다. 메모리는 HBM3(4세대 고대역폭메모리)를 탑재했다. 실제로 퓨리오사AI가 AI 추론 영역에서 벤치마크 테스트를 진행한 결과, 초당 쿼리 수 기준으로 레니게이드(11.5)는 엔비디아 L40S(12.3)와 비슷한 성능을 나타냈다. 반면 소비전력은 엔비디아 L40S가 320W인 데 비해, 레니게이드는 185W로 훨씬 높은 효율성을 기록했다. 백 대표는 "최근에는 레니게이드의 초당 당쿼리 수가 13~14로 올라갈 만큼 성능이 더 향상된 상황"이라며 "레니게이드가 글로벌 시장에서도 충분히 경쟁할 수 있는 제품임을 입증했다"고 밝혔다. 단순히 칩의 하드웨어만이 아니라, 소프트웨어 성능을 강화한 것도 레니게이드가 지닌 강점이다. 백준호 대표는 "AI 반도체가 도입이 늦어지는 이유 중 하나는 소프트웨어 스택이 칩을 잘 받쳐주지 못한다는 것"이라며 "퓨리오사AI는 이를 해결하고자 TCP(텐서축약프로세서)라고 부르는 소프트웨어 설계 역량에 집중했다"고 설명했다. 텐서란 3차원 이상의 행렬로 데이터를 배열한 데이터 구조다. 통상적인 AI 가속기는 이를 처리하는 데 여러 비효율적인 면이 발생하지만, 퓨리오사AI의 TCP 아키텍처는 효율적인 방식으로 데이터를 처리한다. 백 대표는 "회사의 전체 엔지니어 120명 중 하드웨어 담당은 30%, 소프트웨어 담당은 70%에 해당할 정도"라며 "설계의 혁신이 레니게이드의 가장 큰 혁신으로, 이를 통해 향후 AI 반도체 시장 공략을 위해 노력할 것"이라고 말했다.

2024.10.10 17:46장경윤

갤럭시S25 울트라, 아이폰16 프로맥스 뛰어넘을까

삼성전자의 차세대 플래그십 스마트폰 '갤럭시S25 울트라'의 벤치마크 결과가 공개됐다고 폰아레나 등 외신들이 25일(현지시간) 보도했다. 보도에 따르면, 모델번호 'SM-S938B'의 갤럭시S25 울트라의 벤치마크 결과가 긱벤치에서 발견됐다. 이 모델은 최대 4.47GHz 클럭, 미드레인지 코어 속도는 3.53GHz를 보였다. 이에 폰아레나는 갤럭시S24 울트라가 전작보다 훨씬 더 개선된 성능을 보여주며, 아이폰16 프로 맥스보다 빠를 수도 있다고 전했다. 아이폰16 프로 맥스 A18 프로 칩셋의 경우 처음으로 최고 성능 4GHz를 넘었으나 갤럭시S25 울트라보다는 클럭 속도가 낮았다. 이번에 공개된 갤럭시S25 울트라의 벤치마크 점수는 싱글 코어 테스트에서 3천11점, 멀티코어 테스트에서 9천706점을 기록했다. 단일 코어 점수에서는 아이폰16 프로 맥스의 3천331점보다 뒤쳐지나, 아이폰의 멀티코어 점수는 8천106점으로 갤럭시S25 울트라가 더 좋았다. 그 외에도 자료에서 갤럭시S25 울트라에 안드로이드15, 12GB 램, 스냅드래곤8 4세대 칩 탑재가 확인됐다. 갤럭시S25 울트라에는 퀄컴 스냅드래곤 8 4세대 칩의 특별 버전이 들어갈 예정이다. 일반적으로 퀄컴은 삼성을 위해 인공지능(AI) 기능에 특화된 클럭 속도가 더 높은 맞춤형 스냅드래곤 프로세서를 제공한다. 해당 매체는 삼성전자가 퀄컴과 함께 2025년 갤럭시용 스냅드래곤 칩을 개발하기 까지 아직 몇 개월이 남아있기 때문에, 갤럭시S25 울트라가 강력한 아이폰 프로 라인업과 동등한 성능을 달성했을 가능성도 있다고 평했다.

2024.09.26 10:16이정현

"라이젠 9000 게임 성능 인텔 앞선다"더니...말 바꾼 AMD

AMD가 이달 초순 국내를 비롯해 세계 시장에 출시한 데스크톱PC용 라이젠 9000 시리즈 프로세서 관련 "게임 성능이 인텔 대비 평균 6% 빠르다"는 주장에서 한 발 물러섰다. 최적 조건을 적용하면 양사 프로세서 사이 게임 성능이 거의 비슷하다는 것이다. AMD는 그간 풀HD(1920×1080 화소) 해상도, 그래픽 품질 '높음' 기준으로 30개 게임 성능을 테스트하면 자사 제품이 경쟁사(인텔) 동급 제품(14세대) 대비 평균 6% 빠르다고 설명했다. 그러나 국내외 IT 매체들의 평가 결과 AMD 주장만큼의 차이가 없다는 지적이 나왔다. AMD는 21일(미국 현지시간) 공식 블로그를 통해 "자체 게임 테스트 결과와 외부 결과에 차이가 있는 것은 인텔 프로세서에 공급되는 전력 설정과 운영체제인 윈도11 버전이 달라 일어난 일"이라고 설명했다. ■ "전력 설정·메모리 바꾸면 인텔 CPU 게임 성능 향상" AMD가 자체 테스트를 수행한 시점은 인텔이 13/14세대 코어 프로세서 과전압 문제 대책을 위해 '인텔 디폴트 설정'을 배포한 6월이다. 이 설정값은 메인보드 제조사의 자의적인 설정 대신 인텔 권장값에 최대한 일치하도록 조정한 것이다. AMD는 "인텔 디폴트 설정은 게임 성능에 큰 영향을 미치지 않으며 인텔과 AMD 시스템에 모두 DDR5-6000MHz 메모리를 적용해 테스트했다"고 설명했다. 그러나 14세대 코어 프로세서는 메모리 성능이 뒷받침된다면 더 빠른 메모리를 장착해 성능을 향상시킬 수 있다. AMD는 "인텔 시스템에 DDR5-7200 메모리를 장착하고 전원 공급 설정을 최대한(익스트림)으로 적용하면 양사 프로세서에서 주요 게임의 성능이 거의 비슷하다"고 설명했다. ■ "젠5 아키텍처 성능 최적화 위해 윈도11 24H2 활용" AMD는 자체 테스트에 이용한 윈도11 버전에도 차이가 있다고 밝혔다. 지난 해 10월에 공개된 윈도11 버전 23H2가 아니라, 마이크로소프트가 신기능 적용을 위해 시험적으로 일부 소비자에게 배포하는 버전 24H2 '인사이더 프리뷰' 버전을 이용했다는 것이다. AMD는 "젠5 아키텍처는 전 세대 대비 앞으로 실행할 명령어를 예측하는 분기 예측 수를 늘렸고 자체 테스트는 이를 활용할 수 있는 윈도11 버전 24H2에 내장된 '관리자 모드'를 활용한 것"이라고 설명했다. 단 프로세서나 SSD, 그래픽카드 등 성능 테스트시 해당 시점에 일반적으로 쓰이는 운영체제와 소프트웨어 최신 버전을 이용하는 것이 관례다. 새로운 기능 테스트를 위해 아직 출시되지 않은 소프트웨어를 활용하는 것도 가능하지만 이 경우 해당 사실을 명시한다. ■ "같은 프로세서도 윈도11 버전 따라 성능 차이 있다" AMD는 "윈도11 24H2 인사이더 프리뷰 버전으로 테스트를 진행한 결과 라이젠 9000 시리즈는 라이젠 7000 시리즈 대비 오피스 생산성과 콘텐츠 제작 작업에서 10%, AI 처리에서 최대 30% 성능 향상이 있었다"고 설명했다. 이어 "경쟁사(인텔) 제품과 동일한 조건에서 최적 설정으로 수행시 오피스 생산성과 콘텐츠 제작 작업은 두 자릿수 위, AI 처리는 최대 30% 우위에 있지만 주요 리뷰에 적용된 게임 기준으로는 비슷한 결과가 나왔다"고 설명했다. AMD는 같은 프로세서를 쓴다 해도 윈도11 현행 버전인 23H2와 24H2 인사이더 프리뷰(빌드 26100) 사이에 게임 성능 차이가 있음도 밝혔다. 파크라이6(13%), 사이버펑크 2077(7%), 히트맨3(3%) 등의 성능이 향상된 반면 워치독: 리전에서는 변화가 없었다. AMD는 "윈도11 24H2 26100 빌드는 젠5 기반 프로세서 뿐만 아니라 젠3/4 등 다른 프로세서 성능도 향상시킬 것"이라고 설명했다. ■ "중요한 정보 빠뜨려 불필요한 오해 낳았다" 지적도 경쟁사인 인텔 현행 제품인 13/14세대 코어 프로세서는 올 1분기 말부터 불거진 과전압 인가 문제로 신뢰성에 적지 않은 타격을 받았다. 차기 제품인 애로레이크(Arrow Lake)는 올 4분기에나 출시 예정이다. 국내 PC업계 관계자들은 "AMD 라이젠 9000 시리즈 프로세서는 시장 상황이나 주위 성능 면에서 지금까지 나온 라이젠 프로세서 중 가장 큰 경쟁력을 갖췄지만 성능 관련 중요한 정보를 빠뜨려 불필요한 오해를 만들었다"고 지적했다. AMD는 "모든 새 아키텍처 출시때와 마찬가지로 라이젠 프로세서를 쓰는 고객에게 최고의 성능을 전달할 수 있도록 커뮤니티와 언론의 피드백을 지속적으로 활용할 것"이라고 밝혔다.

2024.08.22 16:58권봉석

오픈AI 中 서비스 중단…알리바바 '큐원2'가 대안될까

오픈AI가 중국 내 서비스를 전면 차단한 가운데 알리바바가 대규모 언어 모델(LLM) '큐원2-수학(Qwen2-Math)'을 출시해 관심이 쏠린다. 현존하는 LLM 중 최상위권 수학 AI로 평가돼 현지 연구자와 개발자들의 대안으로도 각광 받고 있다. 9일 미국의 기술 매체 벤처비트에 따르면 알리바바의 '큐원2-수학'은 LLM용 수학 벤치마크 '매스(MATH)' 테스트에서 84%의 정확도를 기록했다. 벤치마크 성능 1위인 오픈AI의 'GPT-4 코드 인터프리터(GPT-4 Code Interpreter)'가 기록한 87.92%에 근접한 성과로, 알리바바의 기술력을 입증했다는 평가다. '큐원2'는 초등학교 수준의 수학을 테스트하는 'GSM8K'에서 96.7%, 대학 수준의 수학 테스트에서는 47.8%의 점수를 기록하며 눈에 띄는 성과를 거뒀다. 이는 오픈AI 'GPT-4o', 앤트로픽 '클로드 3.5 소네트', 구글 '수학-제미나이 스페셜라이즈드 1.5 프로(Math-Gemini Specialized 1.5 Pro)'와 같은 주요 경쟁 모델들을 능가하는 결과다. 이번 성과는 중국 유저들에게 의미가 크다. 오픈AI의 서비스 차단으로 중국 개발업계와 학계가 '챗GPT'를 사용하지 못하고 있기 때문이다. 지금까지 중국 개발자·연구자들은 가상사설망(VPN)을 통해 제한적으로 파인튜닝, 연구 및 벤치마킹을 진행해 왔으나 이마저도 지난 7월 전면적으로 차단돼 연구에 제약을 받아 왔다. 이런 상황에서 '큐원2'는 'GPT-4 코드 인터프리터'에 거의 준하는 수학 능력을 달성해 중국 유저들의 업무를 효율적으로 지원할 것으로 예측된다. 이에 맞춰 알리바바는 해당 모델의 광범위한 활용을 위해 배포를 계획하고 있다. 특히 월간 사용자 수가 1억 명 이하인 기업들에게 오픈소스로 제공해 스타트업과 중소기업이 사실상 무료로 사용할 수 있게 할 방침이다. 벤처비트는 "LLM 모델 경쟁이 매우 빠르게 진행되면서 '큐원'이 지금까지는 경쟁자들에게 밀려났었다"며 "이번 수학 능력의 비약적인 향상은 알리바바가 다시 경쟁력을 회복하는 계기가 될 수 있을 것"이라고 분석했다.

2024.08.09 15:28조이환

신형 M4 아이패드 프로, 성능 테스트해봤더니…

애플이 최근 공개한 M4칩 탑재 신형 아이패드 프로가 벤치마크 테스트 결과 전작보다 크게 향상된 것으로 나타났다. IT매체 애플인사이더는 8일(현지시간) M4칩 10코어를 갖춘 12.9인치 신형 아이패드 프로의 벤치마크 성능 테스트 결과를 보도했다. 해당 결과는 AI모델 구동 성능을 측정하는 벤치마크 사이트 '긱벤치'의 ML 점수로, 엑스 사용자(@negativeonehero)가 처음 게시했다. 테스트 결과 신형 아이패드 프로의 ML 점수는 9천234점으로, 2022년 출시된 M2 아이패드 프로의 7천393점에 비해 상당히 향상됐다. M1 12.9인치 아이패드 프로는 3천400점을 기록한 바 있다. 하지만, 애플 제품 중 최고수준은 아니디. 16코어 M3 맥스칩 탑재 16인치 맥북 프로의 ML 점수는 1만1천80점을 기록했다. 애플인사이더는 이번 테스트를 실행하는 데 사용된 소프트웨어가 'iOS 18'라는 점을 지적하며, 해당 테스트 결과가 가짜일 수도 있으며 진짜가 맞다면 아직 시험판 소프트웨어로 진행한 것이기 때문에 정식 버전이 출시되면 기기 최적화가 이루어질 수 있다고 전했다.

2024.05.09 13:04이정현

[기자수첩] 한국레노버의 무리수?...이상한 '워크스테이션 벤치마크'

PC 업계를 다룬지 십여 년이 훌쩍 지나면서 국내외 어떤 행사든 비교적 편안하게(?) 참석할 수 있게 됐다. 기사 하나 하나가 어렵기 그지 없지만 모든 것이 막막했던 수습 시절보다는 조금 더 편해졌다. 그러나 처음에는 편한 마음으로 앉았다 중간부터 바짝 긴장해야 하는 행사도 있다. 한국레노버가 26일 진행한 전문가용 워크스테이션 '씽크스테이션 P8' 출시 행사가 그렇다. 당일 행사는 제품 소개, 특징 설명 등 여느 출시 행사와 크게 다름 없었다. 적어도 한 '고객사 관계자'가 등장해 제품 성능 비교 결과를 공개하는 세션까지는. 이 업체 관계자는 씽크스테이션 P8과 타사(이하 'A사') 기존 워크스테이션 처리 속도를 비교하는 동영상까지 준비해 왔다. 예정시간 15분에서 5분을 더 넘겨가며 성능 비교에 공을 들였다. 뿐만 아니라 "씽크스테이션 P8이 인텔 제온W 탑재 워크스테이션 대비 더 빠른 시간 안에 작업을 처리했다. 회사에 한 대 사달라고 하고 싶다"며 칭찬을 아끼지 않았다. 그러나 벤치마크 방법에 간과할 수 없는 큰 문제가 있었다. 비교 대상의 체급이 맞지 않았던 것이다. 비교 대상 부품 이외의 모든 변인을 가급적 통제해야 한다는 벤치마크의 '황금률'이 무시됐다. A사 제품 대비 프로세서 내장 코어 수부터 메모리 용량, 그래픽카드 성능 등 거의 모든 면에서 씽크스테이션 P8이 우위에 있었다. 글로벌 제조사인 A사, 그리고 제온W 제조사인 인텔 등은 이날 오후 교차검증에 나선 기자들의 문의 전화로 매우 바쁜 시간을 보냈다는 후문이다. A사 관계자는 26일 오후 "굳이 인텔 제온W 프로세서와 비교를 하고 싶었다면 한국레노버 전 세대 제품을 이용하는 방법도 있는데 왜 우리 제품이 등장했는지 모르겠다"며 당혹스러워했다. 그는 이어 "한국레노버와 AMD 등 이해 당사자가 아닌 제3자를 앞세워 편파 소지가 있는 벤치마크 결과를 공개하는 것은 지나치지 않은가"라고 되물었다. PC·서버용 프로세서 벤치마크에 정통한 또 다른 업계 관계자는 사견임을 전제로 "AMD 라이젠 스레드리퍼 프로 프로세서는 코어 수와 처리 성능 면에서 동종 인텔 제품 대비 우위에 있다고 볼 수 있다. 굳이 타사 제품까지 등판시키는 의도를 모르겠다"며 의아해했다. 결국 문제의 벤치마크 관련 세션은 장시간 고심 끝에 기사에서 들어냈다. 타사 기사도 역시 비슷한 선택을 했다. 당일 참석한 기자들 30여 명의 20분, 장장 10시간이 낭비된 셈이다. 그런데 한국레노버가 제품 출시 행사에서 경쟁사를 언급했다 불필요한 잡음을 일으킨 것은 이번이 처음이 아니다. 코로나19 범유행이 한창 진행중이던 2020년 11월에는 자사 최신 제품인 '요가 슬림 7i 카본'과 1년 전 제품인 'LG 그램 14'를 비교하며 "요가 슬림 7i 카본이 제품 강도나 디스플레이 품질, 썬더볼트 연결성 등에서 우위에 있다"고 강조했다. 당시 온라인으로 진행된 행사 내용을 뒤늦게 접한 PC 제조사 관계자들은 "1년 전 출시된 타사 제품을 대상으로 성능을 비교하는 것은 적절치 않다"고 입을 모았다. 지난 해 6월에는 인텔 제온 4세대 플래티넘 8490H 프로세서를 두 개 탑재한 '씽크스테이션 PX'를 출시하며 "현 시점에서 '경쟁사' 등 최고사양 워크스테이션은 인텔 4세대 제온 프로세서 최고사양 제품을 지원할 수 없다"고 주장하기도 했다. 그러나 해당 제품은 일반적으로 서버에 탑재되는 프로세서를 개인용 워크스테이션에 탑재한 것이며 일반적인 개인용 워크스테이션과는 거리가 멀다. 당시 한국레노버가 '경쟁사'로 언급한 한 제조사 관계자는 "각 제조사마다 고유한 냉각 기술을 갖추고 있으며 어떤 프로세서를 넣는지는 어디까지나 선택의 문제"라고 반론했다. 누구나 한 번은 실수를 한다. 그러나 같은 실수가 되풀이되면 이것이 정말 실수인지 의심받는다. 세 번째 넘어온 공을 '스트라이크'로 봐야 할까, '볼'로 봐야 할까. 레노버는 IDC, 가트너 등 공신력 있는 시장조사업체가 모두 인정하는 글로벌 1위 PC 업체다. 제품 포트폴리오도 우수하다. 불필요한 사족 대신 제품 자체로 승부하는 1위 업체다운 행보를 보고 싶다.

2024.03.27 15:04권봉석

ETRI, 절차 생성 AI 벤치마크 기술 첫 개발

대형언어모델(LLM)을 기반으로 만들어진 절차 성능을 자동 평가하는 기술이 세계 처음 개발했다. 한국전자통신연구원(ETRI)은 사람이 말로 작업을 명령하면 스스로 작업 절차를 이해하고 계획을 수립해 수행하는 절차 생성 인공지능(AI)의 성능을 자동 평가할 수 있는 로타벤치마크(LoTa-Bench) 기술을 개발했다고 7일 밝혔다. 기존에는 절차 이해 성능 평가를 자동으로 할 수 있는 벤치마크 기술이 없어서 사람이 직접 평가함으로써 손이 많이 갈 수밖에 없었다. 구글 세이캔(SayCan)을 비롯한 기존 연구에서는 여러 사람이 직접 작업 수행 결과를 관찰하고 성공 실패 여부를 투표하는 방법을 채택했다. 이는 성능 평가에 매우 긴 시간과 노력이 들어 번거로울 뿐 아니라 평가 결과에 주관적 판단이 개입하는 문제가 있다. 반면 ETRI가 개발한 로타벤치마크 기술은 사용자의 명령에 따라 대형언어모델이 생성한 작업 절차를 실행하고, 결과가 지시한 목표와 같은지 자동으로 비교해 성공 여부를 판단한다. 평가 시간과 비용을 최소화할 수 있고, 결과가 객관적인 이유다. 연구진은 알프레드(ALFRED) 기반 벤치마크 결과, 오픈AI(OpenAI)의 GPT-3는 21.36%, GPT-4는 40.38%, 메타(Meta)의 라마2(LLaMA 2)-70B 모델은 18.27%, 모자이크엠엘(MosaicML)의 MPT-30B 모델은 18.75% 성공률을 보였다고 밝혔다. 규모가 클수록 절차 생성 능력도 우수했다. 성공률이 20%면 100개의 절차 중 20개를 성공한 셈이다. 성능 평가는 로봇과 체화 에이전트 지능의 연구개발 목적으로 개발된 미국 알렌인공지능연구소(AI2-THOR)와 미국 MIT(버츄얼홈, VirtualHome) 가상 시뮬레이션 환경에서 이뤄졌다. “전자레인지에 차갑게 식힌 사과를 넣어라.”라는 일상적인 가사 작업 지시 명령을 내리고 각 작업 절차를 포함하는 데이터셋으로 평가했다. 또한, 연구진은 새로운 절차 생성 방법을 쉽고 빠르게 검증할 수 있는 로타벤치마크 기술의 이점을 활용해 데이터를 통한 훈련으로 절차 생성 성능을 개선할 수 있는 두 가지 전략도 발견했다. 컨텍스트 내 예제 선별법(In-Context Example Selection)과 피드백 기반 재계획(Feedback and Replanning)이다. 이와함께 파인튜닝을 통한 절차 생성 성능 개선 효과도 확인했다. 소프트웨어 오픈소스로 공개 기업·학교 활용 가능 연구진은 이 기술 개발로 대형언어모델을 이용한 로봇 작업계획 기술의 성능평가 시간과 비용을 대폭 줄일 수 있을 것으로 전망했다. 연구진은 또 관련 소프트웨어를 오픈소스로 공개했다. 기업, 학교 등에서 이 기술을 자유롭게 활용할 수 있다. 최근 대형언어모델은 언어처리, 대화, 수학 문제 풀이, 논리 증명 외에 사람 명령을 이해해 하위 작업을 스스로 선택하고 순서대로 수행해 목표를 달성하는 절차 이해 영역에서도 우수한 성능을 나타내고 있다. 이에 따라 대형언어모델을 로봇 응용과 서비스 구현에 적용하려는 시도가 폭넓게 이뤄지고 있다. 연구진은 국제 인공지능 학술대회인 표현학습국제학회(ICLR)에 논문을 발표하고, 이 기술을 이용한 대형언어모델 총 33종의 절차 생성 성능 평가 결과를 깃허브를 통해 공개했다. 장민수 소셜로보틱스연구실 책임연구원은 “로타벤치마크는 절차 생성 AI 개발의 첫걸음”이라며 “향후 불확실한 상황에서 작업 실패를 예측하거나 사람에게 질문하며 도움을 받아 작업 생성 지능을 지속 개선하는 기술을 개발할 계획”이라고 말했다. 장 책임연구원은 또 “1가구 1로봇 생활 시대의 구현을 위해서는 이 기술이 반드시 필요하다”고 덧붙였다. 김재홍 소셜로보틱스연구실장은 “ETRI는 실세계에서 각종 임무 계획을 생성하고 실행할 수 있는 로봇을 실현하기 위해 파운데이션 모델을 활용한 로봇 지능 고도화 연구개발에 매진하고 있다”고 밝혔다. 이 기술은 과학기술정보통신부와 정보통신기획평가원(IITP)의 “사람중심 인공지능 핵심원천기술 개발 사업”의 일환으로 '스스로 불확실성을 자각하며 질문하면서 성장하는 에이전트 기술 개발' 과제를 통해 수행됐다.

2024.03.07 10:55박희범

신형 M3 맥북 에어, 벤치마크 테스트 해봤더니

애플이 최근 공개한 M3 칩 기반 신형 맥북 에어의 벤치마크 성능 테스트 결과가 공개됐다. IT매체 마이스마트프라이스는 5일(현지시간) 벤치마크 사이트 '긱벤치'에 등장한 M3 맥북 에어의 벤치마크 성능 결과를 소개했다. 보도에 따르면, 긱벤치5 테스트에서 M3 칩, 16GB 메모리를 탑재한 맥북 에어는 싱글 코어 점수 3천157점과 멀티코어 점수 1만2천20점을 받았다. 전작 M2 맥북 에어와 비교하면 싱글코어 점수는 약 20%, 멀티코어 점수는 18% 향상된 수치다. 또, 벤치마크 목록에서 옥타코어 CPU(4.05GHz 기본 주파수)와 10코어 GPU를 갖춘 M3 프로세서가 탑재된 것을 확인할 수 있었다. 8코어 CPU, 최대 10코어 GPU, 최대 24GB 통합 메모리를 지원하는 신형 맥북 에어는 M1 탑재보다 최대 60%, 가장 빠른 인텔 칩 기반 맥북 에어보다 최대 13배 빠르다고 애플 측은 밝혔다. IT매체 나인투파이브맥은 신형 M3 맥북 에어를 M3 기반 맥북 프로와 비교했을 때 성능은 같은 칩을 탑재했기 때문에 거의 동일했으나, 맥북 프로에는 능동 냉각 기능이 있기 때문에 수동 냉각 방식의 맥북 에어보다 더 오랜 시간 동안 최고의 성능을 유지할 수 있다고 평했다.

2024.03.06 10:42이정현

퓨어스토리지, 금융권 벤치마크 STAC-M3 결과서 우수성 입증

퓨어스토리지는 플래시블레이드//S 500 시리즈가 STAC-M3 벤치마크 테스트를 통해 금융권 고빈도 및 퀀트 트레이드 시장에서 성능 우위를 입증했다고 5일 발표했다. 빠르게 변화하는 금융 시장에서 퀀트 분석 및 고빈도 트레이딩의 중요성은 증가하고 있으며, 이에 따라 금융 회사들은 퀀트 분석가, 데이터 과학자, 리스크 관리자, 그리고 트레이딩 팀을 지원하기 위해 성능, 확장성, 신뢰성이 뛰어난 데이터 플랫폼을 끊임없이 모색하고 있다. STAC은 금융 산업 기술 발전을 선도하는 기관이다. 485개의 주요 금융회사와 60개의 기술 공급업체로 구성된 STAC 벤치마크 협의회는 금융 부문의 혁신을 위한 벤치마크 표준을 제작한다. STAC-M3 벤치마크는 대규모 시계열 시장 데이터를 관리하는 데이터베이스 소프트웨어/하드웨어 스택을 위한 업계 표준 벤치마크다. STAC은 최근 퓨어스토리지의 플래시블레이드//S500을 포함한 포괄적인 스택에 대해 기준 및 확장 STAC-M3 벤치마크를 실시했다. 본 STAC에는 단일 플래시블레이드//S500 섀시(블레이드당 24TB 플래시 모듈 2개 장착 플래시블레이드 10개)에서 총 가용 데이터의 266TiB에 접근하기 위해 NFS 버전 3을 활용하는 KX의 kdb+ 4.0 DBMS가 탑재됐다. kdb+ 소프트웨어는 각각 2개의 인텔 제온 플래티넘 8260 CPU와 256GiB 메모리를 탑재한 8대의 델 파워엣지 R740xd 서버에 배포됐다. 이는 퓨어스토리지가 STAC-M3 감사를 위해 제출한 첫 번째 솔루션이다. 많은 참가업체들은 최상의 벤치마크를 달성하기 위해 인프라 스택과 운영 체제를 광범위하게 조정한다. 퓨어스토리지는 고객들이 시계열 또는 틱 단위 시장 데이터 플랫폼으로 퓨어스토리지를 채택 시 최대의 성능과 간편성을 제공할 수 있음을 입증하기 위해 벤치마크 하네스가 일반적인 서버 및 네트워크 아키텍처인 플래시블레이드//S500 시스템과 최소한의 구성 튜닝으로 실행되도록 했다. 퓨어스토리지의 솔루션은 kdb+ 4.0, kdb+ STAC 팩의 호환성 Rev I, 그리고 8개의 데이터베이스 서버가 NFSv3를 통해 퓨어스토리지 플래시블레이드//S500에 액세스하는 솔루션과 비교해 동일한 수의 데이터베이스 서버, 3개의 네트워크 연결 플래시 스토리지 노드, STAC 팩의 호환성 Rev H를 사용한 솔루션 대비 뛰어난 속도 향상을 보였다 17개의 STAC-M3 안투코 평균 응답 시간 벤치마크 중 13개가 향상됐으며, 10명 사용자 이론적 손익(STAC-M3.β1.10T.THEOPL.TIME)에서 7배의 속도 향상을 보였다. 24개의 STAC-M3 카나가 평균 응답 시간 벤치마크 중 17개가 향상됐으며, 50명 사용자 12일 VWAB에서 1.3배~1.5배의 속도 향상(STAC-M3.β1.50T.YR{1,2,3,4,5}VWAB-12D-HO.TIME)을 보였다. 클라우드 기반 솔루션 대비 플래시블레이드//S500 시리즈는 17개의 안투코 벤치마크 중 9개, 24개의 카나가(Kanaga) 벤치마크 중 12개 지표에서 우수한 성능을 내며, 탁월한 속도 우위를 보였다. 플래시블레이드//S500 시리즈의 금융 부문의 틱 데이터 및 시계열 기반 워크로드에 대한 성능을 입증했다. 퓨어스토리지 플랫폼은 모든 규모의 데이터 세트에서 복잡한 쿼리를 최대 처리량과 최소 지연 시간으로 실행할 수 있다. 워크로드의 볼륨과 스레드 수 증가에도 플래시블레이드//S500 시리즈는 고도로 병렬화된 워크로드를 효율적으로 처리할 수 있으며, 해당 아키텍처는 퀀트 및 고빈도 거래의 까다로운 요구사항을 충족하는 원활한 확장성을 제공한다. STAC-M3 안투코에서 전체 데이터 세트를 단일 디렉터리에 중앙 집중화하여 달성한 결과는 기업이 최적의 성능을 위해 여러 특정 디렉터리에 데이터를 분산할 필요성을 없애 효율성을 높여준다. STAC 잭 기딩CEO는 “고객이 개발한 STAC 벤치마크 표준에 대한 독립적인 테스트를 위한 솔루션 제출 기업으로 퓨어스토리지가 합류하게 돼 기쁘다”며 “STAC 벤치마크 위원회의 금융 회사들은 대표적인 비즈니스 사용 사례를 테스트하기 위해 STAC-M3를 설계했으며, 빠르고 효율적인 시계열 분석에 대한 요구가 그 어느 때보다 높다”고 설명했다. 퓨어스토리지 네이슨 홀 아시아 태평양 및 일본(APJ) 지역 부사장은 "STAC의 벤치마크 테스트는 금융 업계에서 높은 평가를 받고 있다”며 “플래시블레이드//S500 시리즈가 다른 벤더의 제품 및 클라우드 기반 솔루션 대비 높은 신뢰성과 성능을 입증하게 돼 매우 뜻깊다”고 강조했다.

2024.02.05 09:09김우용

갤럭시S24 시리즈, 성능 테스트했더니

삼성전자가 최근 갤럭시S24 시리즈를 공개한 가운데 벤치마크 및 배터리 성능 테스트 결과가 나왔다. IT매체 샘모바일은 21일(현지시간) 최근 공개된 유튜브 NL TECH의 성능 테스트 결과(▶바로가기 https://bit.ly/3U4zmZB)를 보도했다. ■ 벤치마크 테스트 유튜브 NL TECH는 긱벤치6 벤치마크 테스트를 통해 갤럭시S24 표준 모델과 플러스 모델에 내장된 엑시노스 2400 칩셋의 성능을 비교했다. 갤럭시S24는 싱글코어 2천131점, 멀티코어 6천785점을 기록했고, 갤럭시S24플러스는 2천139점, 멀티코어 6천634점을 기록했다. 스냅드래곤 8 3세대 칩을 탑재한 갤럭시S24 울트라는 싱글 코어 점수 2천289점, 멀티 코어 7천123점을 기록했다. 안투투(버전 10.1.9) 테스트에서는 갤럭시S24가 154만6천699점, 갤럭시S24플러스와 갤럭시 S24 울트라는 163만5천230점, 갤럭시S24울트라는 176만6천906점을 기록했다. 갤럭시S24 플러스의 경우, 울트라 모델에 비해 작은 증기 챔버를 갖춰 열 방출이 덜 효과적임에도 불구하고 울트라에 비해 7% 정도 낮은 점수를 받아 기대 이상의 성능을 보였다. 8GB 램과 작은 증기 챔버를 갖춘 표준 모델도 울트라에 비해 14% 낮은 점수를 받았다고 해당 매체는 전했다. 두 번째 테스트에서는 갤럭시S24가 갤럭시S24 울트라보다 9% 낮은 점수를 얻었고, 갤럭시S24플러스는 울트라보다 7% 낮은 점수를 받은 것으로 알려졌다. ■ 레이 트레이싱·그래픽 성능 테스트 스마트폰의 레이트레이싱 성능을 테스트할 수 있는 3D마크의 솔라베이 벤치마크 테스트에서 갤럭시S24 엑시노스 2400 버전은 이번 테스트에서 최고점인 8천766점, 최저점인 4천874점, 안정성 55.6%를 기록했다. 이는 갤럭시S24 울트라의 안정성 50.3%, 최고점인 8천590점, 최저점인 4천324점보다 더 높은 수치다. GPU 벤치마크 앱 3D 마크 와일드 라이프 익스트림(Wild Life Extreme) 성능 테스트에서 갤럭시 S24는 최고 점수 4천432점, 최저 점수 2천348점, 안정성 53%를 기록했다. 갤럭시S24플러스는 최고 점수 4천322점, 최저 점수 2천393점, 안정성 55.4%를 기록했다. 스냅드래곤 8 3세대 프로세서를 탑재한 갤럭시S24 울트라는 최고점 4천931점, 최저점 2천423점, 안정성 49.1%를 기록했다. ■ 배터리 수명 테스트 배터리 수명 비교를 위해 갤럭시S24 시리즈 3대를 모두 120Hz 주사율과 100니트의 최대 밝기로 설정한 후 테스트했다. 갤럭시S24는 13시간 50분, 갤럭시 S24플러스는 13시간 22분 동안 지속되었고, 갤럭시S24 울트라 모델의 경우 한 번 충전으로 15시간 동안 지속되었다. 테스트 결과 갤럭시S24 모든 모델이 전작보다 배터리 수명이 늘어난 것이 확인됐다. 이번 성능 테스트 결과에 대해 샘모바일은 엑시노스 2400 프로세서의 성능이 퀄컴의 스냅드래곤8 3세대 프로세서와 10% 이내의 차이인 것으로 보인다고 전하며, 이는 삼성전자가 엑시노스 칩의 성능을 대폭 개선했고, 주력 제품인 엑시노스 2400이 스냅드래곤8 3세대만큼 우수하다는 것을 보여주는 결과라고 평했다.

2024.01.22 13:19이정현

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

폴더블 아이폰, 펀치홀 카메라 탑재 유력

배민·요기요, 먹통 뒤 정상화..."금요일 밤 비 내린 탓"

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

"북한 해커, 위장취업해 北 송금"…메일 1천개 적발

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현