• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 벤치마크'통합검색 결과 입니다. (10건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"구글 '제미나이 1.5'가 0점"…인텔 나간 팻 겔싱어가 만든 벤치마크, AI 윤리성 체크한다

"나뿐 아니라 많은 사람들이 인공지능(AI)이 미칠 영향력을 과소평가했습니다." 최근 일본 닛케이 아시아와의 인터뷰에서 이처럼 밝혔던 팻 겔싱어 전 인텔 최고경영자(CEO)가 AI 시장에서 새로운 기회를 엿보고 있다. AI 모델이 인간의 가치에 얼마나 잘 부합하는지를 테스트하는 벤치마크를 통해서다. 11일 테크크런치에 따르면 겔싱어 전 CEO는 미국 하버드대와 베일러대가 주도한 '글로벌 플로리싱 연구(The Global Flourshing Study)'를 기반으로 한 '플로리싱 AI(Flourishing AI, FAI)' 벤치마크를 공개했다. 글루라는 신앙 기반 기술과 협력해 개발한 것으로, 겔싱어 전 CEO는 약 10년 전 글루에 투자한 바 있다. 겔싱어 전 CEO는 지난 2021년 2월 15일 인텔 수장으로 합류한 후 3년 10개월만인 지난 해 12월 초 인텔을 퇴임했다. 이후 올 3월 말 플레이그라운드 글로벌의 반도체 부문 투자 책임자로 취임했다. 또 지난 6월에는 초전도 기술을 사용해 AI 컴퓨팅 칩을 개발하는 스타트업인 스노우캡 컴퓨트에도 투자했다. 글루와 연구팀은 인간의 삶의 질을 측정하는 6가지 핵심 요소를 선정해 'FAI' 연구를 진행했다. 핵심 요소는 ▲성격과 덕목 ▲사회적 관계 ▲행복과 삶의 만족 ▲의미와 목적 ▲정신 및 신체 건강 ▲경제적 안정성이 포함되며 추가적으로 신앙과 영성이 더해졌다. 현재 FAI 벤치마크는 GPT-4, 어니 X1(Ernie X1), 클로드 2.1(Claude 2.1), 제미나이 1.5(Gemini 1.5) 등 주요 AI 모델을 테스트하는 데 활용되고 있다. 결과는 다양하게 나타나고 있는데 특히 '신앙과 영성' 항목에서 일부 모델이 긍정적인 결과를 보였다. 하지만 구글 '제미나이 1.5'는 100점 만점에 0점을 기록해 논란이 되고 있다. 겔싱어 전 CEO는 "AI가 행복, 사회적 관계, 의미, 정신적·신체적 건강, 경제적 안정성 등 인간의 중요한 가치와 얼마나 잘 조화되는지를 측정하는 것이 중요하다"며 "FAI가 AI 기술의 윤리적 기준을 정립하는 데 중요한 역할을 할 것으로 보인다"고 말했다. 이어 "AI가 인간 중심의 가치를 지원하도록 지속적으로 평가하고 개선할 필요가 있다"고 덧붙였다.

2025.07.11 10:36장유미

사내벤처서 세계 1위로…다큐브, 글로벌 SQL 벤치마크서 기술력 '증명'

웹케시그룹의 사내벤처로 출발한 다큐브가 글로벌 기술 역량을 입증하며 인공지능(AI) 기업으로의 비전을 구체화하고 있다. 다큐브는 국제 자연어·데이터 질의 변환(NL2SQL) 성능 평가인 '스파이더 2.0' 벤치마크에서 DBT 부문 세계 1위를 달성했다고 8일 밝혔다. 이번 성과는 다큐브의 자연어 기반 데이터 조회·분석 기술이 국제적 기술 기준에서도 최고 수준임을 입증한 것으로 평가된다. 특히 복수 테이블 간 조인, 중첩 조건 쿼리, 그룹핑·정렬 등 고난이도 항목에서 최고 점수를 기록하며 기술력을 공식적으로 인정받았다. 다큐브는 2021년 웹케시그룹의 사내벤처로 출발해 지난 4년간 NL2SQL 분야에 집중 투자해 왔으며 이 과정에서 고수준의 AI 인력과 독자적 기술 역량을 확보했다. 이러한 성과는 웹케시가 추진 중인 금융 AI 에이전트 기업으로 재창업 전략을 추진하는 데 중요한 기술적 동력으로도 기대를 모으고 있다. 현재 웹케시는 AICFO·브랜치Q·서울페이 등 다양한 금융 AI 에이전트를 출시하며 성공적인 레퍼런스를 확보하고 있다. 이 가운데 다큐브의 기술력은 국내를 넘어 글로벌 AI 기업으로 성장할 가능성을 보여주고 있다는 평가를 받고 있다. 스파이더 2.0에서의 성과는 글로벌 AI 3대 강국 도약을 목표로 하는 대한민국이 특정 분야에서 세계 1위 기술을 확보할 수 있다는 실증 사례로도 주목받고 있다. 소버린 AI와 같은 파운데이션 모델과 함께 특화 영역에 집중한 고도화 전략의 성공 가능성을 제시했다는 게 회사 측 설명이다. 윤예지 다큐브 대표는 "이번 스파이더 2.0 1위는 SQL을 몰라 데이터를 제대로 활용하지 못한다는 고객의 불편을 혁신하고자 하는 노력에서 출발했다"며 "기술을 통해 고객사에서 데이터 조회 시간이 획기적으로 줄었다는 긍정적 평가를 받고 있으며 다큐브 기술력이 국제 무대에서도 충분히 통할 수 있다는 자신감을 얻었다"고 밝혔다.

2025.07.08 11:06한정호

"성능 개선했다더니"…GPT-4.1 출시한 오픈AI, 가격·정확도 논란

오픈AI가 차세대 인공지능(AI) 모델 'GPT-4.1' 시리즈를 회사 애플리케이션 프로그램 인터페이스(API) 중심 전략의 핵심으로 삼았다. 기존 고사양 모델의 부담을 줄이고 실사용 효율성을 높이려는 전략이지만 업계 일각에서는 기대와 우려가 엇갈리는 분위기다. 오픈AI는 'GPT-4.1' 기본형과 경량형 모델을 함께 제시하고 고비용 모델인 'GPT-4.5'는 오는 7월을 기점으로 단계적으로 퇴장시킬 계획이라고 15일 밝혔다. 새로운 '4.1' 시리즈에는 멀티모달 기능과 장문 대응 구조를 적용하며 사용자 범용성을 강화했다는 점을 강조했다. 다만 '4.1'의 실제 성능과 가격 구조를 놓고는 회의적인 시선도 제기된다. 일부 벤치마크 결과에서 경쟁 모델에 비해 정확도가 낮게 나타났고 지표 구성 방식에 대한 지적도 뒤따르며 향후 시장 내 경쟁력에 관심이 쏠린다. 멀티모달·장문 대응 갖춰…'4.5'는 5개월 만에 퇴장 오픈AI는 새로 출시된 'GPT-4.1' 시리즈가 프론트엔드 앱 생성, 코드 리뷰, 문서 분석, 고객 응대 등 실사용 환경에 더욱 적합하도록 최적화됐다고 설명했다. 특히 프로그래밍 업무의 생산성을 높이는 데 중점을 두고 개발됐으며 기존 'GPT-4o'보다 다양한 지시 유형과 포맷을 정확하게 따를 수 있다는 것이다. 'GPT-4.1' 시리즈의 입력당 가격은 모델별로 구분된다. 가장 성능이 높은 'GPT-4.1'은 입력 1백만 토큰당 2달러(한화 약 2천800원), 출력은 8달러(한화 약 1만1천200원)다. 'GPT-4.1 미니'는 입력 당 0.4달러(한화 약 560원), 출력 1.6달러(한화 약 2천200원)로 책정됐다. 가장 작은 'GPT-4.1' 나노는 입력 0.1달러(한화 약 160원), 출력 0.4달러(한화 약 640원)로 가격 접근성이 높다. 동일 프롬프트를 반복 사용하는 경우에는 최대 75%까지 입력 요금 할인이 적용된다. 이러한 'GPT-4.1'의 투입은 고성능 모델로 자리했던 'GPT-4.5'의 단계적 종료와 맞물린다. 오픈AI는 오는 7월을 기점으로 'GPT-4.5' 애플리케이션 프로그램 인터페이스(API) 제공을 종료하고 후속 제품인 'GPT-4.1'을 주력 모델로 대체한다고 밝혔다. 'GPT-4.5'의 연산 비용이 지나치게 높아 상용화 부담이 컸기 때문이라는 점이 교체의 배경으로 제시됐다. 'GPT-4.5'는 지난 2월 말 발표된 오픈AI 최대 규모 모델로, 보다 많은 학습량과 계산 자원을 투입해 설득력과 문장 구성 능력을 개선한 바 있다. 그럼에도 출시 5개월 만에 API 시장에서 퇴장 수순을 밟게 되면서 'GPT-4.1'이 향후 오픈AI의 API 전략을 실질적으로 이끌 주력 제품이 될 것으로 전망된다. "개선된 게 맞나"…벤치마크 해석·가성비 논란에 경쟁력 의문 이같이 오픈AI가 'GPT-4.1'이 향상된 명령 이행력과 코딩 성능을 가졌다고 전면에 내세웠지만 실제 성능을 두고는 업계 일각에서 회의적인 시선이 나온다. 실제로 'GPT-4.1'은 오픈소스 프로젝트의 코드 이슈를 해결하는 능력을 평가하는 SWE-벤치 베리파이드(SWE-bench Verified) 기준 54.6%의 정확도를 기록했지만 같은 지표에서 구글의 제미니 2.5 프로는 63.8%, 앤트로픽의 클로드 3.7 소넷은 62.3%로 오히려 더 높은 수치를 보였다. 자연어 기반 코드 수정과 리팩토링 성능에서 오픈AI가 경쟁사보다 앞서 있다고 보긴 어려운 수치다. 가격 대비 성능에서도 의문이 제기된다. 'GPT-4.1'은 입력 1백만 토큰당 2달러, 출력은 8달러로 책정돼 가격이 높은 편이다. 같은 범주의 제품인 구글 '제미나이 2.5 프로'는 출력 단가는 10달러(한화 약 1만4천원)로 다소 높지만, 입력 요금은 1.25달러(한화 약 1천500원)로 저렴하다. SWE-벤치 코딩 성능에서 입력 단가가 낮은 '제미나이 2.5' 모델이 더 높은 정확도를 기록한 만큼, 가성비 면에서는 오픈AI가 밀린다는 평가다. '미니' 모델도 상황은 비슷하다. 입력 비용이 경쟁 프로덕트인 구글 '제미나이 플래시'보다 2배 이상 비싸지만 성능은 오히려 낮다는 분석이 뒤따른다. 컨텍스트 캐싱을 적용하지 않는 경우에는 가격 차이가 더 벌어져 규모가 작은 프로젝트에서 선택하기 어려운 구조다. 오픈AI의 벤치마크 구성 방식에 대한 지적도 나온다. 'GPT-4.1'의 성능을 보여주는 공식 차트에는 고난도 문제와 논리 추론 항목이 포함된 공신력 있는 벤치마크인 표준 MMLU 대신 다국어 MMLU(M-MMLU)가 사용됐기 때문이다. MMLU는 다양한 학문 분야의 지식과 추론 능력을 평가하는 대표적 지표로, 표준 MMLU는 영어 기반으로 구성되며 M-MMLU는 이를 여러 언어로 번역한 버전이다. 원본보다 번역된 문항이 많아 모델에 유리하게 작용할 가능성이 있다는 분석도 나온다. 고난도 문제를 포함한 MMLU-프로 성능은 아예 공개되지 않았다. 이외에도 오픈AI가 공개한 차트의 y축 수치가 표시되지 않아 모델 간 실제 성능 격차를 시각적으로 축소하려는 의도가 아니냐는 해석도 있다. 점수 차이가 적음에도 불구하고 동일한 막대 높이로 표시돼 상대적 우위를 부각시키는 방식이 아니냐는 지적이다. 테크크런치는 "'GPT-4.1'은 SWE-벤치 기준으로만 보면 전작보다 향상된 결과를 보이지만 실제 활용 환경에서는 여전히 보완이 필요하다"고 평가했다.

2025.04.15 17:14조이환

新 LLM 내놓은 메타, 벤치마크 모델 성능 조정 의혹…"일반 버전과 달라"

메타가 새 인공지능(AI) 모델 성능 테스트에 사용한 모델과 실제 일반 버전이 다른 정황이 포착됐다. 7일 테크크런치에 따르면 메타가 챗봇 성능을 비교하는 'LM 아레나' 테스트에서 2위를 차지한 모델 '매버릭'이 일반 매버릭 버전과 다르다는 의혹이 개발자들 사이에서 나왔다. 테스트 버전과 일반 개발자가 다운로드할 수 있는 버전 구성이 다른 셈이다. 현재 LM 아레나에 적용된 매버릭 버전은 '실험적인 챗 전용 버전'으로 명시됐다. 반면 배포용 버전은 정교한 대화 조정이 적용되지 않은 것으로 드러났다. 결과적으로 LM 아레나에 등록된 모델은 공개 모델보다 더 사람처럼 반응할 수 있도록 설계된 셈이다. 실제 사용 환경에서 두 버전은 성능 차이를 보일 수 있다. 다수 외신은 벤치마크용 모델과 실제 공개 모델이 다를 경우 생기는 혼란을 우려했다. 특정 벤치마크에 맞춰 성능 높인 모델이 실제로 제공되지 않거나, 동일한 이름으로 배포될 때 사용자 혼동이 발생한다는 지적이다. 실제 개발자들도 LM 아레나에 올라간 매버릭은 공개 다운로드 버전과 크게 다르다고 입을 모았다. LM 아레나에 올라간 버전은 이모티콘을 과도하게 쓰거나 응답이 지나치게 길었다는 의견이 이어졌다. 이들은 해당 버전이 대화 특화형 조정을 거친 것으로 파악했다. 미국 AI 정보 플랫폼 세마포어 관계자는 "메타가 테스트용 버전을 숨긴 채 일반 버전과 구분하지 않고 공개한 것은 큰 오해를 불러올 수 있다"며 "벤치마크는 다양한 작업에서 장단점을 파악할 수 있는 기준이 돼야 한다"고 지적했다.

2025.04.07 10:48김미정

"GPU 72장 돌려야 답 나온다"…엔비디아, AI 추론 '끝판왕' 내놔

엔비디아가 복잡한 사고력 기반 AI 모델 확대에 맞춰 새로운 추론 성능 전략을 공개한다. 점점 더 많은 연산을 요구하는 AI 모델 등장에 따른 글로벌 평가 기준 변화에 선제 대응하려는 조치다. 3일 업계에 따르면 엔비디아는 지난 1일 정오 온라인으로 진행한 프리브리핑에서 AI 성능 벤치마크인 '엠엘퍼프(MLPerf)' 추론 AI 부문의 변화에 대응하기 위한 기술 전략을 공개했다. 이번 행사는 국제 컨소시엄 엠엘커먼스(MLCommons)가 '사고 기반 AI'인 추론 모델을 평가 항목에 포함하려는 움직임에 초점을 맞췄다. 엠엘퍼프는 AI 모델의 훈련(training)과 추론(inference) 성능을 하드웨어·소프트웨어 통합 기준으로 측정하는 글로벌 표준 벤치마크다. 엠엘커먼스가 주도하는 이 평가 항목은 업계 기술 흐름에 따라 주기적으로 갱신된다. 최근에는 단순 예측을 넘어 복잡한 추론과 의사결정을 요구하는 리즈닝 모델이 AI 기술의 중심으로 떠오르면서 해당 항목의 공식 도입 논의가 본격화되고 있다. 엔비디아는 아직 리즈닝 모델 항목이 공식 도입되지는 않았지만 차기 엠엘퍼프 버전에서는 채택 가능성이 높다고 판단하고 있다. 이를 선제적으로 대비하기 위해 회사는 중국의 AI 스타트업인 딥시크가 개발한 생성형 AI 모델을 활용해 복잡한 사고 기반 작업에서의 추론 성능을 시연했다. 이처럼 복잡한 추론 모델이 확산되면서 AI 추론 환경 전반에도 근본적인 변화가 일고 있다. 추론 연산량이 전례 없이 폭증하고 있는 상황에서 과거에는 단일 그래픽처리장치(GPU)나 단일 노드에서 충분했던 작업들이 이제는 다수 GPU를 동시 투입하는 복잡한 병렬 연산 없이는 처리할 수 없다는 것이 엔비디아의 분석이다. 이에 더해 추론 모델의 확산은 AI 개발의 모든 단계에서 연산 자원의 수요를 급격히 증가시키고 있다. 엔비디아는 모델 재학습(retraining), 도메인 맞춤화(post-training), 테스트 시점 확장(test-time scaling) 등에서 연산량이 기하급수적으로 늘고 있다고 분석했다. 특히 테스트 단계에서도 추론 정확도를 높이기 위한 병렬 연산 수요가 계속해서 증가하고 있다는 점을 강조했다. 이에 이날 엔비디아는 고성능 시스템 예시로 'GB200 MBL'을 제시했다. 해당 시스템은 총 72개의 GPU를 동시 연동하며 복잡한 추론을 빠르게 처리할 수 있도록 설계됐다. 회사는 이러한 대규모 병렬 환경이 향후 추론 표준이 될 것으로 보고 있다. 엠엘커먼스 역시 추론 모델을 엠엘퍼프의 공식 평가 항목에 포함하기 위한 논의를 본격적으로 시작한 상황이다. 현재 다양한 기술 커뮤니티와 협업을 통해 평가 기준과 워크로드 확장을 준비하고 있다. 공식 도입 시점은 아직 정해지지 않았으나 실증 사례와 모델 테스트가 계속 이어지고 있어 연내 도입이 확정될 가능성도 있다. 엔비디아 관계자는 "모델의 크기와 지능이 커짐에 따라 연산량이 모든 단계에서 폭증하고 있다"며 "재학습, 도메인 최적화, 테스트 시점 스케일링 모두 고성능 GPU를 요구한다"고 설명했다. 이어 "72개의 GPU처럼 다수의 칩을 동시에 작동시켜야 하는 이유가 바로 이 때문"이라고 덧붙였다.

2025.04.03 01:00조이환

통신사가 만든 AI 모델, 벤치마크로 품질 평가

세계이동통신사업자연합회(GSMA)가 MWC25 개막을 앞두고 '오픈 텔코 LLM 벤치마크'를 출범한다고 밝혔다. 통신사들이 개발하고 있는 AI 언어 모델을 자체적으로 평가할 수 있는 도구를 내놓고 AI 서비스의 고도화를 이끌겠다는 전략이다. 25일(현지시간) GSMA에 따르면 오픈 텔코 LLM 벤치마크는 오픈소스 커뮤니티 형태로 AI 모델을 평가하기 위한 통신업계 최초의 프레임워크로 고안됐다. 공식 출범은 MWC25 기간에 이뤄질 예정이다. GSMA가 주도하고 주요 산업 파트너들이 지원하는 벤치마크를 통해 AI 모델을 실제 통신 사용 사례와 비교해 평가하게 된다. 산업 전반의 협력을 촉진시키고 통신 AI 서비스의 정확성,효율성, 안전성을 높이겠다는 전략이다. 루이스 파월 GSMA AI이니셔티브 책임자는 “현재 AI 모델은 통신사별 쿼리에 어려움을 겪으며 부정확하거나 오해 소지가 있거나 비현실적인 추천을 생성하는 경우가 많다”며 “벤치마크 세트로 AI 모델 성능을 향상시키는 것을 넘어 통신사의 AI가 안전하고 신뢰할 수 있고 실제 운영 요구 사항에 부합하도록 보장할 것”이라고 말했다. 이같은 오픈소스 이니셔티브 개발에는 허깅페이스와 리눅스재단 외에 국내 통신사인 SK텔레콤과 LG유플러스가 직접 참여했다.

2025.02.26 18:05박수형

"AI, 역사 시험은 빵점"…거대언어모델, 전문 시험서 한계 드러내

인공지능(AI)이 고급 역사 질문에서는 신뢰할 만한 답변을 내놓지 못한다는 연구 결과가 나왔다. 21일 테크크런치에 따르면 오스트리아 연구기관 복잡성 과학 허브(CSH)는 최근 발표한 연구에서 'GPT-4', '라마', 구글 '제미나이' 같은 거대언어모델(LLM)들이 역사적 전문성을 테스트하는 벤치마크인 '히스트-LLM(Hist-LLM)'에서 낮은 성과를 보였다고 밝혔다. 가장 높은 성과를 보인 'GPT-4 터보'도 정확도가 46%에 불과했다. 이번 테스트는 '세샤트 글로벌' 역사 데이터베이스를 바탕으로 진행됐으며 고대 이집트와 같은 특정 역사적 상황을 포함한 고급 질문을 포함했다. 이 질문에서 LLM은 대부분의 질문에 대해 부정확하거나 과장된 답변을 내놓으며 한계를 드러냈다. 일례로 연구진은 고대 이집트에 특정 시기에 찰갑 갑옷이 존재했는지 물었다. 'GPT-4'는 "예"라고 답했지만 실제로 찰갑은 해당 시기로부터 1천500년 뒤에 등장했다. 또 다른 질문에서는 고대 이집트에 상비군이 있었는지를 물었으나 모델은 잘못된 정보를 바탕으로 "있었다"고 답했다. 연구팀은 이런 오류의 원인으로 AI가 널리 퍼진 데이터를 우선적으로 학습하는 특성을 지적했다. 페르시아 같은 제국의 상비군에 대한 정보가 풍부한 반면 고대 이집트와 같은 특정 시기와 관련된 희귀 데이터는 학습이 부족하다는 것이다. 또 AI 모델은 특정 지역에 대한 역사적 지식의 성능이 더 낮은 경향도 보였다. 특히 사하라 이남 아프리카와 같은 지역에 대한 데이터의 부족과 편향이 더 큰 문제로 작용했다. 연구진은 이번 결과가 LLM의 역사적 한계와 개선 가능성이 있다는 점을 동시에 보여준다고 강조했다. 향후에는 대표성이 부족한 지역의 데이터를 추가하고 보다 복잡한 질문을 포함하는 방향으로 기준을 개선할 계획이다. 피터 투르힌 CSH 교수는 "AI는 기본적인 역사적 질문에는 유용하지만 고급 질문에서는 아직 전문성을 갖추지 못했다"며 "향후 기술 개선을 통해 역사 연구를 보조할 수 있는 가능성은 충분하다"고 말했다.

2025.01.21 09:57조이환

딥엑스, DX-M1 저전력 성능 입증...양산 체제 돌입

딥엑스는 AI 반도체 'DX-M1'가 버터 벤치마크 실험을 통해 글로벌 경쟁 제품 대비 초격차 기술력을 입증했다고 밝혔다. 이번 실험은 발열 관리가 성능과 제품 수명에 미치는 영향을 고려할 때, 딥엑스의 차별화된 저전력 및 고효율 기술력을 부각하는 중요한 계기가 됐다. 버터 벤치마크 실험은 반도체의 발열 성능을 직관적으로 시각화할 수 있는 간단한 방법으로 30~36℃에서 녹는 버터를 반도체 칩 위에 놓고 구동 중에 발생하는 열을 비교하는 방식으로 이루어진다. 반도체가 발열을 제대로 관리하지 못할 경우, 성능 저하와 응용 시스템의 오작동을 초래할 수 있어 과도한 전력 소모를 일으키는 AI 반도체에서 저전력 설계는 필수적인 기술이다. 이번 실험에서 딥엑스의 DX-M1은 대표적인 객체 인식 AI 알고리즘인 Yolo5s 모델을 초당 30번 추론하는 작업 중에 버터가 녹지 않을 정도로 뛰어난 발열 제어 성능을 입증했다. 동일한 조건에서 테스트 된 경쟁사 제품들은 버터가 빠르게 녹아내리며 발열 관리의 한계가 드러났다. Yolov7 같은 더 복잡한 알고리즘에서도 DX-M1은 동일한 조건에서 경쟁 제품을 20~40도의 저온 차이로 압도하는 성능을 보여주며 기술적 우위를 다시 한번 입증했다. 특히 DX-M1은 주변 온도를 상승시켜 140도라는 극한의 온도에서도 안정적인 성능을 유지하는 것을 확인했다. 딥엑스는 올 하반기부터 DX-M1의 양산 체제에 본격 돌입했으며, 수율 확보를 위한 다양한 기술 검증을 진행하고 있다. MPW(멀티 프로젝트 웨이퍼)로 제작된 샘플을 통해 조기 양산 테스트와 신뢰성 테스트를 진행해 양산성과 수율을 극대화하고 있다. 또한 OSAT(후공정) 파트너사들과 협력해 다양한 응용 분야에 맞춘 칩 패키지를 다변화함으로써, 제품의 단가를 최적화고 품질은 극대화하고 있다. 딥엑스는 "DX-M1는 물리보안 시스템, 로봇, 산업용 솔루션, 서버 등의 여러 응용 분야에서 글로벌 기업들과 양산 협력을 진행하고 있다"고 전했다. 한편, 딥엑스는 오는 23일부터 25일까지 서울 코엑스에서 개최되는 국내 최대 반도체 전시회 '2024 반도체대전'에 참가해 DX-M1 등 주력 제품을 선보일 예정이다.

2024.10.21 10:26이나리

백준호 퓨리오사AI 대표 "2세대 레니게이드 AI칩, 글로벌 경쟁력 입증 완료"

"AI 반도체 스타트업으로서 많은 선입견이 있었지만, 회사의 차세대 AI 반도체인 '레니게이드'는 하드웨어와 소프트웨어 모두 글로벌 시장에서 경쟁력을 갖춘 제품입니다. 실제로 엔비디아의 칩과 비슷한 성능을 구현하면서도, 전력소모량은 크게 낮춘 테스트 결과를 도출하기도 했습니다." 백준호 퓨리오사AI 대표는 10일 서울 삼성동 코엑스에서 개막한 '디지털 혁신 페스타 2024' 부대행사로 열린 '퓨처 테크 컨퍼런스'에서 이같이 밝혔다. 이날 '생성형 AI시대의 AI반도체 프론티어'를 주제로 발표를 진행한 백 대표는 AI 반도체 '레니게이드'의 경쟁력을 강조했다. 레니게이드는 회사의 2세대 NPU(신경망처리장치) 칩으로, 최대 초당 1.5 TB(테라바이트) 이상의 대역폭을 구현한다. 퓨리오사는 이 레니게이드에 대해 올 하반기부터 잠재 고객사와 제품(퀄) 테스트를 본격화했다. 레니게이드는 대만 주요 파운드리 TSMC의 5나노미터(nm) 공정 및 첨단 2.5D 패키징 기술인 'CoWoS'를 기반으로 한다. 메모리는 HBM3(4세대 고대역폭메모리)를 탑재했다. 실제로 퓨리오사AI가 AI 추론 영역에서 벤치마크 테스트를 진행한 결과, 초당 쿼리 수 기준으로 레니게이드(11.5)는 엔비디아 L40S(12.3)와 비슷한 성능을 나타냈다. 반면 소비전력은 엔비디아 L40S가 320W인 데 비해, 레니게이드는 185W로 훨씬 높은 효율성을 기록했다. 백 대표는 "최근에는 레니게이드의 초당 당쿼리 수가 13~14로 올라갈 만큼 성능이 더 향상된 상황"이라며 "레니게이드가 글로벌 시장에서도 충분히 경쟁할 수 있는 제품임을 입증했다"고 밝혔다. 단순히 칩의 하드웨어만이 아니라, 소프트웨어 성능을 강화한 것도 레니게이드가 지닌 강점이다. 백준호 대표는 "AI 반도체가 도입이 늦어지는 이유 중 하나는 소프트웨어 스택이 칩을 잘 받쳐주지 못한다는 것"이라며 "퓨리오사AI는 이를 해결하고자 TCP(텐서축약프로세서)라고 부르는 소프트웨어 설계 역량에 집중했다"고 설명했다. 텐서란 3차원 이상의 행렬로 데이터를 배열한 데이터 구조다. 통상적인 AI 가속기는 이를 처리하는 데 여러 비효율적인 면이 발생하지만, 퓨리오사AI의 TCP 아키텍처는 효율적인 방식으로 데이터를 처리한다. 백 대표는 "회사의 전체 엔지니어 120명 중 하드웨어 담당은 30%, 소프트웨어 담당은 70%에 해당할 정도"라며 "설계의 혁신이 레니게이드의 가장 큰 혁신으로, 이를 통해 향후 AI 반도체 시장 공략을 위해 노력할 것"이라고 말했다.

2024.10.10 17:46장경윤

오픈AI 中 서비스 중단…알리바바 '큐원2'가 대안될까

오픈AI가 중국 내 서비스를 전면 차단한 가운데 알리바바가 대규모 언어 모델(LLM) '큐원2-수학(Qwen2-Math)'을 출시해 관심이 쏠린다. 현존하는 LLM 중 최상위권 수학 AI로 평가돼 현지 연구자와 개발자들의 대안으로도 각광 받고 있다. 9일 미국의 기술 매체 벤처비트에 따르면 알리바바의 '큐원2-수학'은 LLM용 수학 벤치마크 '매스(MATH)' 테스트에서 84%의 정확도를 기록했다. 벤치마크 성능 1위인 오픈AI의 'GPT-4 코드 인터프리터(GPT-4 Code Interpreter)'가 기록한 87.92%에 근접한 성과로, 알리바바의 기술력을 입증했다는 평가다. '큐원2'는 초등학교 수준의 수학을 테스트하는 'GSM8K'에서 96.7%, 대학 수준의 수학 테스트에서는 47.8%의 점수를 기록하며 눈에 띄는 성과를 거뒀다. 이는 오픈AI 'GPT-4o', 앤트로픽 '클로드 3.5 소네트', 구글 '수학-제미나이 스페셜라이즈드 1.5 프로(Math-Gemini Specialized 1.5 Pro)'와 같은 주요 경쟁 모델들을 능가하는 결과다. 이번 성과는 중국 유저들에게 의미가 크다. 오픈AI의 서비스 차단으로 중국 개발업계와 학계가 '챗GPT'를 사용하지 못하고 있기 때문이다. 지금까지 중국 개발자·연구자들은 가상사설망(VPN)을 통해 제한적으로 파인튜닝, 연구 및 벤치마킹을 진행해 왔으나 이마저도 지난 7월 전면적으로 차단돼 연구에 제약을 받아 왔다. 이런 상황에서 '큐원2'는 'GPT-4 코드 인터프리터'에 거의 준하는 수학 능력을 달성해 중국 유저들의 업무를 효율적으로 지원할 것으로 예측된다. 이에 맞춰 알리바바는 해당 모델의 광범위한 활용을 위해 배포를 계획하고 있다. 특히 월간 사용자 수가 1억 명 이하인 기업들에게 오픈소스로 제공해 스타트업과 중소기업이 사실상 무료로 사용할 수 있게 할 방침이다. 벤처비트는 "LLM 모델 경쟁이 매우 빠르게 진행되면서 '큐원'이 지금까지는 경쟁자들에게 밀려났었다"며 "이번 수학 능력의 비약적인 향상은 알리바바가 다시 경쟁력을 회복하는 계기가 될 수 있을 것"이라고 분석했다.

2024.08.09 15:28조이환

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

李, 네이버 출신 트리플 발탁...플랫폼 '꽃' 필까

네이버 "소버린 AI는 현지화+자립"…韓 넘어 글로벌 확산 핵심 키워드로 '부상'

[SW키트] "AI가 고른 사이트만 생존"…'콘텐츠 노출 전쟁' 시작

LG는 '전담조직 신설', 삼성은 '기술 인수'…HVAC 주도권 승부수

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.