검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'벤치마크'통합검색 결과 입니다. (28건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

KT, 고려대와 개발한 한국어 특화 AI 벤치마크 공개

KT는 고려대와 공동 개발한 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다. 벤치마크는 멀티모달 AI 모델 안전성을 한국 사회 이슈와 문화적 맥락을 반영해 평가한다. 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 총 평가 샘플 1만 4135개로 구성돼 한국 최대규모 한국어 멀티모달 안전성 평가 데이터셋이다. 이제까지 젬마, 하이퍼클로바엑스 등 글로벌 멀티모달 대형 언어모델 12개를 검증했다. 벤치마크엔 자동화한 범용 파이프라인이 적용됐다. 'KSAFE-MM'은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리 생성, 합성 이미지 생성, AI 안전 장치나 윤리 제한을 우회하도록 변형된 탈옥 쿼리 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다. 이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용은 낮추고 효율을 높일 수 있다는 의미라고 KT는 설명했다. KT, 고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험을 통해 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다. 연구 결과는 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등 목적으로 활용될 수 있을 것으로 기대된다. 연구 결과와 벤치마크는 아카이브와 허깅페이스에 공개된다. 박재형 KT AX미래기술원 프론티어 AI랩장은 "벤치마크 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어, 한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.

2026.06.16 10:34홍지후 기자

삼성전자, '엑시노스 2600' AI 성능 자신감..."전작 대비 두 배 향상"

삼성전자가 최신형 모바일 어플리케이션 프로세서(AP)인 '엑시노스 2600'의 온디바이스 AI 성능을 자신했다. 최근 진행된 테스트 결과 해당 칩셋은 다양한 AI 모델에서 전작(엑시노스 2500) 대비 2배 이상의 성능을 기록한 것으로 나타났다. 12일 업계에 따르면 삼성전자는 최근 엑시노스 2600에 대한 AI 성능 벤치마크 테스트 결과를 공개했다. 엑시노스 2600은 삼성전자의 최신형 모바일 AP로, 최첨단 파운드리 공정인 2나노미터(nm)를 기반으로 한다. 올해 초 출시된 플래그십 스마트폰 '갤럭시S26' 시리즈의 일반 및 플러스 모델에 채용됐다. 엑시노스 2600은 온디바이스 AI에 초점을 맞춰 설계됐다. 삼성전자 내부 테스트 결과 칩에 탑재된 신경망처리장치(NPU)의 생성형 AI 성능은 전작 대비 113% 향상된 것으로 집계된 바 있다. 실제로 삼성전자가 지난 10일 MLPerf 테스트를 진행한 결과, 엑시노스 2600은 전작 대비 AI 성능이 크게 개선됐다. MLPerf는 하드웨어 및 소프트웨어의 다양한 AI 성능을 평가할 수 있는 공신력 있는 벤치마크다. 세부적으로 모바일용 자연어처리(NLP) 모델인 'Mobile-BERT' 분야에서 1199.57QPS(초당 처리 쿼리 수)를 기록했다. 전작 대비 2.1배 이상 향상된 수준이다. QPS는 시스템이 1초간 얼마나 많은 데이터를 처리할 수 있는지를 나타낸 것으로, AI 모델의 추론 성능을 가늠하는 지표로 활용된다. 이미지를 생성하는 AI 모델 '스테이블 디퓨전(Stable Diffusion)'에서는 0.53QPS를 달성했다. 전작 대비 2.4배 이상 향상됐다. 삼성전자는 "자사의 최신 MLPerf 테스트 결과는 엑시노스의 큰 도약을 입증한 것"이라며 "엑시노스는 반응성이 뛰어난 에이전틱 AI부터 이미지 생성까지 온디바이스 AI 기술을 지속 발전시키고 있다"고 설명했다.

2026.06.12 08:30장경윤 기자

검증 모델 부족해 확산 제약…정부, AI 에이전트·MCP 안전망 만든다

과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 인공지능(AI) 에이전트 성능 평가·벤치마크와 모델 컨텍스트 프로토콜(MCP) 안전·신뢰 검증 체계를 올해 안에 구축한다. 쇼핑·금융·예약·코딩 등 실생활 전 영역으로 에이전틱 AI 서비스가 빠르게 확산되는 가운데 이를 검증할 기반이 전무하다는 위기의식에 따른 대응이다. 11일 업계에 따르면 NIA는 지난 6일부터 10일까지 'AI 에이전트 안전·신뢰성 검증 체계 지원' 사업 공모 안내서를 사전 공개했다. 이 사업은 과기정통부 소관으로 정부출연금 18억원을 투입하며 협약 체결일부터 오는 12월 31일까지 진행된다. 수행기관은 단독법인 또는 컨소시엄 형태로 1개를 선정한다. 이번 사업은 AI 에이전트 마켓플레이스 개발 지원, AI 에이전트 및 활용 도구 개발·개방 지원과 함께 과기정통부 'AI 에이전트 인프라 및 생태계 조성 사업' 세 번째 세부 과제로 추진된다. 수행기관은 세 과제 중 하나에만 참여할 수 있으며 중복 지원은 허용되지 않는다. 세부 과제를 살펴보면 크게 ▲AI 에이전트 성능 평가 프레임워크 구축 ▲AI 에이전트 성능 벤치마크 도구 개발 ▲MCP 안전·신뢰 검증 프레임워크 구축 세 축으로 구성된다. AI 에이전트 성능 평가 프레임워크는 에이전트의 자율계획·도구 호출·다단계 실행 프로세스를 정량적으로 측정하는 체계다. 과업 성공률·도구 호출 정확도·실행 효율성(토큰 대비 비용·소요 시간 등) 등 핵심 지표를 수립하고, 국내 고유 응용프로그램인터페이스(API)·공공 데이터·결제 인프라 등 국내 서비스 환경과 한국어 문맥 이해를 반영한 평가 항목도 별도로 마련한다. 국제 표준을 준용한 에이전트 특화 평가 프로세스도 함께 수립한다. 벤치마크 도구는 다단계 추론 시나리오와 검증 데이터셋 5000건 이상을 구축해 에이전트 수행력을 객관적으로 측정한다. 최종 결과값의 정확도를 판단하는 규칙 기반 자동 채점과 실행 경로 기반 논리적 타당성 평가를 결합한 하이브리드 채점 체계를 적용한다. 외부 도구 호출·데이터 교환의 정확성을 검증하는 표준 규격 적합성 검증 기능도 탑재하며, 검증 결과와 통계를 담은 성능 평가 리포트 자동 생성 기능도 제공한다. MCP 검증 프레임워크는 표준 적합성·상호운용성·안정성·보안성(인증·인가)·도구 기능 정확성 등을 검증하는 체계와 가이드라인으로 구성된다. 글로벌 MCP 표준 및 국내외 관련 표준과의 정합성을 검토해 검증 항목의 객관성을 확보하고, 산·학·연·관 전문가 280여개사로 구성된 에이전틱 AI 얼라이언스 안전·신뢰 분과를 통해 의견을 수렴한다. 개발·운영 기업이 참고할 수 있는 MCP 안전·신뢰 점검 가이드라인도 별도로 배포한다. 주목할 점은 사후 의무다. 선정된 수행기관은 사업 종료 후에도 개발 결과물인 MCP 안전·신뢰 검증 프레임워크와 AI 에이전트 성능 평가 프레임워크·벤치마크 도구를 최소 5년간 유지·운영해야 한다. 단기 구축에 그치지 않고 국내 에이전틱 AI 생태계의 지속적인 신뢰 기반으로 활용하겠다는 취지다. 다만 사전공개 단계인 만큼 사업 범위·예산·일정·평가항목 등 세부 내용은 본 공고 시 변경될 수 있다. 과기정통부와 NIA는 오는 27일 오후 2시 서울 중구 NIA 서울사무소에서 사업설명회를 열 예정이다. NIA는 "AI 에이전트가 외부 도구 및 데이터와 상호작용하는 과정에서 보안 위협과 예상치 못한 오작동에 대한 우려가 있다"며 "이용자 관점에서 AI 에이전트의 응답 정확도와 기능 실행 성공률 등을 확인할 수 있는 검증 모델이 부족해 서비스 확산에 제약이 존재한다"고 말했다.

2026.05.11 16:03이나연 기자

'갤S26' 오래 쓸수록 안다…스냅드래곤 8 엘리트 5세대의 진가

올해 초 출시된 삼성전자 '갤럭시 S26' 시리즈가 흥행가도를 달리고 있다. 특히 최상위 모델인 울트라 모델의 경우, 국내 사전 판매량에서 70%의 비중을 차지할 정도로 압도적인 선호도를 자랑한다. 갤럭시S26 울트라의 성공을 이끈 주역은 단연 퀄컴 '스냅드래곤8 엘리트 5세대'다. 해당 칩셋은 스마트폰의 두뇌 역할을 담당하는 모바일 AP(애플리케이션 프로세서)다. 갤럭시 S26 일반·플러스 모델은 삼성전자의 자체 칩셋인 '엑시노스'를 일부 탑재했으나, 울트라 모델 만큼은 스냅드래곤이 공고한 입지를 다지고 있다. 장시간 게이밍·AI 작업도 거뜬…스냅드래곤 8 엘리트 5세대의 힘 스냅드래곤 8 엘리트 5세대의 실제 성능을 확인하기 위해 FPS 모바일 게임 '레인보우 식스 모바일'을 실행했다. 게임 내 그래픽은 '매우 높음', FPS는 최대 60으로 설정했다. 또한 갤럭시 기기 내 게임 부스터 기능을 통해 성능을 우선하도록 했다. 그 결과 갤럭시S26은 화면 녹화 기능을 동시에 실현 중임에도 매우 쾌적한 게이밍 환경을 지원했다. 시스템 모니터링 기능에 따르면 FPS는 대부분 60을 유지했고, CPU 부하는 30%대, GPU는 60~70%대를 나타냈다. 1시간 넘게 이어진 게임 및 화면 녹화에도 기기의 발열은 적절한 수준을 유지했다. 게임의 요구 사양 및 최적화 여부에 따라 차이는 있겠으나, 최신 게임을 즐기는 데 전반적으로 무리가 없을 것으로 보인다. 이는 상시 일정한 성능을 유지하도록 설계된 스냅드래곤 8 엘리트 5세대의 힘이다. 해당 칩셋은 퀄컴 오라이온 CPU를 기반으로 한 2+6 옥타코어 구조를 채택했다. 최대 4.74GHz 프라임 코어 2개와 최대 3.62GHz 퍼포먼스 코어 6개로 구성되며, 이전 세대 대비 약 19% 성능이 향상됐다. 슬라이스드 아키텍처 기반 아드레노(Adreno) 840으로 재설계된 GPU는 작업 부하에 따라 연산 유닛을 병렬로 활용하는 구조를 갖추고 있다. 그래픽 성능은 24% 향상되고, 전력 효율은 20% 개선됐다. 또한 최첨단 파운드리 공정인 3나노미터(nm)을 적용해, 매우 강력한 성능을 뒷받침한다. 이를 통해 장시간 사용이나 멀티태스킹 환경에서도 고성능 어플리케이션을 안정적으로 구동할 수 있다는 게 퀄컴의 설명이다. 칩셋의 성능을 가늠해볼 수 있는 긱벤치6 테스트 결과는 싱글코어 3632점, 멀티코어 1만1067점으로 나타났다. GPU는 2만2604점이다. 갤럭시S25 울트라(싱글코어는 2852점, 멀티코어 9433점) 대비 큰 폭의 향상이 있던 것으로 분석된다. 그래픽 성능을 검증하는 3D마크 와일드 라이프 익스트림의 경우 7345점을 기록했다. 평균 FPS는 43.99다. 해당 벤치마크 테스트가 집계한 전체 결과 중 상위 2%에 해당하는 수치다. 갤럭시S26 시리즈의 핵심 무기인 에이전트 AI 기능도 완벽히 지원한다. 스냅드래곤 8 엘리트 5세대는 최신 퀄컴 AI 엔진으로 이전 대비 39% 향상된 헥사곤 (Hexagon) NPU를 갖췄다. 동시에 CPU 내에서 AI 연산을 보조하는 QMX(Qualcomm Matrix Extensions) 엔진은 소규모 AI 연산까지 빠르게 처리한다. 대형 모델은 NPU가, 경량 추론은 NPU와 QMX 엔진이 담당하는 이기종(Heterogeneous) 컴퓨팅 구조로 다양한 에이전트 AI 기능을 효율적으로 처리할 수 있다. APV 코덱 지원…전문가 수준 영상 촬영 가능케 해 스냅드래곤 8 엘리트 5세대는 모바일 플랫폼 최초로 APV(Advanced Professional Video) 코덱 기반의 영상 촬영을 제공하는 칩셋이기도 하다. APV는 전문 영상 제작을 위해 설계된 코덱으로, 고비트레이트 레코딩과 손실이 거의 없는 화질을 제공한다. 전용 하드웨어 인코딩·디코딩을 통해 스마트폰에서도 시네마급 영상 처리가 가능하다. 육안상 RAW에 가까운 화질을 유지하며 컬러 그레이딩이나 노출 보정과 같은 후반 작업에서도 디테일 손실이 거의 없다. 실제로 APV 코덱을 활성화해 서울 여의도 일대의 야경을 촬영해보니, 별도의 기기나 어플이 없이도 매우 선명한 영상을 찍을 수 있었다. 빠르게 달리는 차량도 빛 번짐없이 포착했다. 영상 촬영의 최대 화질은 8K에 달하며, UHD 화질에서는 최대 60FPS의 프레임을 지원한다.

2026.04.24 13:19장경윤 기자

한컴, 오픈데이터로더 PDF v2.0 공개…문서 AI 시장 공략 박차

한글과컴퓨터가 인공지능(AI) 기반 PDF 데이터 추출 기술을 고도화해 오픈소스 생태계 확장에 나선다. AI와 직접 추출 방식을 결합한 하이브리드 엔진을 앞세워 문서 AI 시장 경쟁력을 강화한다는 전략이다. 한컴은 오픈소스 PDF 데이터 추출 부문에서 벤치마크 1위 성능을 달성한 '오픈데이터로더 PDF v2.0'을 공개했다고 12일 밝혔다. 이번 버전의 가장 큰 특징은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진이다. 기업과 개발자는 외부 서버로의 데이터 유출 우려 없이 완전히 차단된 로컬 환경에서 고성능 PDF 데이터 추출 기능을 무료로 활용할 수 있다. 문서 내 복잡한 요소를 분석하기 위한 무료 AI 애드온 4종도 기본 탑재됐다. 광학문자인식(OCR)은 이미지 기반 PDF와 스캔 문서 텍스트 인식률을 높였고 표 추출 기능은 초경량 AI 모델을 활용해 병합된 셀 등 복잡한 표 구조를 정밀하게 분석한다. 수식 추출 기능은 과학·수학 논문의 복잡한 수식을 로컬 환경에서 인식하며 차트 분석 기능은 차트가 의미하는 내용을 문장 형태로 설명한다. 애드온은 도클링 등 타사 오픈소스 AI 모델과 호환되도록 구현됐다. 특정 기업과 공식 제휴 관계는 아니지만 사용자가 기존 기술 환경에서 쉽게 연동할 수 있도록 객관적인 기술 호환성을 확보했다. 향후 유연한 애드온 구조를 통해 더 많은 AI 모델을 추가할 수 있다는 설명이다. 오픈데이터로더 PDF v2.0은 자체 벤치마크 테스트에서 읽기 순서, 표, 제목 추론 등 다양한 항목에서 1위 수준의 성능을 기록했다. 한컴은 오픈소스의 핵심 가치인 투명성을 위해 벤치마크 테스트 데이터와 재현 가능한 상세 코드를 공식 깃허브 저장소에 공개했다고 밝혔다. 이번 출시와 함께 오픈소스 라이선스도 기존 MPL 2.0에서 아파치 2.0으로 전환했다. 상업적 활용이 자유로운 라이선스를 적용해 외부 개발자와 글로벌 IT 기업의 진입 장벽을 낮추고 웹 애플리케이션이나 서비스형 소프트웨어(SaaS) 등 다양한 비즈니스 모델이 형성되는 생태계를 구축한다는 계획이다. AI 에이전트 시대에 대응한 생태계 확장도 추진한다. 한컴은 지난해 랭체인 연동을 완료했으며 올해는 랭플로우·라마인덱스·제미나이 CLI 등 다양한 AI 프레임워크와의 연동을 확대할 예정이다. AI 에이전트 지원을 위한 모델 컨텍스트 프로토콜(MCP) 기능도 준비 중이다. 올 하반기에는 독자 문서 AI 기술을 기반으로 한 상용 AI 애드온도 출시할 계획이다. AI가 문서 구조를 분석해 접근성 태그를 자동 생성하는 기술을 오픈소스 최초로 탑재해 글로벌 접근성 표준(PDF/UA)을 충족하는 PDF AI 접근성 솔루션으로 확장한다는 방침이다. 정지환 한컴 최고기술책임자(CTO)는 "오픈데이터로더 PDF v2.0은 AI 하이브리드 엔진과 아파치 2.0 라이선스 전환을 통해 누구나 자유롭게 활용·확장할 수 있는 개방형 PDF 데이터 플랫폼으로 진화했다"며 "향후 상용 AI 애드온과 접근성 솔루션을 통해 전 세계 PDF 문서가 AI에 활용되는 것은 물론, 모든 사람에게 열린 문서가 되도록 글로벌 생태계를 선도하겠다"고 밝혔다.

2026.03.12 15:46한정호 기자

애플 M5 Max 칩, 전작 比 성능 약 20% 향상

애플의 차세대 칩셋인 'M5 Max'가 긱벤치 벤치마크 테스트에서 높은 성능을 입증했다. 특히 멀티코어 부문에서 전작을 상회하는 점수를 기록하며 고성능 컴퓨팅 시장에서의 입지를 더욱 공고히 했다. IT 전문 매체 나인투파이브맥(9to5Mac)은 M5 Max 칩을 탑재한 기기의 초기 벤치마크 데이터가 유출됐다고 현지시간 5일 보도했다. 이번 테스트 결과에 따르면 M5 Max는 싱글코어 점수에서 4천500점을 돌파하고, 멀티코어 점수에서는 2만8천점을 상회했다. 이는 이전 세대인 M4 Max와 비교했을 때 15%에서 20%가량 향상된 성능이다. 애플의 공정 미세화 기술과 아키텍처 개선이 맞물려 전력 효율과 연산 속도라는 두 마리 토끼를 모두 잡았다는 평가다. M5 Max는 TSMC의 2nm(나노미터, 10억분의 1m) 공정을 기반으로 설계됐다. 칩 내부의 트랜지스터 집적도가 높아지자 머신러닝 및 AI 작업 처리 능력이 대폭 강화된 셈이다. 벤치마크 상의 데이터는 이 칩이 전문 영상 편집이나 3D 렌더링과 같은 고부하 작업 환경에서 최적의 퍼포먼스를 낼 것임을 시사한다. 업계 관계자들은 이번 M5 Max의 성능 수치가 단순 수치 이상의 의미를 갖는다고 분석한다. 애플이 인텔과 AMD의 최신 데스크톱용 프로세서와의 성능 격차를 더욱 벌리면서, 랩톱 기반의 워크스테이션 시장에서 독보적인 위치를 유지하고 있기 때문이다. 현재 유출된 벤치마크 결과가 최종 양산형 칩셋의 성능을 100% 반영한 것인지에 대해서는 의견이 갈리지만, 정식 출시 전부터 높은 성능 수치를 기록함에 따라 하반기 출시될 맥북 프로 제품군에 대한 기대감이 한층 높아지고 있다. 애플은 아직 M5 시리즈에 대한 구체적인 출시 일정과 세부 사양을 공식 발표하지 않은 상태다.

2026.03.08 09:15전화평 기자

AI 성능 검증은 국가 경쟁력…벤치마크, '인프라'로 키워야

인공지능(AI) 기술 패권 경쟁이 치열해지면서 AI 모델의 성능을 객관적으로 입증할 수 있는 평가 체계가 새로운 격전지로 떠올랐다. 모델을 개발하는 단계를 넘어, 우리 사회와 산업에 적합한지 검증하는 능력이 곧 국가 AI 경쟁력의 척도가 되고 있다. 18일 한국지능정보사회진흥원(NIA)은 '더 AI 리포트'를 통해 AI 성능 평가 핵심 열쇠로 '벤치마크 데이터셋'을 지목했다. 그러면서 이를 국가 차원의 필수 인프라로 구축해야 한다는 제언을 내놓았다. 과거 통계적 수치만으로는 최신 거대언어모델(LLM) 추론 능력과 문제 해결 역량을 정확히 파악하기 어렵다는 진단에서다. 보고서에 따르면 벤치마크 데이터셋은 표준화된 문제와 평가 기준을 통해 동일한 조건에서 여러 AI 모델의 성능을 비교·검증하는 테스트베드 역할을 한다. 이미 구글, 오픈AI 등 글로벌 빅테크 기업들은 범용 지식(MMLU), 수학(MATH), 진실성(TruthfulQA) 등 다양한 벤치마크 지표를 통해 자사 모델의 우수성을 입증하고 있다. 문제는 국내 평가 환경의 한계다. 현재 국내 벤치마크는 해외 유명 데이터셋을 한국어로 번역하거나 현지화하는 수준에 머물러 있는 경우가 많다. 최신 모델들의 성능이 상향 평준화되면서 기존 평가 도구의 변별력이 떨어졌지만, 법률·의료 등 전문 도메인이나 AI 안전성을 검증할 독자적인 평가 체계는 턱없이 부족한 실정이다. 특히 민간 기업이나 비영리 단체가 벤치마크 구축을 주도할 경우 구조적인 한계에 부딪힐 수밖에 없다고 보고서는 지적했다. 고품질 평가 데이터를 구축하고 유지하는 데 막대한 비용이 드는 데다, 기업 이해관계에 따라 데이터 편향이 발생할 우려가 있어서다. 이는 자본력이 부족한 스타트업이나 중소기업이 공정하게 기술력을 평가받을 기회를 박탈하는 결과로 이어질 수 있다. 보고서는 정부가 주도해 공신력 있는 '공공 벤치마크'를 마련해야 한다고 강조했다. 정부가 중립적인 위치에서 평가 인프라를 제공함으로써, 기업 규모와 상관없이 기술력만으로 공정하게 경쟁할 환경을 조성해야 한다는 것이다. 한국의 사회·문화적 특수성을 반영한 독자적 기준 마련도 시급한 과제로 꼽혔다. 글로벌 기준을 비판 없이 수용하기보다 한국 법·제도와 정서적 맥락을 이해하는 AI를 가려낼 평가 기준이 필요하다는 의미다. 이는 글로벌 AI 평가 시장에서 한국이 단순한 '기준 수용자'를 넘어 평가의 관점을 제시하는 주체로 도약하기 위한 전략적 선택이기도 하다. 보고서는 성공적인 벤치마크 생태계 조성을 위해 산·학·연이 협력하는 거버넌스 구축을 제안했다. 실제 산업 현장에서 필요한 평가 과제가 무엇인지에 대한 사회적 합의가 선행되어야 한다는 취지에서다. AI 발전 속도에 맞춰 데이터를 갱신하고, 평가 결과의 신뢰성을 담보할 수 있는 리더보드 운영 등 관리 체계 마련에도 정부의 역할이 요구된다. 정현영 NIA 인공지능정책실 미래전략팀 선임연구원은 "벤치마크는 단기 성과 비교를 넘어 정부가 책임지고 운영해야 할 국가 차원의 AI 평가 인프라"라며 "국내 AI 기술 고도화와 산업 경쟁력 강화를 뒷받침하는 기반으로 기능할 수 있다"고 말했다.

2026.02.18 09:01이나연 기자

'갤S26 탑재' 엑시노스 2600, 스냅드래곤 칩과 AI 성능 비교했더니

삼성전자의 최신 모바일 애플리케이션 프로세서(AP) '엑시노스 2600'과 퀄컴 '스냅드래곤 8 엘리트 5세대'의 인공지능(AI) 성능 비교 결과가 공개돼 관심을 모으고 있다. 샘모바일 등 외신은 10일(현지시간) IT 팁스터 @BairroGrande가 공개한 AI 벤치마크 '엠엘퍼프(MLPerf) 모바일 v5.0' 테스트 결과를 보도했다. 엠엘퍼프는 다양한 워크로드 환경에서 시스템이 AI 및 머신러닝 모델을 처리하는 속도를 측정하는 벤치마크로 ▲이미지 분류 ▲객체 탐지 ▲자연어 이해 ▲이미지 분할 ▲초해상도 등 여러 AI 작업을 평가한다. 일반적으로 점수가 높을수록 성능이 우수한 것으로 해석된다. 보도에 따르면 엑시노스 2600은 5개 테스트 항목 가운데 3개 부문에서 스냅드래곤 8 엘리트 5세대 칩을 앞섰다. 엑시노스 2600은 자연어 이해 부문에서 1185점, 객체 탐지 부문에서 4661점을 기록하며 스냅드래곤을 크게 앞질렀고, 이미지 분류에서도 근소한 우위를 보였다. 반면 이미지 분할과 초해상도 처리 부문에서는 스냅드래곤 칩이 더 높은 점수를 기록했다. 외신들은 이번 결과가 엑시노스 2600이 실시간 번역과 같은 AI 기반 언어 처리 기능과 실시간 객체 인식·추적 성능 향상에 기여할 가능성을 보여준다고 평했다. 동시에 두 칩이 전반적인 AI 성능 면에서 매우 근접한 수준임을 확인시켜주는 결과라고 덧붙였다. 한편 삼성전자는 이달 공개 예정인 갤럭시S26 울트라 모델에는 퀄컴 스냅드래곤 칩을 탑재하고, 갤럭시S26 일반 및 플러스 모델에는 일부 국가에서 엑시노스 2600을 적용할 것으로 전망되고 있다.

2026.02.11 16:32이정현 미디어연구소

텔레픽스 항공우주 도메인 특화 검색 모델 AI성능 평가서 "실질적 세계 1위"

우주 AI 종합 솔루션 기업 텔레픽스(TelePIX, 대표 조성익)는 항공우주 도메인 모델인 '픽시1.0(PIXIE-v1.0)'이 글로벌 인공지능(AI) 성능 평가에서 세계 2위에 랭크됐다고 3일 밝혔다. 항공우주라는 전문 분야만으로 따졌을 때는 실질적인 1위다. 다른 경쟁업체는 대부분 법률이나 금융 등 범용 모델을 내놨다. 픽시1.0은 항공우주·위성·국방 등의 전문 기술 문서를 대상으로 의미 기반 검색이 가능한 도메인 특화 정보 검색 모델이다. 위성 설계 문서, 기술 규격서, 운용 매뉴얼 등 방대한 항공우주 기술 문서를 자연어 질의로 보다 수월하게 검색할 수 있다. 이 모델은 텔레픽스가 만든 위성용 에이전트 AI 솔루션 샛챗(SatCHAT) 성능 고도화를 위해 개발됐다. 권다롱새 텔레픽스 데이터사이언스 부문장은 "픽시 프리뷰(PIXIE-Preview)에 이어 이번 1.0에서는 도메인 특화 검색 성능을 정량적으로 검증하는 데 중점을 뒀다"고 말했다. 이 모델은 최근 허깅페이스(Hugging Face) 플랫폼을 통해 공개된 글로벌 검색 벤치마크 '검색 임베딩 성능 평가 지표(RTEB)' 매개변수 10억(1B)개 이하 모델 부문에서 세계 2위를 기록했다. 이 부문에는 글로벌 빅테크와 연구기관이 공개한 다수 임베딩 모델이 포함돼 있다. RTEB는 기존 임베딩 모델 평가 표준으로 활용돼 온 '대량 텍스트 임베딩 벤치마크 리더보드(MTEB)'를 확장한 차세대 검색 벤치마크다. 테스트 데이터 위주 점수 경쟁이 아닌 실제 산업 환경에서 AI 모델 정보 검색 성능을 평가하는 데 초점을 맞췄다. 법률·금융·의료·코드 등 고난도 도메인을 기반으로 실질적인 산업 활용 가능성을 검증할 수 있다. 권다롱새 부문장은 "해당 부문 1위 모델을 포함해 대부분은 법률·금융·의료·코드 등 여러 도메인을 포괄하는 범용 모델인 반면, 픽시1.0은 항공우주 도메인과 한·영 기술 문서에 집중했음에도 글로벌 상위권 성과를 냈다"고 설명했다. 텔레픽스는 RTEB에서 직접적으로 다루지 않는 한국어를 포함한 다국어 항공우주 도메인 검색 성능을 검증하기 위해 자체 구축한 검색 벤치마크 '스텔라(STELLA)'를 활용한 추가 평가를 진행했다. 평가 결과 픽시1.0은 파라미터 규모 대비 우수한 검색 정확도를 나타냈고, 언어·도메인 특화 검색 역량을 안정적으로 확보한 것도 확인했다고 텔레픽스 측은 덧붙였다. 스텔라는 항공우주 전문 문서를 기반으로 구성된 다국어 정보 검색 벤치마크로, 항공우주 도메인에 특화된 공개 검색 평가 기준이 거의 없는 현실적 한계를 보완하기 위해 설계됐다. 텔레픽스는 픽시1.0을 오픈소스로 공개하고, RAG 기반 AI 시스템에서 전문 기술 문서 검색을 위한 핵심 모델로 활용될 수 있을 것으로 기대했다. 텔레픽스는 향후 위성 산업에서 유용하게 활용 가능한 AI 모델과 솔루션 고도화에 집중할 계획이다.

2026.02.03 23:56박희범 기자

韓 토종 AI, 세계 무대서 통했다…다큐브, 국제 기술 벤치마크 1위 달성

국내 토종 인공지능(AI) 스타트업 다큐브가 세계 최고 권위 기술 평가 무대에서 1위에 오르며 고난도 추론 능력을 입증했다. 다큐브는 국제 텍스트-투-SQL 성능 평가 지표인 '스파이더 2.0' 라이트 부문에서 세계 1위를 기록했다고 20일 밝혔다. 이는 지난해 7월 DBT 부문 1위에 이은 두 번째 성과로, 국내 기업 최초로 국제 무대에서 두 개 부문 정상을 차지했다. 미국 예일대학교 연구진과 글로벌 산업 파트너들이 공동 개발한 스파이더 2.0은 AI가 사람의 언어를 데이터베이스(DB) 언어로 얼마나 정확하게 변환하는지를 측정하는 지표다. 실제 기업 환경과 유사한 복잡한 데이터 구조를 다루기에 글로벌 빅테크 기업과 유수 연구기관들이 기술력을 검증받는 핵심 지표로 활용되고 있다. 다큐브가 이번에 1위를 차지한 라이트 부문은 지난 2년간 전 세계 AI 기업들이 치열하게 기술력을 겨뤄온 분야다. 다큐브는 이 평가에서 65.81점을 기록하며 스노우플레이크·삼성SDS·칭화대 등 주요 기업·기관을 넘어 가장 높은 기술 완성도를 인정받았다. 특히 이번 성과는 다큐브가 특정 DB 환경에 국한되지 않고 빅쿼리와 스노우플레이크 등 다양한 글로벌 상용 DB를 아우르는 범용성과 고난도 추론 능력을 갖췄음을 증명했다. 다큐브는 창립 후 약 4년간 NL2SQL 분야 기술에 집중 투자해왔다. 독자적인 자연어 처리 엔진과 AI 에이전트 구조를 고도화해 서비스에 적용했으며 금융과 회계, 데이터 플랫폼 전반으로 적용 범위를 넓히고 있다. 다큐브 김하정 최고기술책임자(CTO)는 "문제 해결, 결과 검증, 실패 분석을 담당하는 AI 에이전트를 병렬로 운용해 학습 효율과 처리 속도를 끌어올렸다"며 "거대언어모델(LLM)에 대한 이해와 AI 에이전트 설계 역량이 결합된 결과"라고 설명했다. 윤예지 다큐브 대표는 "DBT 부문이 신설 트랙이었다면 라이트 부문은 지난 2년간 글로벌 빅테크와 유수 연구기관이 경쟁해온 핵심 부문"이라며 "모든 문제 해결 과정을 AI 에이전트로 자동화한 구조가 반복적인 성과를 가능케 했다"고 말했다. 이어 "다큐브의 텍스트-투-SQL 솔루션 'QUVI'는 특정 DB에 종속되지 않고 다양한 환경에 즉시 적용 가능하다는 강점이 있다"며 "남은 스노우 트랙까지 도전해 스파이더 전 부문 1위 기록을 목표로 하겠다"고 덧붙였다.

2026.01.20 18:27한정호 기자

독파모 1차 통과 업스테이지 "글로벌 경쟁력 갖춘 모델 고도화"

독자 인공지능(AI) 파운데이션 모델(독파모) 프로젝트 1차 단계평가를 통과하며 기술 경쟁력과 실행력을 인정받은 업스테이지가 2차 단계에서 글로벌 수준의 모델 고도화에 집중하겠다는 입장을 밝혔다. 업스테이지는 15일 과학기술정보통신부가 발표한 독파모 프로젝트 1차 단계평가 결과에서 LG AI연구원, SK텔레콤과 함께 2차 단계에 진출한 3개 정예팀에 이름을 올렸다. 5개 정예팀 가운데 스타트업으로는 유일하게 2차 단계에 진출했다. 과기정통부에 따르면 업스테이지는 이번 평가에서 글로벌 개별 벤치마크 부문에서 높은 점수를 받았다. 특히 글로벌 최상위(SOTA) 모델과 비교하는 개별 벤치마크 평가에서 만점을 기록하며 비교적 적은 매개변수로도 대규모 모델 수준의 성능을 구현한 점이 경쟁력으로 평가됐다. 이번 1차 단계평가는 벤치마크 평가, 전문가 평가, 사용자 평가를 종합해 진행됐다. 업스테이지는 모델 성능뿐 아니라 실제 현장 활용 가능성과 비용 효율성 측면에서도 일정 수준 평가를 받은 것으로 알려졌다. 자체 개발한 언어모델 '솔라'를 기반으로 한 문서 이해·추론 등 실무 중심 기술이 강점으로 작용했다는 평가다. 업스테이지는 이번 프로젝트를 위해 민간·학계·연구기관이 참여하는 산학연 컨소시엄을 구성해왔다. 노타AI·래블업·플리토·오케스트로 등 기술 기업과 함께 카이스트, 서강대학교 교수진이 연구 협력에 참여하고 있으며 의료·제조·법률·공공·교육 등 다양한 산업 분야 기업들과도 협력 체계를 구축했다. 2차 단계에서는 컨소시엄을 더욱 확대해 연구 역량과 산업 적용 범위를 넓힐 계획이다. 업스테이지는 스탠퍼드대학교와 뉴욕대학교 연구진의 합류를 통해 핵심 모델 기술을 고도화하고 글로벌 시장을 겨냥한 프런티어급 모델을 완성한다는 목표다. 업스테이지는 독자적으로 설계·학습한 파운데이션 모델을 기반으로 한국어를 비롯한 다국어 추론 성능을 강화하고 공공·기업 현장에서 체감할 수 있는 AI 전환(AX) 사례를 확대한다는 전략이다. 이를 통해 기술 경쟁력과 실사용 성과를 동시에 입증하겠다는 구상이다. 김성훈 업스테이지 대표는 페이스북을 통해 "많은 분들의 응원으로 우리 컨소시엄의 솔라LLM은 계속 달려갈 것"이라며 "2차 단계부터는 스탠퍼드와 뉴욕대 연구진들이 합류해 글로벌에서 우뚝서는 모델을 만들어 갈 것"이라고 밝혔다.

2026.01.15 16:02한정호 기자

앤트로픽, 차세대 AI '클로드 오퍼스4.5' 출시…챗GPT·제미나이 제쳤다

앤트로픽이 차세대 인공지능(AI) 모델 '클로드 오퍼스4.5'를 선보이며 코딩·에이전트·사무 작업 자동화 등 다양한 영역에서 경쟁사 대비 우수성을 앞세워 시장 공략에 속도를 낸다. 특히 소프트웨어 엔지니어링(SWE) 벤치마크에서 세계 최고 수준의 성능을 기록하며 기업용 AI 시장 공략을 본격화한다. 앤트로픽은 자사 AI 모델 중 최상위 모델인 '오퍼스'의 최신 버전 클로드 오퍼스4.5를 24일(현지시간) 출시했다. 오퍼스4.5는 복잡한 추론과 고난도 전문 작업 수행에 최적화된 모델로, 기존 오퍼스 대비 코딩 자동화·버그 수정·다단계 작업 수행 능력이 크게 강화됐다. 국제 표준 벤치마크 결과에 따르면 SWE-벤치에서 80.9%의 정확도를 기록해 오픈AI GPT-5.1 코덱스 맥스(77.9%), 구글 제미나이 3 프로(76.2%)를 앞섰다. 또 기존 학습 데이터 없이 AI가 스스로 문제를 해결하는 ARC-AGI-2 평가에서도 37.6%를 기록하면서 경쟁 모델 대비 우수한 성능을 보였다. 앤트로픽은 "오퍼스4.5가 몇 주 전만 해도 우리의 '소넷4.5' 모델이 해결하지 못한 문제까지 풀어낸다"며 "실제 시험 환경에서 인간 지원자보다 높은 점수를 기록했다"고 설명했다. 아울러 내부 테스트에서도 SWE-벤치 다국어 테스트 8개 중 7개 부문에서 1위를 차지한 것으로 나타났다. 새 모델은 사무 자동화 기능도 강화됐다. 재무 분석, 프레젠테이션 작성, 스프레드시트 처리 등 사무용 워크플로우에 특화된 업데이트가 적용됐으며 마이크로소프트(MS) 엑셀 내에서 직접 클로드를 활용할 수 있는 기능도 추가됐다. 이를 통해 기업 고객은 엑셀 기반 데이터 분석과 문서 작업을 자연어로 수행하게 됐다. 개발자 도구도 확장됐다. 장기 실행형 에이전트 기능과 데스크톱·크롬 환경에서의 클로드 활용성 개선, 자동 요약을 통한 긴 대화 맥락 유지 기능 등을 추가했다. AI 연산량을 조절하는 '노력 매개변수'를 적용해 동일 성능 대비 필요한 토큰 수를 50% 가까이 줄인 것도 특징이다. API 가격 역시 대폭 인하됐다. 오퍼스4.5 API 요금은 100만 토큰당 입력 5달러·출력 25달러로 기존 대비 3분의 1 수준으로 낮아졌다. 모델은 클로드 앱, API, 아마존웹서비스(AWS)·애저·구글 클라우드를 통해 즉시 이용할 수 있다. 앤트로픽은 "오퍼스 4.5를 통해 다양한 산업에서 생산성과 문제 해결 능력을 한 단계 더 끌어올릴 수 있을 것"이라고 밝혔다.

2025.11.25 10:37한정호 기자

퀄컴 차세대 AI PC 프로세서, 컴퓨팅·AI 성능서 경쟁사 '압도'

퀄컴이 올해 공개한 차세대 AI 프로세서의 성능을 자신했다. 실제 벤치마크 테스트 결과, CPU·GPU·NPU 등 모든 분야에서 이전 세대 대비 및 경쟁사 대비 뛰어난 성능을 구현한 것으로 나타났다. 퀄컴은 지난 23~25일(현지시간) 미국 하와이에서 개최된 '스냅드래곤 서밋' 행사를 통해 차세대 AI PC용 프로세서인 '스냅드래곤 X2 엘리트'의 성능을 공개했다. 스냅드래곤 X2 엘리트는 성능에 따라 일반 모델과 익스트림 모델로 나뉜다. 두 모델 모두 첨단 파운드리 공정인 3나노미터(nm)를 기반으로 하며, 내년 상반기부터 상용화가 시작될 예정이다. 초고성능의 익스트림 모델의 경우 18코어(12 프라임 코어+6 퍼포먼스 코어)를 갖췄으며, 3세대 퀄컴 오라이온 CPU를 탑재했다. 해당 CPU는 ISO(국제 표준) 전력 조건에서 경쟁사 대비 최대 75% 향상된 성능을 제공한다. GPU는 이전 세대 대비 2.3배 높아진 와트 당 성능 및 전력 효율을, NPU는 80 TOPS의 AI 처리 성능을 지원한다. 퀄컴은 올해 서밋에서 해당 칩셋에 대한 벤치마크 결과를 공개했다. 설명에 따르면, 이번 스냅드래곤 X2 엘리트 익스트림의 벤치마크 성능은 주요 경쟁사의 칩셋을 크게 웃도는 수준이다. CPU 긱벤치(Geekbench) 6.5버전 테스트 점수는 멀티코어 기준 2만3천491점으로 인텔 코어 울트라 9 285H(1만7천680점), 애플 M4(1만5천146점)를 모두 앞선다. GPU 벤치마크(UL3DMark Solar Bay)도 90.06점으로 50~60점대인 인텔, 애플, AMD 칩셋 대비 크게 높은 것으로 나타났다. NPU 벤치마크(긱벤치 AI 1.5 버전) 역시 8만8천615점으로 애플 M4(5만2천193점), 인텔 코어 울트라 9 288V(4만8천566점) 등을 능가했다. 퀄컴 관계자는 "해당 칩에 탑재된 퀄컴 오라이온 CPU는 동급 최고 성능의 CPU로, 경쟁사 대비 싱글코어에서는 최대 41%, 멀티코어에서는 최대 2배 더 빠르다"며 "GPU와 NPU도 경쟁사 대비 우월한 성능을 보여준다"고 설명했다. 실제로 기자가 위 벤치마크 항목에 대해 실제 테스트를 진행해 본 결과, CPU 벤치마크는 싱글코어 4천83점, 멀티코어 2만3천349점으로 나타났다. 퀄컴이 제시한 기준치인 싱글코어 4천50~4천89점, 멀티코어 2만2천835~2만3천768점에 부합한다. GPU 벤치마크도 89.68FPS로 기준치(84.37~90.47)에 부합했으며, NPU는 긱벤치 AI 1.5 버전에서 8만9천157점으로 기준치(8만4천58~8만8천919)를 초과하기도 했다.

2025.09.29 22:00장경윤 기자

삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 '트루벤치(TRUEBench)'를 25일 공개했다. '트루벤치'는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로 AI 모델의 업무 생산성 성능을 평가한다. 삼성전자는 많은 기업들이 업무 전반에 AI를 도입하고 있지만, 기존 벤치마크로는 AI 모델의 업무 생산성 성능을 정확히 측정하기 어렵다는 점에 주목했다. 실제 시중에 공개되어 있는 대부분의 AI 벤치마크는 영어를 중심으로, 연속 대화가 아닌 한번 혹은 제한된 횟수로 대화를 평가하고 있다. 이번에 삼성전자가 공개한 '트루벤치'는 기존 벤치마크와 차별화해 업무 생산성에 대한 집중 평가를 진행하는 것이 특징이다. 실제 평가 항목은 10개 카테고리, 46개 업무, 2천485개의 세분화된 항목으로 구성돼 있다. 평가 항목은 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크 리스트를 기반으로 완성됐다. 폭 넓은 데이터 기반 세밀한 평가 결과, 다국어 지원 차별화 '트루벤치'는 총 2485개의 평가 기준으로 사용자의 짧은 요청부터 최대 2만자의 긴 문서 요약까지 실제 업무 상황을 폭넓게 평가하게 된다. 평가 결과도 기존 벤치마크와 차별화했다. 사용자는 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교할 수 있다. 전체 평가 점수뿐만 아니라 10개 카테고리에 대한 세부 항목별 점수도 공개해 기존 벤치마크보다 세밀한 평가 결과를 확인할 수 있다. 트루벤치는 영어·한국어·일본어·중국어·스페인어 등 총 12개 언어를 지원한다. 특히 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다. 삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 '트루벤치'의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드(Leaderboard)를 공개했다. AI 교차 검증으로 효율성과 객관성 확보 AI 모델 성능 평가는 답변 생성 성능 외에도 AI 모델의 답변이 올바른지 판단하는 기준도 명확해야 한다. '트루벤치'는 답변의 정확성뿐만 아니라, 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가가 가능하도록 설계됐다. 또 평가 항목을 검증하는 방식에는 AI가 활용된다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 지속적인 교차 검증의 반복을 통해 더욱 정교한 평가 기준을 완성하게 된다. 이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결괏값을 제공하게 된다. 전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장(사장)은 "삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다"며, "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것"이라고 말했다.

2025.09.25 13:14전화평 기자

퀄컴 차세대 '스냅드래곤 AP' 테스트해보니…애플과도 '대등'

[하와이(미국)=장경윤 기자] 퀄컴의 차세대 모바일 AP(애플리케이션 프로세서)가 이전 세대 대비 컴퓨팅 및 그래픽 성능을 한층 크게 끌어 올렸다. 벤치마크 테스트 결과도 이에 부합하며, 특히 애플의 최신형 칩셋과도 견줄만한 수준인 것으로 나타났다. 퀄컴은 23일(현지시간) 미국 하와이에서 열린 '스냅드래곤 서밋'에서 '스냅드래곤 8 엘리트'에 대한 벤치마크 테스트 결과를 공개했다. 긱벤치서 싱글 3831점·멀티 12237점…애플 최신 칩셋과 비등 스냅드래곤 8 엘리트 5세대는 동작속도 최대 4.6GHz의 프라임 코어 2개, 3.62GHz의 퍼포먼스코어 6개로 구성됐다. 공정은 TSMC의 3나노 공정을 채택했다. 스냅드래곤 8 엘리트 5세대는 이전 세대 대비 싱글 스레드 성능은 20%, 멀티 스레드 성능은 17% 향상됐다. 그래픽 성능도 17% 향상됐다. 퀄컴 관계자는 "스냅드래곤 8 엘리트 5세대는 세계에서 가장 빠른 모바일 프로세서 스냅드래곤 8 엘리트는 긱벤치(Geekbench) 기준 이전 세대 대비 싱글 스레드 성능은 20%, 멀티 스레드 성능은 17% 향상됐다"며 "해당 칩에 탑재된 3세대 오라이온(Oryon) CPU는 실제 워크로드에 맞게 설계돼, 최종 소비자가 최고의 경험을 할 수 있을 것"이라고 설명했다. 퀄컴이 제시한 스냅드래곤 8 엘리트의 긱벤치 6.5 테스트 점수는 싱글 스레드 3825~3900점, 멀티 스레드 1만2천200~1만2천350점이다. 기자가 실제로 테스트를 진행해 본 결과, 싱글 스레드 3천831점 및 멀티 스레드 1만2천237점으로 예상치에 부합했다. 이는 애플 등 주요 경쟁사의 최신형 칩셋과도 견줄 만한 수준의 성능이다. IT 전문매체 탐스하드웨어에 따르면, TSMC 3나노 공정 기반의 애플 A19 프로는 긱벤치 6 테스트에서 싱글 스레드 3천895점, 멀티 스레드 9천746점으로 집계됐다. 이외에도 스냅드래곤 8 엘리트는 안투투(Antutu) 테스트에서 430만9천384점을 기록했다. 이 역시 퀄컴이 제시한 예상치인 425만~450만 범위 내에 들어간다. 벤치마크 테스트는 기기의 성능을 가늠할 수 있는 지표다. 긱벤치의 경우 CPU를 중심으로, 안투투는 시스템 전반에 대한 테스트를 시행한다. 다만 구동 환경마다 결과값이 달라질 수 있어 절대적인 기준으로는 활용될 수 없다.

2025.09.25 05:30장경윤 기자

애플 A19 프로, 싱글스레드 성능서 AMD 라이젠 제쳤다

애플의 차세대 모바일 AP(어플리케이션 프로세서) A19 프로(A19 Pro)가 PC용 고성능 데스크톱 칩을 능가하는 성능을 기록했다. 최근 공개된 Geekbench 6 벤치마크 결과에서 A19 프로는 AMD의 최신 데스크톱 프로세서 라이젠 9 9950X를 싱글스레드 성능에서 앞섰다. IT 전문매체 탐스하드웨어는 A19 프로가 싱글스레드 점수 3천895점을 기록해 전작 A18 프로 대비 11% 향상됐다고 최근 보도했다. 또 A19 프로는 퀄컴 스냅드래곤 8 엘리트보다 약 36%, 라이젠 9 9950X보다도 11.8% 높은 성능을 보였다. 멀티스레드 성능 역시 A18 프로 대비 약 12% 개선됐다. 이번 성능 향상은 단순한 클럭 속도 증가가 아닌 마이크로아키텍처 개선에서 비롯된 것으로 분석된다. A19 프로는 2개의 고성능 코어(최대 4.26GHz)와 4개의 고효율 코어로 구성돼 있으며, 브랜치 예측 능력과 캐시 메모리 용량을 확대했다. 특히 고효율 코어의 L3 캐시는 전 세대 대비 50% 증가했다. 제조는 TSMC의 3나노 N3P 공정을 적용했다. GPU 성능 개선 폭은 더 크다. 긱벤치6 그래픽 테스트에서 A19 프로는 전작 대비 37% 높은 점수를 기록하며, 아이패드 에어 M2·M3 칩 수준의 그래픽 성능을 보여줬다. 애플이 별도 수치를 공개하지 않았음에도 벤치마크 결과만으로도 AMD 통합 GPU와 견줄 수 있는 성능이라는 평가가 나온다. 탐스하드웨어는 "A19프로 GPU는 배경 흐림(게임의 피사계 심도, 실시간 멀티 레이어 합성, 비디오 배경 흐림 등에 중요)과 가우시안 흐림(후반 처리, 비전 처리, FPU 연산에 중요)에서 이전 모델 대비 가장 뛰어난 성능을 보여준다"고 평가했다.

2025.09.14 07:50전화평 기자

"엑시노스 2600 칩, 스냅드래곤 8 엘리트 칩보다 빨랐다"

삼성전자의 차세대 엑시노스 2600 칩이 벤치마크 성능 사이트 긱벤치에 등장해 퀄컴 스냅드래곤 8 엘리트 칩보다 더 강력한 성능을 보였다고 샘모바일 등 외신들이 최근 보도했다. 삼성전자는 모바일 기기용 새로운 플래그십 칩셋 '엑시노스 2600'을 개발 중이며, 일부 국가에서 차세대 스마트폰 '갤럭시S26 시리즈'에 해당 칩셋을 탑재할 가능성이 있다. 최근 공개된 긱벤치의 벤치마크 결과는 엑시노스 2600 칩이 퀄컴의 스냅드래곤 8 엘리트 칩을 능가하는 모습을 보여줬다. IT 팁스터 주칸로스레브(@Jukanlosreve)가 긱벤치에서 포착한 엑시노스 2600칩은 싱글 코어 성능테스트에서 3천309점, 멀티코어 성능 테스트에서 1만1천256점을 기록했다. 이는 지난 7월 처음 공개된 벤치마크 테스트 결과보다 크게 개선된 것으로, 내년에 출시될 갤럭시 S26 시리즈에 기대감을 높여 준다. 이에 반해 갤럭시S25의 스냅드래곤 8 엘리트 칩은 싱글코어 점수 2천900점, 멀티코어 테스트에서 9천300점을 기록했다. 반면 갤럭시Z플립 7에 탑재된 엑시노스 2500 칩은 싱글코어 테스트에서 2천500점, 멀티코어 테스트에서 8천100점을 기록했다. 이를 종합하면 엑시노스 2600 칩은 갤럭시S25에 탑재된 스냅드래곤 8 엘리트 칩보다 약 13~17% 더 빠르고, 엑시노스 2500 칩보다는 32~38% 더 빠른 것으로 보인다. 삼성 엑시노스 2600 칩은 2나노 공정으로 제조된 최초의 모바일 시스템온칩이 될 것으로 예상된다. 삼성에 따르면, 엑시노스 2600은 엑시노스 2500 대비 NPU(신경망 처리장치) 성능이 크게 향상되고 온디바이스 인공지능(AI) 지원이 강화될 것으로 예상된다.

2025.09.01 15:52이정현 미디어연구소

인핸스, 웹 AI 리더보드서 글로벌 3위…커머스 자동화 시장 노린다

인핸스가 웹사이트에서의 에이전트 성능을 평가하는 글로벌 벤치마크에서 독자 기술력으로 상위권 성적을 거뒀다. 전통적 스크린샷 제어 방식과 달리 웹 구조를 직접 제어하는 접근으로 기술력과 실효성 모두를 입증했다. 인핸스는 웹 인공지능(AI) 에이전트 벤치마크 '온라인-마인드투웹(Online-Mind2Web)' 리더보드에서 회사의 모델 '액트-1(ACT-1)'이 전체 3위, 도큐먼트 오브젝트 모델(DOM) 제어 방식 및 커머스 부문에서는 각각 1위를 차지했다고 22일 밝혔다. 해당 벤치마크는 전 세계 136개 실웹 도메인에서 300개 과제를 수행한 AI의 정밀성과 유효성을 인간 및 자동평가로 검증하는 시스템이다. '액트-1'은 클릭, 메뉴 선택 등 실제 사용자 인터페이스 기반의 복잡한 작업을 수행하는 행동형 AI로, 웹페이지 구조를 직접 분석해 조작하는 DOM 제어 기술을 기반으로 한다. 기존 좌표 기반 제어 방식보다 보안성과 신뢰성이 높고 응용프로그램 인터페이스(API) 접근이 막힌 환경에서도 자동화가 가능하다. 이 에이전트는 커머스 환경에서 특히 강점을 보였다. 실시간 가격 변동, 쿠폰, 재고 상태처럼 구조가 자주 바뀌는 영역에서도 정확하게 정보를 추출하고 제어하며 온라인 쇼핑 특유의 동적 요소를 안정적으로 처리했다. 현재 인핸스는 '액트-1'을 활용한 AI 기반 커머스 자동화 솔루션 '커머스OS'를 운영하고 있다. 이를 통해 반복적 웹 작업을 대체하고 실시간 대응력을 강화하는 자동화 체계를 제공하는 것이다. 크롤링, 테스트, 운영 등 다양한 웹 작업이 적용 대상이다. 기술 확장성 측면에서도 전략을 내놨다. 모방학습(Imitation Learning)을 '액트-1'에 접목해 사람만 할 수 있던 고차 작업을 대체하는 차세대 에이전트 개발에 착수했으며 이를 바탕으로 버티컬 커머스 분야 글로벌 1위를 목표로 기술 고도화를 지속할 계획이다. 기업 고객을 대상으로 한 B2B 웹 자동화 시장 공략도 본격화한다. 고객사의 도메인 환경에 맞춰 커스터마이징된 자동화 시스템을 구축하고 기존 글로벌 AI 기업들과는 다른 경쟁축을 제시하겠다는 구상이다. 이승현 인핸스 대표는 "오픈AI, 앤트로픽과 같은 글로벌 선도 기업들과 어깨를 나란히 할 수 있게 된 것은 큰 의미"라며 "웹 AI 에이전트 기술 개발을 지속 강화해 버티컬 산업 분야에서 글로벌 시장을 선도해 나가겠다"고 밝혔다.

2025.07.22 18:03조이환 기자

하정우 AI수석도 '주목'…세일즈포스, AI 에이전트 평가 시스템 공개

인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. AI 모델 자체만을 평가하던 벤치마크 한계를 넘어 에이전트의 실질적 성능 분석이 가능한 프레임워크다. 20일 IT 업계에 따르면 세일즈포스는 지난 17일 '모델 컨텍스트 프로토콜 기반 평가 프레임워크(MCPeval): MCP 기반의 자동 심층 에이전트 평가' 논문을 통해 에이전트 문제 해결 능력을 자동 검증할 수 있는 새 벤치마크 프레임워크를 오픈소스로 공개했다. MCPeval은 MCP 기반으로 에이전트 성능을 검증한다. 사용자가 가상 업무 환경을 제시하면, 에이전트가 MCP를 이용해 필요한 도구 정보를 받아, 주어진 작업을 직접 수행하는 식이다. 이 과정에서 MCPeval은 에이전트의 과제 해결하는 과정을 추적할 수 있다. 프로토콜 상 상호작용 데이터도 체계적으로 수집한다. 이를 통해 에이전트 성능을 평가하는 셈이다. 에이전트 성능 개선에 활용할 수 있는 고품질 데이터까지 확보 가능하다. 해당 프레임워크는 작업 생성과 성능 검증도 모두 자동화됐다. 이때 생성된 과제 해결 기록은 모델을 미세 조정하거나 개선하는 데 활용된다. 또 MCPeval의 평가 리포트를 통해 에이전트가 플랫폼과 어떻게 소통했는지 세밀하게 분석 가능하다. 세일즈포스 AI 리서치 관계자는 "기업들은 내부 업무에 맞게 MCPeval로 자체 평가 기준을 만들 수 있다"며 "에이전트를 도입하기 전 실제 활용 가능성을 미리 점검하는 데 도움 될 것"이라고 밝혔다. 같은 날 하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. 하 수석은 "그동안 다수 파운데이션 모델 능력 평가 벤치마크가 태스크를 해결하는 에이전트로서의 능력보다는 정해진 지식이나 논증적 추론 능력 중심으로 평가하는 형태가 대부분이었다"고 지적했다. 그러면서 "세일즈포스 프레임워크는 에이전트가 MCP 같은 프로토콜로 다양한 외부 리소스에 접근해 해결한 태스트 결과를 평가한다는 측면에서 훨씬 현실적"이라고 덧붙였다. MCPeval로 모델·에이전트 평가했더니 실제 연구팀은 각 회사 모델과 모델별로 구축된 에이전트 성능을 MCPeval로 평가한 결과를 공개했다. 실험에서는 오픈AI가 만든 GPT 계열 모델들이 전반적으로 좋은 성능을 보였다. GPT 계열로 구축된 에이전트는 도구 사용 능력 평가에서도 높은 점수를 받은 것으로 나타났다. 연구팀은 "GPT-4 계열은 일의 흐름을 잘 계획하고 차근차근 진행하는 데서 강점을 보였다"며 "o3 모델은 작업을 완성하는 최종 결과가 특히 뛰어났다"고 분석했다. 알리바바가 만든 큐원(Qwen3) 모델은 기존 벤치마크에선 성적이 좋았지만, 실제 상황처럼 과제를 만들고 해결하는 평가에서는 기대만큼 성능을 내지 못했다. 특히 큐원3-32B 모델은 도구를 정확히 사용하는 능력이나 과제를 완성하는 데서 다른 모델보다 낮은 점수를 받았다. 세일즈포스는 "같은 모델이라도 어떤 방식으로 평가하느냐에 따라 성능이 다르게 보일 수 있다는 사실을 보여준다"며 "AI 모델이 아닌 '모델로 구성된 에이전트'가 실제 상황에서 태스크를 얼마나 잘 생성하고, 도구를 활용해 해결할 수 있는지를 종합적으로 평가해야 하는 시대가 왔다"고 강조했다.

2025.07.20 14:02김미정 기자

韓 AI 벤치마크 다시 쓴다…"이젠 변호사·의사 자격 시험이 기준"

한국어 거대언어모델(LLM)의 실무 능력을 측정하기 위한 새로운 벤치마크가 등장했다. 실제 국가전문자격시험 문제를 기반으로 구성돼 번역 기반 테스트가 놓치던 지역 특화 지식과 응용력의 격차를 그대로 드러낼 수 있게 됐다. 17일 업계에 따르면 LG AI연구원과 오픈소스 LLM 연구 커뮤니티 해례는 공동으로 새로운 한국어 고난도 벤치마크 '케이엠엠엘유-프로(KMMLU-Pro)'를 공개했다. 이 벤치마크는 최근 한 해 동안 시행된 변호사, 회계사, 의사 등 14개 국가 전문직 자격시험에서 출제된 실제 문제 2천822개로 구성됐으며 시험별 통과 기준까지 적용해 모델의 실무 적합성을 정량적으로 측정한다. 기존의 '케이엠엠엘유'는 고등학교 수준부터 전문가 시험까지 범위를 포괄했으나 문제의 중복·오염·정답 노출 등 품질 논란이 반복됐다. 연구진은 이를 보완하기 위해 문제를 전면 재구성한 리덕스 버전도 함께 공개했다. 해당 벤치마크는 산업기사 중심의 국가기술자격시험 100종에서 총 2천587개 문항을 추출해 구성됐다. 이번 벤치마크는 정답률만이 아니라 자격시험 합격 요건과 동일한 기준을 모델에 적용하는 방식으로 설계됐다. 평가 범주 또한 단답형이 아닌 실제 시험 포맷과 일치하도록 조정돼 인공지능(AI)의 단순 지식 암기보다 응용력과 분야별 편차를 명확히 드러낼 수 있도록 구성됐다. 결과적으로 앤트로픽의 '클로드 3.7 소넷'은 전체 14개 시험 중 12개를 통과하며 가장 고른 성능을 보였다. 오픈AI의 'o1' 모델은 평균 정확도 79.55%로 가장 높은 점수를 기록했지만 실제 시험 통과 기준에서는 10개 자격만 획득하는 데 그쳤다. 특히 한국 변호사시험을 통과한 모델은 '클로드 3.7'이 유일했다. 이 외에도 딥시크의 'R1', 메타의 '라마4 매버릭', xAI의 '그록' 등 다수의 글로벌 상용 모델들이 의료와 회계 등 영역에서는 상대적으로 높은 성과를 냈지만 법률·세무 영역에서는 기준점에 미달했다. 벤치마크는 허깅페이스를 통해 오픈소스로 배포됐으며 비상업적 사용과 재배포에 한해 이용할 수 있도록 했다. 연구진은 향후 매년 최신 시험 데이터를 반영해 버전을 주기적으로 갱신할 계획이다. 연구진은 "두 벤치마크의 결과를 종합적으로 분석한 결과 한국에 특화된 전문 지식을 기반으로 한 평가가 특히 중요하다는 점이 확인됐다"고 밝혔다.

2025.07.17 17:46조이환 기자

Prev 1 2 Next