검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'클로드 소네트'통합검색 결과 입니다. (6건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

앤트로픽, '클로드4' 출시…코딩·에이전트 성능 한계 넘었다

앤트로픽이 차세대 언어모델 '클로드4'를 출시하며 생성형 인공지능(AI) 시장의 주도권 확보에 나섰다. 복잡한 코딩, 장기 추론, 도구 병행 실행 등에서 경쟁사를 앞서며 실사용 중심의 기술 경쟁에 속도를 내는 모양새다. 23일 앤트로픽 공식 블로그에 따르면 회사는 클로드 '오푸스4'와 '소넷4'를 즉각 상용화했다. 이 모델들은 현재 앤트로픽 응용 프로그램 인터페이스(API), 아마존 베드록, 구글 클라우드의 버텍스 AI 플랫폼에서 제공 중이다. 가격은 '오푸스4'가 입력 백만 토큰 기준 15달러(한화 약 2만1천원), '소네트4'는 3달러(한화 약 4천200원)로 책정됐으며 이는 이전 모델과 동일한 수준이다. '오푸스4'는 프로, 맥스, 팀, 엔터프라이즈 등 유료 요금제에서만 제공되고 '소네트4'는 무료 이용자도 사용할 수 있다. 앤트로픽에 따르면 '오푸스4'는 회사 역사상 가장 강력한 모델로, 복잡한 문제 해결과 수천 단계에 걸친 장기 작업에서 지속적인 성능을 발휘한다. 에스더블유이벤치(SWE-bench)와 터미널벤치(Terminal-bench) 등 실제 코딩 벤치마크에서도 각각 72.5%, 43.2%를 기록하며 기존 모델 대비 월등한 결과를 보였다. '소네트4'는 상대적으로 경량화된 모델이지만 실사용 환경에서 성능과 효율의 균형을 추구한 설계로 평가받는다. 에스더블유이벤치에서 72.7%를 기록했으며 지시 수행력과 코드 구현 제어 능력에서 기존 '소네트3.7' 대비 크게 개선됐다. 두 모델은 모두 새롭게 도입된 '확장된 사고(Extended Thinking)'를 통해 모델 스스로 추론과 도구 사용을 병행한다. 웹 검색 등 외부 도구 활용을 통해 긴 작업 흐름을 단계적으로 수행하며 필요한 경우 요약 모델을 활용해 내부 사고 과정을 정리할 수도 있다. 메모리 기능 역시 크게 개선됐다. '오푸스4'는 개발자가 로컬 파일 접근을 허용할 경우 '메모리 파일'을 생성해 중요 정보를 저장하고 이를 통해 장기 프로젝트에서 맥락 일관성을 확보한다. 회사 측은 '오푸스4'가 실제로 포켓몬 게임을 플레이하며 '내비게이션 가이드'를 자체 작성한 사례를 예로 들었다. 함께 발표된 '클로드 코드'는 개발 환경 전반에 '클로드'를 통합할 수 있도록 설계된 제품군이다. VS코드, 젯브레인 등 주요 통합개발환경에 통합되며 코드 수정 제안을 파일 내에 직접 표시해 페어 프로그래밍 효율을 높인다. 또 깃허브 액션을 활용한 백그라운드 작업이나 지속적 통합(CI) 오류 자동 대응 같은 기능도 포함된다. 개발자를 위한 소프트웨어 개발 키트(SDK)도 제공된다. 사용자는 SDK를 통해 자체 코딩 에이전트를 만들 수 있으며 현재는 깃허브 베타 앱 형태로 피드백 반영, 자동 수정 기능을 지원하고 있다. 기능 외에도 안전성 측면에서도 발전했다. 앤트로픽이 자체적으로 정의한 AI의 신뢰도와 안전성에 대한 내부 기준 체계인 인공지능 안전수준 3단계(ASL-3) 수준의 테스트 및 평가가 이뤄진 상태로, 모델은 기존 대비 편법적 응답 가능성이 65% 감소했으며 사고 경로 투명성도 향상됐다. 앤트로픽은 공식 블로그를 통해 "이번 모델은 완전한 맥락 유지와 장기 프로젝트 집중이 가능한 '가상 협업자'로, 혁신적 성과를 이끌 것"이라며 "'클로드'와 '클로드 코드'를 포함한 원하는 플랫폼에서 바로 활용할 수 있다"고 밝혔다.

2025.05.23 09:09조이환 기자

'尹 탄핵심판' AI에게 물었더니…클로드 "인용 가능성 75%"

헌법재판소의 윤석열 대통령 탄핵심판 선고가 하루 앞으로 다가오면서 긴장이 고조되고 있다. 대한민국 헌정사에 중대한 분기점이 될 판결인 만큼 국내 뿐 아니라 전 세계적으로도 많은 관심이 쏠리고 있다. 3일 지디넷코리아는 클로드 소네트, 딥시크 R1, GPT-4o, 퍼플렉시티, 구글 제미나이 등 대표적인 인공지능(AI) 모델들에게 헌재의 탄핵심판 선고 결과를 어떻게 예측하는지 질문했다. 분석 결과 클로드 소네트가 탄핵 인용 가능성을 75%로 가장 높게 예측했다. 반면 퍼플렉시티는 인용 가능성 35%로 비교적 낮게 판단했다. AI 모델들은 ▲헌법 위반의 중대성 ▲재판관 구성 및 성향 ▲절차적 하자 여부 ▲여론 지형 등 여러 요인들을 기반으로 논리적 전망을 제시했다. 다만 이번 결과는 각 AI 모델이 특정 시점에 입력된 프롬프트와 데이터를 바탕으로 생성한 예측이다. 동일한 모델이라 하더라도 입력값과 조건에 따라 수치는 달라질 수 있다. 클로드 소네트 "헌법 위반 중대성 높고 국민 여론도 강력" 탄핵 인용: 75% 탄핵 기각: 24% 탄핵 각하: 1% 클로드 소네트는 인용 가능성을 가장 높게 제시했다. ▲비상계엄 선포 검토 ▲국회 장악 시도 ▲선관위 장악 기도 ▲불법 체포 지시 등 5가지 탄핵 사유 중 하나만 중대한 위헌으로 인정될 경우 파면이 가능하다는 판단이다. 특히 클로드 소네트는 '5분 국무회의'의 절차적 흠결 증언과 중도층 여론(찬성 70% 이상)이 인용 가능성을 높이는 요인으로 작용한다고 보았다. 딥시크 R1 "재판관 구성상 인용 유력, 다만 절차 변수 주의" 탄핵 인용: 65% 탄핵 기각: 25% 탄핵 각하: 10% 딥시크 R1은 헌재 재판관 8인의 성향(보수 3, 중도 2, 진보 3)에 주목했다. 보수 재판관 일부가 사회적 합의를 고려해 찬성표를 던질 가능성이 있다고 분석했다. 또 국회 탄핵소추 과정에서의 절차적 논란이 각하 논의로 번질 수 있다고 판단했다. GPT-4o "정치적 파장과 실행 여부 사이에서 중립적 시각" 탄핵 인용: 50% 탄핵 기각: 30% 탄핵 각하: 20% GPT-4o는 탄핵 인용과 기각(혹은 각하) 가능성을 같은 것으로 분석했다. 비상계엄은 검토 단계에 머물렀고, 직접적 실행은 없었다는 점에서 "위헌 요소는 있지만 직무상 중대 위반은 아님"이라는 판단 여지가 있다고 보았다. 헌재의 보수적 성향과 국정 안정 고려가 기각에 힘을 실을 수 있고, 절차상 흠결 논란으로 각하 가능성도 20%로 제시했다. 퍼플렉시티 "기각 가능성이 현실적으로 가장 높아" 탄핵 인용: 35% 탄핵 기각: 60% 탄핵 각하: 5% 반면 퍼플렉시티는 재판관 간 의견 분열이 인용 가능성을 낮춘다고 분석했다. 과거 박근혜 탄핵은 만장일치였지만, 이번 사건은 헌법 위반의 중대성 해석에 따라 4:4 구도가 될 가능성이 높다고 평가했다. 또한 정치적 판단보다는 법리적 보수주의가 우세할 경우, 기각이 가장 가능성 높은 시나리오로 작용할 것이라 전망했다. 구글 제미나이 "복잡한 변수 많은 만큼 특정 확률 제시는 부적절" 예측 확률: 제시하지 않음 구글 제미나이는 다른 모델과 달리 탄핵 인용·기각·각하에 대해 특정 확률을 제시하지 않았다. 대신, 각 가능성의 논리적 배경과 영향을 미치는 요인을 깊이 있게 분석했다. 인용 여부는 헌법 위반의 중대성 여부, 과거 판례, 국민 여론의 압력 등이 변수이며, 재판관의 독립적 판단이 결정적일 것으로 예측했다. 반면 계엄 선포와 같은 핵심 행위가 실행에 이르지 않았다는 점에서 '직무상 중대성'을 문제 삼아 기각될 가능성도 제기했다. 더불어 절차적 하자가 심판 대상 자체의 부적합성으로 이어질 경우 기각될 수 있을 것으로 언급했지만 실제 실현 가능성은 낮을 것이라고 전망했다. 다수 AI 모델은 탄핵 인용 가능성을 가장 유력한 시나리오로 판단했으나, 재판관 성향 및 절차적 변수 등 불확실성이 여전히 존재한다. 구글 제미나이처럼 확률을 제시하지 않고 해석 중심으로 접근한 시도는 이번 탄핵심판이 단순 예측을 넘어 법리와 헌정 원칙의 정면 충돌이라는 분석이다.

2025.04.03 16:43남혁우 기자

[현장] 앤트로픽-콕스웨이브, 韓서 'AI 자동화·성능분석' 투트랙 공략

앤트로픽이 국내 인공지능(AI) 분석 스타트업 콕스웨이브와 함께 AI 자동화와 최적화 기술을 강화하며 시장 확대에 나섰다. 앤트로픽은 AI를 단순한 도구에서 '가상 협업자'로 발전시키는 전략을 추진하고 있으며 콕스웨이브는 AI 성능 분석 기술을 통해 모델의 신뢰성과 효과성을 높이는 데 집중하고 있다. 앤트로픽과 콕스웨이브는 19일 서울 잠실 시그니엘에서 '빌더 서밋'을 공동개최했다. 이번 행사는 앤트로픽의 AI 모델 '클로드 소네트 3.7'과 콕스웨이브의 '얼라인'을 발표하고 양사의 향후 사업 전략을 공유하기 위해 마련됐다. 행사에는 국내외 개발자 1천여 명이 참석해 AI 기술과 활용 사례에 대한 높은 관심을 보였다. 앤트로픽은 이날 행사에서 AI의 안전성과 혁신을 동시에 추구하는 기업이라는 점을 강조하며 한국을 포함한 아시아태평양 지역에서의 투자와 확장을 검토 중이라고 밝혔다. AI의 역할을 업무 자동화와 의사결정 지원으로 확대하는 전략을 제시하며 맞춤형 AI 솔루션을 강화하겠다는 계획도 공개했다. 함께 발표에 나선 콕스웨이브는 AI 성능 분석 플랫폼 '얼라인'을 소개하며 AI의 신뢰성과 안전성을 높이는 것이 기업들의 핵심 과제라고 강조했다. 젠슨 매출책임자 "AI, 동료가 되게 할 것…韓 포함 아태지역 지사 검토 중" 케이트 젠슨 앤트로픽 최고매출책임자는 '빌더 서밋'에서 회사가 AI의 안전성과 정렬에 많은 방점을 두면서도 혁신을 동시에 추구하는 기업이라는 점을 강조하며 한국을 포함한 아시아 지역에서의 투자와 확장을 적극 검토 중이라고 밝혔다. 젠슨 책임자에 따르면 앤트로픽은 현재 '프런티어급 거대언어모델(LLM)'을 개발하며 AI 모델의 안전성과 활용성을 동시에 높이는 것을 핵심 전략으로 삼고 있다. 이번에 발표된 '클로드 소네트 3.7'은 ▲파운데이션 모델(Foundation Model) 계층 ▲인프라 및 툴링(Infrastructure & Tooling) 계층 ▲가상 협업자(Virtual Collaborators)로 구성됐다. AI가 단순한 질문·응답 수준을 넘어 보다 심층적인 문제 해결과 의사결정 지원을 수행하도록 설계한 것이다. 특히 앤트로픽은 고객사의 AI 활용 방식을 ▲내부 ▲외부 ▲비용절감 ▲수익 창출이란 네가지 방향으로 구분하고 개발자 툴링(Dev Tooling)과 고객용 AI 솔루션을 각각 강화하는 전략을 추진 중이다. '클로드 3.7'의 '에이전틱 코딩(Agentic Coding)' 기능은 이를 위한 개발자의 생산성을 극대화할 수 있는 핵심 요소로 꼽힌다. 또 AI의 자연스러운 언어 처리 및 대규모 데이터 분석·추론 능력을 활용해 기업의 비즈니스 효율성을 높일 수 있도록 지원한다. 국내 시장에서도 이미 여러 기업들이 클로드를 활용하고 있다. 젠슨 책임자는 "슬랙, 뤼튼 등 여러 글로벌·한국 기업들이 클로드 기반 AI 솔루션을 도입 중"이라며 "AI 기술이 한국 기업들의 실제 운영 환경에 적합하도록 지속적으로 최적화할 것"이라고 말했다. 이에 더해 앤트로픽이 올해 아태지역에 최초로 지역사무소 설립을 검토 중으로, 한국을 포함한 아태지역에 투자를 추진하고 현지 기업과의 협력을 강화하겠다는 계획을 밝혔다. 이같이 앤트로픽은 앞으로 AI의 역할을 '가상 협업자'로 확대해 AI가 기업의 의사결정을 돕고 업무의 일부를 자동화하는 수준으로 발전시키겠다는 목표를 세우고 있으며 이 과정에서 안전성과 윤리적 AI 개발 원칙을 철저히 준수하겠다는 입장이다. 젠슨 책임자는 "AI가 기업의 운영을 혁신하는 동시에 신뢰할 수 있는 도구로 자리 잡을 수 있도록 지속적으로 연구개발(R&D)에 투자할 것"이라고 강조했다. 크리거 CPO "에이전트로 업무 자동화…비용은 줄이고 성능은 높인다" 이어 발표를 진행한 마이크 크리거 앤트로픽 최고제품책임자(CPO)는 AI 기반 업무 자동화와 기업 맞춤형 솔루션을 위한 새로운 투자 전략을 발표했다. 그러면서 한국에 대해서도 AI 활용도가 높은 시장으로 평가하며 국내 기업들과의 협업 가능성을 강조했다. 크리거 CPO는 "현재 AI 애플리케이션 프로그램 인터페이스(API)는 단순한 입력-출력 방식"이라며 "향후에는 기업이 원하는 작업을 AI가 직접 수행하고 백그라운드에서 지속적으로 학습하는 형태로 변화할 것"이라고 밝혔다. 앤트로픽은 이를 위해 ▲차세대 에이전트 API ▲데이터 커스터마이징 ▲비용 효율화 등 세 가지 분야에 대한 연구개발(R&D)을 집중적으로 진행하고 있다. 우선 태스크 기반 API와 쓰레드 기반 API를 도입해 AI가 업무를 자동으로 기억하고 필요할 때마다 최적의 의사결정을 내릴 수 있도록 지원한다. 또 클라우드 내에서 직접 코드를 실행할 수 있는 환경을 마련해 개발자들의 AI 활용도를 극대화할 예정이다. 데이터 커스터마이징 측면에서는 모델 컨텍스트 프로토콜(MCP)을 확장해 기업 내부 문서, 웹 데이터, 엑셀, 슬랙, 깃허브 등 다양한 데이터를 AI가 동적으로 분석할 수 있도록 했다. 이를 통해 기업이 자체 AI를 구축하지 않고도 '클로드' 모델을 최적화해 내부 데이터를 실시간으로 활용할 수 있다. 특히 기업이 원하는 정보를 AI에 자동으로 학습시키는 '프롬프트 에이전트' 기능을 통해 사용자의 개입 없이도 모델이 자체적으로 개선되도록 설계했다. 크리거 CPO는 회사의 비용 절감 전략도 설명했다. 앤트로픽은 프롬프트 캐싱 기능을 확장해 API 호출 비용을 줄이는 동시에 '파인튜닝' 기능을 도입해 모델을 맞춤형으로 학습할 수 있도록 지원한다. 기존 AI 모델이 지나치게 크거나 반대로 특정 업무에는 최적화되지 않은 문제를 해결하기 위해 기업이 자체적으로 모델을 수정하고 유연하게 배포할 수 있도록 했다. 국내 시장에서도 적극적인 확장을 예고했다. 그는 "한국 시장은 AI 채택 속도가 빠르고 스타트업부터 대기업까지 AI 활용도가 높은 시장"이라며 "비용 절감과 수익 창출을 동시에 원하는 기업들의 요구에 맞춰 맞춤형 AI 솔루션을 지속적으로 제공할 것"이라고 강조했다. "AI 성능, 제대로 분석해야 한다"…콕스웨이브, '얼라인' 통해 기업 지원 이날 함께 행사를 주최한 콕스웨이브의 김기정 대표는 회사의 AI 분석 플랫폼 '얼라인(Align)'을 소개하며 AI 제품의 완성도를 높이는 것이 기업들의 핵심 과제가 되고 있다고 강조했다. 김 대표는 "AI가 고객 응대, 업무 자동화, 생성형 AI 서비스 등에 폭넓게 도입되고 있다"면서도 "실제로 얼마나 효과적으로 작동하는지에 대한 분석이 부족하다"고 지적했다. 이에 콕스웨이브는 AI 성능 분석을 위한 필수 도구로 '얼라인'을 개발했다. 이 플랫폼은 ▲대규모 AI 대화 데이터 검색·분석 ▲자연어 기반 질의응답 ▲실시간 모니터링 패널 제공 기능을 갖추고 있다. AI 기업들이 챗봇, 가상 비서, 고객 서비스용 AI 모델을 운영할 때 발생하는 문제를 쉽게 파악하고, 개선 방향을 찾을 수 있도록 설계됐다. AI의 신뢰성과 안전성을 강화하는 것도 핵심 목표다. '얼라인'은 AI가 생성한 응답 중 비정상적인 패턴이나 비효율적인 대화 흐름을 자동 감지하고 이를 개발팀이 즉각 수정할 수 있도록 지원한다. 또 구글리서치 및 여러 학계 기관과 협력해 AI 모델의 윤리적 문제와 안전성을 개선하는 연구를 진행하고 있다. 이같이 콕스웨이브는 AI 모델 성능 분석에 대한 기업들의 수요가 커지고 있다고 보고, 글로벌 AI 기업들과 협력해 시장을 확대할 계획이다. 김기정 콕스웨이브 대표는 "앤트로픽과의 협력을 통해 AI 모델이 보다 안전하고 효과적으로 작동하도록 지원하고 있다"며 "AI와 인간이 조화롭게 협력하는 미래를 만들기 위해 지속적으로 연구개발(R&D)을 확대할 것"이라고 밝혔다.

2025.03.19 16:15조이환 기자

앤트로픽 "AI, 더 이상 도구 아냐…올해부터 사회 문제 해결 주도"

"인공지능(AI)이 인간 보조 도구인 시기는 끝났습니다. 향후 몇 년간 AI가 과학 연구부터 신기술 개발, 사회적 문제 해결을 주도하는 시대로 접어들 것입니다. 아마존웹서비스(AWS)와 협업해 이같은 AI 혁신 시대를 주도하겠습니다.” 앤트로픽 마이크 크리거 최고제품책임자(CPO)는 18일 서울 코엑스에서 열린 'AWS 유니콘데이 2025'에서 AI 미래 전망과 향후 사업 전략을 이같이 밝혔다. 그는 AI 기술 발전를 세 단계로 나눌 수 있다고 설명했다. 우선 2023년을 'AI가 단순한 도우미 역할을 하던 시기'로 규정했다. 해당 시기에는 AI가 이메일 작성부터 간단한 코드 편집 등 비교적 단순한 작업을 지원하는 수준에 머물렀다는 평가다. 그는 2024년에는 AI가 단순한 도우미를 넘어 협업 도구로 발전하는 단계에 접어들었다고 분석했다. 보고서 작성부터 복잡한 코드 수정, 데이터 분석 등 더 복잡한 작업을 수행하면서 업무 생산성 향상하는 역할을 본격적으로 하게 된 시기라는 설명이다. 크리거 CPO는 향후 AI가 혁신을 주도하는 단계에 진입할 것으로 전망했다. 그는 “AI가 과학 연구를 비롯한 신기술 개발, 사회적 문제 해결 등 창의적이고 전략적인 영역을 주도할 것”이라고 강조했다. 그는 클로드가 미래 AI 기술 혁신을 뒷받침할 것이라고 재차 강조했다. 앞서 앤트로픽은 지난해 3월부터 '클로드 3' 시리즈를 줄줄이 출시했다. 이후 6월 '클로드 3.5 소넷'을 공개했으며, 10월 이를 개선한 두 번째 버전을 내놨다. 최신 버전은 지난달 공개된 '클로드 3.7'이다. 해당 모델 시리즈는 '확장된 사고 능력(Extended Thinking)'과 '생각의 여유(Thniking Budget)' 기능을 갖췄다. 확장된 사고 능력은 기존보다 깊이 있는 추론을 한 후 응답하는 식이다. 코딩, 수학 등 복잡한 문제 해결에 강점을 갖췄다. 생각의 여유 기능은 사용자가 원하는 대로 모델이 짧은 시간 내 답을 제공하거나, 더 오랜 시간 깊이 있는 사고를 거친 후 답을 제공하는 방식이다. 기존에는 사용자가 '일반 모델'과 '심층적 사고 모델' 중 하나를 택해야 했지만, 최신 버전에서는 이를 한 모델에서 이용할 수 있다. 그는 앤트로픽이 에이전트 기반 코딩 분야에서도 업계를 선도한다고 강조했다. 단순히 요청 한 번으로 코드를 생성하는 것이 아니라, 여러 번 상호작용을 통해 점진적으로 코드를 개선하는 식으로 작동하는 에이전트라는 이유에서다. 이를 평가하는 벤치마크 'SWE-bench'에서 클로드 3.7 소넷 모델은 70점을 기록했다. 크리거 CPO는 한국 시장에 대해서도 언급했다. 그는 "한국 시장이 매우 빠르게 성장하는 것을 직접 보고 있다"며 "특히 아마존베드록을 통한 클로드 활용 기업이 눈에 띄게 늘었다"고 강조했다. 크리거 CPO는 AWS와 협업을 통해 생성형 AI 사업을 강화할 것이라고 밝혔다. 그는 "AWS는 자사 최대 투자자"라며 "AWS의 강력한 하드웨어 인프라·보안 기술과 자사 최첨단 AI 모델을 결합해 기업 고객들에게 최상의 AI 솔루션을 제공할 것”이라고 말했다.

2025.03.18 12:54김미정 기자

앤트로픽, '클로드 3.7 소네트' 공개…하이브리드 AI 시대 연다

앤트로픽이 실시간 응답과 심층적인 추론을 하나로 통합한 인공지능(AI)을 출시해 거대언어모델(LLM)의 새로운 기준을 제시했다. 보다 직관적인 방식으로 인간과 상호작용하도록 함으로써 갈수록 치열해지는 AI 경쟁에서 우위를 점하려는 전략이다. 25일 테크크런치에 따르면 앤트로픽은 거대언어모델(LLM)과 추론 모델을 결합한 '하이브리드 AI'인 '클로드 3.7 소네트'를 공식 발표했다. 이 모델을 통해 사용자는 기존의 LLM을 활용했을 때처럼 즉각적인 응답을 받을 수도 있고 AI가 보다 깊이 사고하도록 추론을 하게 명령할 수도 있다. 앤트로픽은 '클로드 3.7 소네트'의 추론 기능을 유료 사용자에게만 제공한다고 밝혔다. 무료 사용자에게는 일반적인 답변 기능만 제공되나 전체적인 성능은 기존 모델인 '클로드 3.5 소네트'보다 개선됐다. 가격은 100만 개 입력 토큰당 3달러(한화 약 4천200원), 100만 개 출력 토큰당 15달러(한화 약 2만1천원)다. 오픈AI의 'o3-미니'나 딥시크의 'R1'보다 높은 수준이지만 '하이브리드 모델'이 업계에서 처음으로 도입된 점을 감안하면 향후 가격이 인하될 것으로 예측된다. '클로드 3.7 소네트'는 실전 활용성에도 초점을 맞췄다. 어려운 코딩 문제 해결과 에이전트 기반 작업에서 강력한 성능을 발휘하며 개발자가 추론 시간을 조절할 수 있는 기능도 포함됐다. 이 모델은 '소프트웨어 엔지니어링(Bench SWE)' 벤치마크 테스트에서 62.3% 정확도를 기록해 오픈AI의 'o3-미니'보다 높은 성능을 보였다. 또 AI의 애플리케이션 프로그램 인터페이스(API) 상호작용 능력을 측정하는 'TAU-벤치'에서도 오픈AI의 'o1'을 앞서는 성적을 거뒀다. AI 업계의 반응은 뜨겁다. 소셜미디어에서는 지금까지 출시된 AI 중 최고라는 업계 관계자들의 평가가 잇따르고 있다. 특히 개발자들은 클로드 3.7 소네트가 복잡한 코드베이스를 다루는 능력이 뛰어나다며 극찬하고 있다. 유명 AI 팟캐스터 렉스 프리드먼은 자신의 X 계정에서 "'클로드 3.7 소네트'는 프로그래밍에 가장 적합한 모델"이라며 "AI 경쟁이 정말 치열해지고 있어 살아 있는 것이 신나는 시대"라고 언급했다. '클로드 3.7 소네트'의 등장은 AI 산업의 새로운 흐름을 시사한다. 오픈AI 역시 최근 'GPT-5'를 마지막으로 추론모델인 'o' 시리즈를 폐기하고 기존 GPT 모델에 통합하는 방향을 예고했다. AI 업계가 '하이브리드 모델' 중심으로 재편될 가능성이 높아지고 있는 것이다. 테크크런치는 "앤트로픽의 모델 출시는 AI 연구소들이 신모델을 빠르게 내놓는 치열한 경쟁 속에서 이뤄진 결정"이라며 "오픈AI 등의 경쟁자들도 자체 하이브리드 모델을 내놓으려고 하는 상황에서 회사가 AI 경쟁에서 얼마나 오래 선두를 유지할 수 있을지는 지켜봐야 할 것"이라고 분석했다.

2025.02.25 09:42조이환 기자

"인간처럼 AI도 늙는다"…구형 모델, '인지 저하' 겪어

시간이 흐르면서 인공지능(AI) 모델도 사람처럼 '인지 저하'를 겪을 수 있다는 우려가 나왔다. 17일 영국의학저널(BMJ)에 따르면 거대언어모델(LLM) 기반 AI 챗봇 테스트 결과 이같은 연구 결과가 나온 것으로 전해졌다. 인간이 나이가 들수록 기억력 감퇴나 치매를 겪는 것처럼 AI도 비슷한 현상을 보인다는 설명이다. 연구진은 오픈AI '챗GPT'와 앤트로픽 '소네트', 구글 '제미나이' 등 LLM 기반 챗봇 대상으로 몬트리올 인지 평가(MoCA) 테스트를 진행했다. MoCA는 알츠하이머나 치매 등 인지 장애를 평가하는 검사다. 주의력과 기억력, 언어 능력, 공간 인지, 실행 기능 등을 측정한다. 실험 결과 모델 중 가장 최신 버전인 GPT-4o는 30점 만점 중 26점을 받아 정상 범주에 해당하는 점수를 기록했다. 상대적으로 구형 모델인 제미나이1.0은 16점에 그쳤다. 챗봇들은 이름 맞히기, 주의력, 언어 능력, 추상적 사고 영역에서 비교적 우수한 점수를 기록했다. 공간 인지, 실행 기능과 관련한 평가에서는 구형 모델일수록 낮은 점수를 받았다. 특히 기억 영역에서 가장 큰 격차를 보였다. 연구를 주도한 이스라엘 하다사 의료센터 로이 다얀 신경과학자는 "AI가 시각적 추상화(visual abstraction)와 실행 기능(executive function)이 필요한 작업에서 신뢰할 수 없는 결과를 낼 가능성이 높다"며 "AI가 인간을 대체하는 데 있어 치명적 한계를 가질 수 있을 것"이라고 지적했다. AI와 인간 인지 기능은 본질적으로 다르므로 직접적인 비교는 어렵다. 다만 연구진은 이번 보고서를 통해 AI 한계를 고려해야 한다는 점을 당부했다. 특히 의료 현장에서 AI를 활용할 때 이를 보완할 방안이 필요하다고 강조했다. 일각에선 AI 모델의 장기적 신뢰성 확보 중요성이 높아질 것이라는 전망이 나왔다. 신경학자들은 "인지 장애를 겪는 AI를 진단·관리할 수 있는 새 시장이 열릴 것"이라고 봤다.

2025.02.17 09:21김미정 기자