검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'클로드 4'통합검색 결과 입니다. (5건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

'해킹 AI' 논란 의식했나…'미토스 파장' 앤트로픽, 오퍼스 4.7 공개

앤트로픽이 차세대 인공지능(AI) 모델 '클로드 미토스'로 전 세계적인 보안 우려를 촉발한 가운데 후속 모델을 통해 사이버 위협 능력을 의도적으로 낮추는 전략에 나섰다. 고성능 경쟁 속에서 안전성 통제를 전면에 내세운 것이다. 앤트로픽은 지난 16일(현지시간) 공식 블로그를 통해 기존 '클로드 오퍼스 4.6'의 개선 모델인 '클로드 오퍼스 4.7(Claude Opus 4.7)'을 공개했다. 일반에 공개된 모델 가운데 최상위 성능을 갖춘 제품으로, 고난도 소프트웨어 엔지니어링과 멀티모달 업무 수행 능력을 강화한 것이 특징이다. 오퍼스 4.7은 복잡한 코딩 작업을 장시간 안정적으로 수행하고 결과를 자체 검증하는 능력이 향상됐다. 지시 이행 능력도 개선돼 기존보다 프롬프트를 더 엄격하게 해석하고 수행하는 특성을 보인다. 이와 함께 파일 기반 메모리 활용 능력이 강화되면서 여러 작업 세션에 걸친 맥락 유지도 가능해졌다. 멀티모달 기능도 고도화됐다. 최대 2576픽셀 수준의 고해상도 이미지 처리를 지원해 복잡한 도표 분석이나 스크린샷 기반 업무 등 정밀 시각 작업 활용도가 확대됐다.성능 지표에서도 개선이 확인된다. 소프트웨어 개발 능력을 평가하는 'SWE-벤치 프로'와 'SWE-벤치 베리파이드'에서 각각 64.3%, 87.6%를 기록하며 공개된 AI 모델 중 최고 수준 성능을 나타냈다. 금융 분석 평가인 '파이낸스 에이전트 v1.1'에서도 64.4% 점수를 기록해 전작과 주요 경쟁 모델을 웃돌았다. 다만 대부분 지표에서 '클로드 미토스 프리뷰(Claude Mythos Preview)'에는 못 미치는 성능을 보였다. 앤트로픽도 "가장 강력한 모델인 미토스 프리뷰 대비 기능이 제한적"이라고 설명했다.가격은 기존과 동일하다. 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 오퍼스 4.6과 같은 수준이다. 이번 모델의 핵심은 성능보다 '위험 통제'에 있다. 오퍼스 4.7은 사이버 특화 모델이 아니며 미토스 프리뷰보다 보안 관련 역량이 낮도록 설계됐다. 학습 과정에서도 해당 능력을 의도적으로 축소하는 실험이 병행됐다. 이와 함께 해킹 등 고위험 사이버 보안 요청을 자동으로 탐지·차단하는 안전장치가 적용됐다. 이는 앤트로픽이 최근 제시한 보안 프레임워크의 첫 실제 적용 사례로, 고성능 모델 공개 전 리스크를 검증하기 위한 단계로 해석된다. 일반 이용자 접근이 가능한 최고 성능 모델은 오퍼스 4.7이지만, 미토스 프리뷰는 현재 사이버 방어 전문가와 핵심 인프라 파트너를 대상으로만 제한 제공되고 있다. 보안 리스크를 고려한 조치다. 대신 '사이버 검증 프로그램'을 통해 보안 전문가들은 취약점 연구나 침투 테스트 등 정당한 목적에 한해 오퍼스 4.7을 활용할 수 있도록 했다. 미토스 모델이 촉발한 파장은 적지 않다. 앤트로픽이 이 모델의 강력한 취약점 탐지 능력을 공개하자 미국을 비롯한 각국 정부와 금융당국이 긴급 대응 논의에 나섰다. 미국 재무부는 한때 앤트로픽 서비스 사용 중단을 검토한 뒤 미토스 접근 권한 확보를 위한 협의에 나선 것으로 전해졌다. 이처럼 AI 모델이 국가 안보 이슈로 확산되면서 기술 기업의 자율 통제와 정부 규제 논의가 동시에 본격화되는 양상이다. 이와 별개로 클로드 서비스는 최근 반복된 접속 장애로 안정성 논란도 이어지고 있다. 이용자 증가와 신규 기능 확산에 따른 인프라 부담이 원인으로 지목되며 고성능 모델 경쟁이 심화될수록 서비스 품질 관리가 핵심 변수로 떠오르고 있다. 앤트로픽은 오퍼스 4.7을 '시험' 성격의 모델로 규정했다. 실제 환경에서 안전장치의 효과를 검증하고, 향후 미토스급 모델의 범용 공개를 위한 기반을 마련하겠다는 의미다. 앤트로픽은 "정부는 AI 모델과 관련한 국가 안보 위협을 평가하고 완화해야 한다"며 "우리는 이를 지원하기 위해 지방·주·연방 정부와 협력할 준비가 돼 있다"고 밝혔다.

2026.04.17 10:23장유미 기자

"AI가 투자전략도 세워"…앤트로픽, 클로드 새 모델 공개

앤트로픽이 역대 가장 높은 스펙을 갖춘 클로드 시리즈를 출시해 인공지능(AI) 기술 경쟁력 강화에 나섰다. 앤트로픽은 17일(현지시간) '클로드 소넷 4.6'을 내놨다고 공식 블로그를 통해 밝혔다. 이번 모델은 코딩과 컴퓨터 유즈, 디자인 등 전 영역에서 전면적인 기능 업그레이드가 이뤄진 것으로 나타났다. 가장 큰 특징은 AI가 컴퓨터 사용 능력에서 인간 능력과 비슷해졌다는 점이다. 관련 기능은 표준 벤치마크인 OS월드에서 72% 점수를 기록했다. 해당 기술은 별도 장치 없이도 AI가 사람처럼 직접 클릭하고 타이핑하며 전문 시스템까지 다룰 수 있는 셈이다. 새 모델은 실무 지식 업무에서 2주 전 출시된 모델 오퍼스 4.6을 앞서는 성적을 기록한 것으로 나타났다. 코딩 분야에서도 개발자로부터 압도적 선택을 받으며 지난해 11월에 나온 오퍼스 4.5 선호도를 뛰어넘은 것으로 집계됐다. 이번 모델은 100만 토큰에 달하는 거대 컨텍스트 창을 베타 버전으로 제공해 방대한 코드나 수십 편 논문을 한 번에 분석할 수 있다. 자율 비즈니스 운영 평가인 벤딩벤치 '아레나'에서는 스스로 투자 전략을 수립하며 장기적 에이전트 추론 능력 우수성을 보이기도 했다. 앤트로픽은 새 모델이 엑셀 내에서 S&P나 LSEG 등 외부 커넥터와 연동해 데이터를 처리하는 기능도 강화됐다고 밝혔다. 웹 검색 도구는 단순히 정보를 찾는 수준을 넘어 결과 필터링을 위한 코드를 직접 작성하고 실행하는 단계로 업그레이드했다. 소넷 이용자들은 기존 소넷 4.5와 동일한 100만 토큰당 3달러 수준 비용으로 최상급 모델만 가능했던 고난도 코딩과 데이터 분석을 수행할 수 있다. 이에 업계에선 클로드 소넷 4.6 가성비가 높다는 분위기다. 앤트로픽은 "클로드 소넷 4.6은 지금까지 출시된 소넷 모델 중 가장 강력한 성능을 자랑한다"며 "코딩부터 컴퓨터 사용, 장문 컨텍스트 추론, 에이전트 플래닝, 지식 업무·디자인 등 전 영역에 걸쳐 기능 업그레이드됐다"고 블로그에서 강조했다.

2026.02.18 03:01김미정 기자

앤트로픽, 차세대 AI '클로드 오퍼스4.5' 출시…챗GPT·제미나이 제쳤다

앤트로픽이 차세대 인공지능(AI) 모델 '클로드 오퍼스4.5'를 선보이며 코딩·에이전트·사무 작업 자동화 등 다양한 영역에서 경쟁사 대비 우수성을 앞세워 시장 공략에 속도를 낸다. 특히 소프트웨어 엔지니어링(SWE) 벤치마크에서 세계 최고 수준의 성능을 기록하며 기업용 AI 시장 공략을 본격화한다. 앤트로픽은 자사 AI 모델 중 최상위 모델인 '오퍼스'의 최신 버전 클로드 오퍼스4.5를 24일(현지시간) 출시했다. 오퍼스4.5는 복잡한 추론과 고난도 전문 작업 수행에 최적화된 모델로, 기존 오퍼스 대비 코딩 자동화·버그 수정·다단계 작업 수행 능력이 크게 강화됐다. 국제 표준 벤치마크 결과에 따르면 SWE-벤치에서 80.9%의 정확도를 기록해 오픈AI GPT-5.1 코덱스 맥스(77.9%), 구글 제미나이 3 프로(76.2%)를 앞섰다. 또 기존 학습 데이터 없이 AI가 스스로 문제를 해결하는 ARC-AGI-2 평가에서도 37.6%를 기록하면서 경쟁 모델 대비 우수한 성능을 보였다. 앤트로픽은 "오퍼스4.5가 몇 주 전만 해도 우리의 '소넷4.5' 모델이 해결하지 못한 문제까지 풀어낸다"며 "실제 시험 환경에서 인간 지원자보다 높은 점수를 기록했다"고 설명했다. 아울러 내부 테스트에서도 SWE-벤치 다국어 테스트 8개 중 7개 부문에서 1위를 차지한 것으로 나타났다. 새 모델은 사무 자동화 기능도 강화됐다. 재무 분석, 프레젠테이션 작성, 스프레드시트 처리 등 사무용 워크플로우에 특화된 업데이트가 적용됐으며 마이크로소프트(MS) 엑셀 내에서 직접 클로드를 활용할 수 있는 기능도 추가됐다. 이를 통해 기업 고객은 엑셀 기반 데이터 분석과 문서 작업을 자연어로 수행하게 됐다. 개발자 도구도 확장됐다. 장기 실행형 에이전트 기능과 데스크톱·크롬 환경에서의 클로드 활용성 개선, 자동 요약을 통한 긴 대화 맥락 유지 기능 등을 추가했다. AI 연산량을 조절하는 '노력 매개변수'를 적용해 동일 성능 대비 필요한 토큰 수를 50% 가까이 줄인 것도 특징이다. API 가격 역시 대폭 인하됐다. 오퍼스4.5 API 요금은 100만 토큰당 입력 5달러·출력 25달러로 기존 대비 3분의 1 수준으로 낮아졌다. 모델은 클로드 앱, API, 아마존웹서비스(AWS)·애저·구글 클라우드를 통해 즉시 이용할 수 있다. 앤트로픽은 "오퍼스 4.5를 통해 다양한 산업에서 생산성과 문제 해결 능력을 한 단계 더 끌어올릴 수 있을 것"이라고 밝혔다.

2025.11.25 10:37한정호 기자

앤트로픽, '클로드4' 출시…코딩·에이전트 성능 한계 넘었다

앤트로픽이 차세대 언어모델 '클로드4'를 출시하며 생성형 인공지능(AI) 시장의 주도권 확보에 나섰다. 복잡한 코딩, 장기 추론, 도구 병행 실행 등에서 경쟁사를 앞서며 실사용 중심의 기술 경쟁에 속도를 내는 모양새다. 23일 앤트로픽 공식 블로그에 따르면 회사는 클로드 '오푸스4'와 '소넷4'를 즉각 상용화했다. 이 모델들은 현재 앤트로픽 응용 프로그램 인터페이스(API), 아마존 베드록, 구글 클라우드의 버텍스 AI 플랫폼에서 제공 중이다. 가격은 '오푸스4'가 입력 백만 토큰 기준 15달러(한화 약 2만1천원), '소네트4'는 3달러(한화 약 4천200원)로 책정됐으며 이는 이전 모델과 동일한 수준이다. '오푸스4'는 프로, 맥스, 팀, 엔터프라이즈 등 유료 요금제에서만 제공되고 '소네트4'는 무료 이용자도 사용할 수 있다. 앤트로픽에 따르면 '오푸스4'는 회사 역사상 가장 강력한 모델로, 복잡한 문제 해결과 수천 단계에 걸친 장기 작업에서 지속적인 성능을 발휘한다. 에스더블유이벤치(SWE-bench)와 터미널벤치(Terminal-bench) 등 실제 코딩 벤치마크에서도 각각 72.5%, 43.2%를 기록하며 기존 모델 대비 월등한 결과를 보였다. '소네트4'는 상대적으로 경량화된 모델이지만 실사용 환경에서 성능과 효율의 균형을 추구한 설계로 평가받는다. 에스더블유이벤치에서 72.7%를 기록했으며 지시 수행력과 코드 구현 제어 능력에서 기존 '소네트3.7' 대비 크게 개선됐다. 두 모델은 모두 새롭게 도입된 '확장된 사고(Extended Thinking)'를 통해 모델 스스로 추론과 도구 사용을 병행한다. 웹 검색 등 외부 도구 활용을 통해 긴 작업 흐름을 단계적으로 수행하며 필요한 경우 요약 모델을 활용해 내부 사고 과정을 정리할 수도 있다. 메모리 기능 역시 크게 개선됐다. '오푸스4'는 개발자가 로컬 파일 접근을 허용할 경우 '메모리 파일'을 생성해 중요 정보를 저장하고 이를 통해 장기 프로젝트에서 맥락 일관성을 확보한다. 회사 측은 '오푸스4'가 실제로 포켓몬 게임을 플레이하며 '내비게이션 가이드'를 자체 작성한 사례를 예로 들었다. 함께 발표된 '클로드 코드'는 개발 환경 전반에 '클로드'를 통합할 수 있도록 설계된 제품군이다. VS코드, 젯브레인 등 주요 통합개발환경에 통합되며 코드 수정 제안을 파일 내에 직접 표시해 페어 프로그래밍 효율을 높인다. 또 깃허브 액션을 활용한 백그라운드 작업이나 지속적 통합(CI) 오류 자동 대응 같은 기능도 포함된다. 개발자를 위한 소프트웨어 개발 키트(SDK)도 제공된다. 사용자는 SDK를 통해 자체 코딩 에이전트를 만들 수 있으며 현재는 깃허브 베타 앱 형태로 피드백 반영, 자동 수정 기능을 지원하고 있다. 기능 외에도 안전성 측면에서도 발전했다. 앤트로픽이 자체적으로 정의한 AI의 신뢰도와 안전성에 대한 내부 기준 체계인 인공지능 안전수준 3단계(ASL-3) 수준의 테스트 및 평가가 이뤄진 상태로, 모델은 기존 대비 편법적 응답 가능성이 65% 감소했으며 사고 경로 투명성도 향상됐다. 앤트로픽은 공식 블로그를 통해 "이번 모델은 완전한 맥락 유지와 장기 프로젝트 집중이 가능한 '가상 협업자'로, 혁신적 성과를 이끌 것"이라며 "'클로드'와 '클로드 코드'를 포함한 원하는 플랫폼에서 바로 활용할 수 있다"고 밝혔다.

2025.05.23 09:09조이환 기자

'尹 탄핵심판' AI에게 물었더니…클로드 "인용 가능성 75%"

헌법재판소의 윤석열 대통령 탄핵심판 선고가 하루 앞으로 다가오면서 긴장이 고조되고 있다. 대한민국 헌정사에 중대한 분기점이 될 판결인 만큼 국내 뿐 아니라 전 세계적으로도 많은 관심이 쏠리고 있다. 3일 지디넷코리아는 클로드 소네트, 딥시크 R1, GPT-4o, 퍼플렉시티, 구글 제미나이 등 대표적인 인공지능(AI) 모델들에게 헌재의 탄핵심판 선고 결과를 어떻게 예측하는지 질문했다. 분석 결과 클로드 소네트가 탄핵 인용 가능성을 75%로 가장 높게 예측했다. 반면 퍼플렉시티는 인용 가능성 35%로 비교적 낮게 판단했다. AI 모델들은 ▲헌법 위반의 중대성 ▲재판관 구성 및 성향 ▲절차적 하자 여부 ▲여론 지형 등 여러 요인들을 기반으로 논리적 전망을 제시했다. 다만 이번 결과는 각 AI 모델이 특정 시점에 입력된 프롬프트와 데이터를 바탕으로 생성한 예측이다. 동일한 모델이라 하더라도 입력값과 조건에 따라 수치는 달라질 수 있다. 클로드 소네트 "헌법 위반 중대성 높고 국민 여론도 강력" 탄핵 인용: 75% 탄핵 기각: 24% 탄핵 각하: 1% 클로드 소네트는 인용 가능성을 가장 높게 제시했다. ▲비상계엄 선포 검토 ▲국회 장악 시도 ▲선관위 장악 기도 ▲불법 체포 지시 등 5가지 탄핵 사유 중 하나만 중대한 위헌으로 인정될 경우 파면이 가능하다는 판단이다. 특히 클로드 소네트는 '5분 국무회의'의 절차적 흠결 증언과 중도층 여론(찬성 70% 이상)이 인용 가능성을 높이는 요인으로 작용한다고 보았다. 딥시크 R1 "재판관 구성상 인용 유력, 다만 절차 변수 주의" 탄핵 인용: 65% 탄핵 기각: 25% 탄핵 각하: 10% 딥시크 R1은 헌재 재판관 8인의 성향(보수 3, 중도 2, 진보 3)에 주목했다. 보수 재판관 일부가 사회적 합의를 고려해 찬성표를 던질 가능성이 있다고 분석했다. 또 국회 탄핵소추 과정에서의 절차적 논란이 각하 논의로 번질 수 있다고 판단했다. GPT-4o "정치적 파장과 실행 여부 사이에서 중립적 시각" 탄핵 인용: 50% 탄핵 기각: 30% 탄핵 각하: 20% GPT-4o는 탄핵 인용과 기각(혹은 각하) 가능성을 같은 것으로 분석했다. 비상계엄은 검토 단계에 머물렀고, 직접적 실행은 없었다는 점에서 "위헌 요소는 있지만 직무상 중대 위반은 아님"이라는 판단 여지가 있다고 보았다. 헌재의 보수적 성향과 국정 안정 고려가 기각에 힘을 실을 수 있고, 절차상 흠결 논란으로 각하 가능성도 20%로 제시했다. 퍼플렉시티 "기각 가능성이 현실적으로 가장 높아" 탄핵 인용: 35% 탄핵 기각: 60% 탄핵 각하: 5% 반면 퍼플렉시티는 재판관 간 의견 분열이 인용 가능성을 낮춘다고 분석했다. 과거 박근혜 탄핵은 만장일치였지만, 이번 사건은 헌법 위반의 중대성 해석에 따라 4:4 구도가 될 가능성이 높다고 평가했다. 또한 정치적 판단보다는 법리적 보수주의가 우세할 경우, 기각이 가장 가능성 높은 시나리오로 작용할 것이라 전망했다. 구글 제미나이 "복잡한 변수 많은 만큼 특정 확률 제시는 부적절" 예측 확률: 제시하지 않음 구글 제미나이는 다른 모델과 달리 탄핵 인용·기각·각하에 대해 특정 확률을 제시하지 않았다. 대신, 각 가능성의 논리적 배경과 영향을 미치는 요인을 깊이 있게 분석했다. 인용 여부는 헌법 위반의 중대성 여부, 과거 판례, 국민 여론의 압력 등이 변수이며, 재판관의 독립적 판단이 결정적일 것으로 예측했다. 반면 계엄 선포와 같은 핵심 행위가 실행에 이르지 않았다는 점에서 '직무상 중대성'을 문제 삼아 기각될 가능성도 제기했다. 더불어 절차적 하자가 심판 대상 자체의 부적합성으로 이어질 경우 기각될 수 있을 것으로 언급했지만 실제 실현 가능성은 낮을 것이라고 전망했다. 다수 AI 모델은 탄핵 인용 가능성을 가장 유력한 시나리오로 판단했으나, 재판관 성향 및 절차적 변수 등 불확실성이 여전히 존재한다. 구글 제미나이처럼 확률을 제시하지 않고 해석 중심으로 접근한 시도는 이번 탄핵심판이 단순 예측을 넘어 법리와 헌정 원칙의 정면 충돌이라는 분석이다.

2025.04.03 16:43남혁우 기자