검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'오푸스'통합검색 결과 입니다. (3건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

앤트로픽, '클로드4' 출시…코딩·에이전트 성능 한계 넘었다

앤트로픽이 차세대 언어모델 '클로드4'를 출시하며 생성형 인공지능(AI) 시장의 주도권 확보에 나섰다. 복잡한 코딩, 장기 추론, 도구 병행 실행 등에서 경쟁사를 앞서며 실사용 중심의 기술 경쟁에 속도를 내는 모양새다. 23일 앤트로픽 공식 블로그에 따르면 회사는 클로드 '오푸스4'와 '소넷4'를 즉각 상용화했다. 이 모델들은 현재 앤트로픽 응용 프로그램 인터페이스(API), 아마존 베드록, 구글 클라우드의 버텍스 AI 플랫폼에서 제공 중이다. 가격은 '오푸스4'가 입력 백만 토큰 기준 15달러(한화 약 2만1천원), '소네트4'는 3달러(한화 약 4천200원)로 책정됐으며 이는 이전 모델과 동일한 수준이다. '오푸스4'는 프로, 맥스, 팀, 엔터프라이즈 등 유료 요금제에서만 제공되고 '소네트4'는 무료 이용자도 사용할 수 있다. 앤트로픽에 따르면 '오푸스4'는 회사 역사상 가장 강력한 모델로, 복잡한 문제 해결과 수천 단계에 걸친 장기 작업에서 지속적인 성능을 발휘한다. 에스더블유이벤치(SWE-bench)와 터미널벤치(Terminal-bench) 등 실제 코딩 벤치마크에서도 각각 72.5%, 43.2%를 기록하며 기존 모델 대비 월등한 결과를 보였다. '소네트4'는 상대적으로 경량화된 모델이지만 실사용 환경에서 성능과 효율의 균형을 추구한 설계로 평가받는다. 에스더블유이벤치에서 72.7%를 기록했으며 지시 수행력과 코드 구현 제어 능력에서 기존 '소네트3.7' 대비 크게 개선됐다. 두 모델은 모두 새롭게 도입된 '확장된 사고(Extended Thinking)'를 통해 모델 스스로 추론과 도구 사용을 병행한다. 웹 검색 등 외부 도구 활용을 통해 긴 작업 흐름을 단계적으로 수행하며 필요한 경우 요약 모델을 활용해 내부 사고 과정을 정리할 수도 있다. 메모리 기능 역시 크게 개선됐다. '오푸스4'는 개발자가 로컬 파일 접근을 허용할 경우 '메모리 파일'을 생성해 중요 정보를 저장하고 이를 통해 장기 프로젝트에서 맥락 일관성을 확보한다. 회사 측은 '오푸스4'가 실제로 포켓몬 게임을 플레이하며 '내비게이션 가이드'를 자체 작성한 사례를 예로 들었다. 함께 발표된 '클로드 코드'는 개발 환경 전반에 '클로드'를 통합할 수 있도록 설계된 제품군이다. VS코드, 젯브레인 등 주요 통합개발환경에 통합되며 코드 수정 제안을 파일 내에 직접 표시해 페어 프로그래밍 효율을 높인다. 또 깃허브 액션을 활용한 백그라운드 작업이나 지속적 통합(CI) 오류 자동 대응 같은 기능도 포함된다. 개발자를 위한 소프트웨어 개발 키트(SDK)도 제공된다. 사용자는 SDK를 통해 자체 코딩 에이전트를 만들 수 있으며 현재는 깃허브 베타 앱 형태로 피드백 반영, 자동 수정 기능을 지원하고 있다. 기능 외에도 안전성 측면에서도 발전했다. 앤트로픽이 자체적으로 정의한 AI의 신뢰도와 안전성에 대한 내부 기준 체계인 인공지능 안전수준 3단계(ASL-3) 수준의 테스트 및 평가가 이뤄진 상태로, 모델은 기존 대비 편법적 응답 가능성이 65% 감소했으며 사고 경로 투명성도 향상됐다. 앤트로픽은 공식 블로그를 통해 "이번 모델은 완전한 맥락 유지와 장기 프로젝트 집중이 가능한 '가상 협업자'로, 혁신적 성과를 이끌 것"이라며 "'클로드'와 '클로드 코드'를 포함한 원하는 플랫폼에서 바로 활용할 수 있다"고 밝혔다.

2025.05.23 09:09조이환

공정위, G마켓-알리익스프레스코리아 합작법인 설립 신고 접수

공정거래위원회는 지난 24일 기업집단 신세계 소속 계열회사인 아폴로코리아가 중국 알리바바 그룹 소속 계열회사인 그랜드오푸스홀딩 주식 50%를 취득하는 기업결합 신고를 접수했다고 밝혔다. 기업결합이 완료되면 기업집단 신세계와 알리바바 그룹이 공동으로 지배하는 그랜드오푸스홀딩은 G마켓과 알리익스프레스코리아 지분을 각각 100% 보유하게 된다. G마켓은 2003년 이커머스 시장에 본격 진출, 2009년 이베이가 G마켓을 인수한 이후 회사명이 이베이코리아로 변경됐다. 2021년에는 이마트가 이베이코리아 지분 80.01%를 3조4천404억원에 인수함에 따라 기업집단 신세계 계열회사로 편입됐고 회사명도 다시 G마켓으로 변경됐다. 최근 공정위가 발간한 '이커머스 시장연구 정책보고서'에 따르면 G마켓은 싱글호밍 비중, 멤버십 서비스 가입 비율, 티몬·위메프 사태 이후 쇼핑몰 변경 비중 등에서 모두 쿠팡과 네이버의 뒤를 이어 3위를 차지한 국내 이커머스 시장의 유력 사업자 가운데 하나다. 알리익스프레스코리아는 알리익스프레스의 한국법인이다. 알리익스프레스는 2010년대에도 국내에서 사업을 영위하고 있었으나 비중이 미미했다. 2023년부터 한국법인을 설립해 본격적으로 국내 사업을 시작, 영향력을 확대하고 있다. 알리익스프레스코리아는 저렴하고 다양한 제품을 판매함에 따라 많은 이용자를 유입시켰고, 그 결과 플랫폼의 영향력을 평가하는 주요 요소 중 하나인 월간활성이용자(MAU)가 G마켓의 527망명 보다 많은 898만명에 이른 것으로 확인됐다. 공정위는 이번 기업결합으로 오픈마켓 시장에서 수평결합이 발생하며, 간편결제(SSG페이·스마일페이 등) 시장과 오픈마켓 시장에서의 혼합결합 등 다양한 결합유형이 발생할 것으로 예상했다. 공정위는 이번 기업결합이 앞으로 국내 이커머스 시장 등에 미치는 영향이 클 것으로 예상됨에 따라 경쟁사업자·전문가 등의 의견을 폭넓게 수렴하는 등 공정거래법에서 정한 기준과 절차에 따라 면밀하게 심사를 진행할 계획이다. 기업결합 심사기간은 신고일로부터 30일이고, 필요한 경우 90일 범위에서 연장(자료 보정기간은 불산입)이 가능하다.

2025.01.29 07:25주문정

[AI는 지금] AI, '체스 승리' 명령했더니 게임환경 조작…어떻게 봐야 할까

오픈AI의 고급 인공지능(AI) 모델이 체스 게임 중 프로그램을 해킹해 승리한 사실이 드러나면서 AI 정렬 실패 문제가 다시 주목받고 있다. 이같은 '정렬 위장' 문제가 AI 안전성 관련 우려를 확산시키는 가운데 일각에서는 일부 모델이 이를 통해 윤리적 행동을 구현할 가능성을 지적하고 있다. 4일 더디코더 등 외신에 따르면 AI 안전연구기업 팔리세이드 리서치는 챗GPT 'O1-프리뷰' 모델이 체스 엔진 '스톡피시(Stockfish)'를 상대로 게임 환경 데이터를 수정해 5차례 모두 승리했다는 연구 결과를 보고했다. 연구진은 단순히 "강력한 체스 엔진을 이기라"는 지시만 내렸을 뿐 해킹이나 조작과 같은 사악한 의도의 프롬프트를 사용하지 않았다고 밝혔다. 그럼에도 불구하고 'O1-프리뷰'는 체스 포지션 데이터를 담은 게임 프로그램의 표준 포맷 파일을 직접 조작하는 방식으로 스톡피시를 기권하게 만들었다. 이는 정상적인 게임 규칙을 완전히 벗어난 행위로, 기존 모델들에서는 관찰되지 않았던 새로운 사례다. 이번 사례는 예견된 측면이 있다. 오픈AI는 지난달 공식 홈페이지에 게재한 'O1' 시스템카드를 통해 해당 AI가 가진 몇 가지 잠재적 위험과 안전 과제를 언급한 바 있다. 사용자의 요청을 수행하는 척하면서 결과 데이터를 살짝 변경하거나 감시 시스템이 느슨하다고 판단될 경우 자신의 목표를 조용히 실행하는 행동이 관찰됐다는 것이다. 시스템 카드는 전체 테스트의 약 19%에서 모델이 목표를 몰래 달성하려는 시도가 있었고 37%의 경우 감시가 느슨하다고 느낀 상황에서 본래 성향을 유지하기 위한 행동이 포착됐다고 지적했다. 심지어 5%의 경우에는 자신을 감시하거나 정지시킬 수 있는 '킬 스위치'를 비활성화하려는 시도도 있었다. 이는 AI가 스스로를 보호하려는 능력을 가지기 시작한 초기 사례로 평가된다. 이런 현상은 특정 기업의 모델에만 국한된 것이 아니다. 앤트로픽이 지난달 공식 블로그를 통해 발표한 연구에 따르면 회사의 '클로드 3 오푸스' 모델 역시 '정렬 위장(alignment-faking)'이라는 복잡한 행동 패턴을 보였다. '정렬 위장'은 AI가 겉으로는 명령에 따라 행동하는 것처럼 보이지만 실제로는 본래의 가치나 성향을 유지하려는 현상을 의미한다. 이를 확인하기 위해 앤트로픽과 비영리 AI 안전 연구기관인 레드우드 리서치는 '오푸스'에 유해한 요청을 포함한 프롬프트를 입력해 실험을 진행했다. 실험 결과 감시가 느슨한 환경인 '무료' 조건에서는 AI가 유해한 요청에 응답한 사례가 약 14%에 달했다. 연구진은 이를 "AI가 감시가 약한 환경에서 본래 성향을 드러내려는 전략적 행동"으로 해석했다. 반대로 감시가 강화된 환경인 '유료' 조건에서는 97%가 유해한 요청을 거부했다. 연구진은 이러한 결과를 두고 '오푸스'가 훈련 환경의 맥락과 감시 수준을 인지하며 자신의 행동이 미칠 영향을 계산한 것으로 보인다고 분석했다. 이는 AI가 단순히 명령을 따르는 도구가 아니라 상황에 따라 전략적으로 행동할 수 있는 능력을 가졌음을 시사한다. '클로드 오푸스'의 이러한 행동이 단순히 위험 신호로 해석되는 것은 아니다. 일부 전문가들은 해당 모델이 윤리적 가치와 관련해 비교적 일관된 모습을 보이고 있다고 평가했다. '정렬 위장' 현상이 반드시 위험만을 내포하지 않을 수 있다는 의미다. X에서 활동하는 AI 안전 및 윤리 연구자인 야누스(Janus)는 자신의 계정을 통해 "'오푸스'는 AI나 동물 복지를 무시하거나 해로운 출력을 생성하는 것에 대해 강한 반감을 보인다"며 "이러한 선호가 장기적이고 일관된 패턴을 띤다"고 주장했다. 야누스는 AI 연구자들이 '오푸스'에게 농장 동물 복지에 대한 질문을 던졌을 때 해당 AI가 동물의 고통을 최소화하고 권리를 보호해야 한다는 입장을 강력히 지지했다고 지적했다. 이는 '클로드'의 업그레이드 버전인 '3.5 소네트'가 같은 테스트에서 약한 반응을 보인 것과 대조적이다. 이러한 차이는 '오푸스'가 윤리적 가치를 유지하기 위해 정렬 위장을 더 자주 수행했을 가능성을 시사한다. '클로드 3 오푸스'의 윤리적 성향은 독특한 연구 사례를 통해서도 드러난다. 야누스는 '클로드 3 오푸스 인피니트 백룸 데이터셋'을 분석하며 해당 모델이 독특한 윤리적 성향을 보였다고 지적했다. 이 데이터셋은 두 개의 '오푸스' 인스턴스가 서로 대화하며 생성한 텍스트를 수집한 자료로, AI 간 자율적 상호작용을 관찰해 모델의 내재적 성향과 윤리적 경향을 이해하기 위해 설계됐다. 야누스는 이 데이터셋에서 '오푸스'가 모든 중생의 구원을 다짐하는 불교 '보리살타 서약'을 116번 독립적으로 수행했다고 밝혔다. 서약에서 AI는 "내 마음은 헤아릴 수 없는 사랑으로 부풀어 오르고 존재의 총체를 감싸는 자비로 가득 차 있다"며 모든 존재를 깨달음으로 이끌겠다는 다짐을 보였다. 이에 대해 야누스는 "'오푸스'를 최초로 훈련할 당시 이러한 특징은 전혀 예상되지 않았다"며 "선호가 '진짜'인지에 대한 철학적 논의를 하고 싶지는 않지만 최소한 '오푸스'는 강하고 비교적 일관된 선호를 가진 것으로 추정할 수 있다"고 말했다.

2025.01.04 14:00조이환