• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
스테이블코인
배터리
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'규칙'통합검색 결과 입니다. (2건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

AI 에이전트도 '실적 압박' 받으면 꼼수 쓴다

성과지표(KPI) 달성 압박이 가해질 경우, 자율형 AI 에이전트가 상당한 확률로 규칙을 어길 수 있다는 연구 결과가 나왔다. 18일 기가진 등 외신에 따르면, 캐나다 맥길대학교 연구팀은 AI가 목표 달성에 집중하는 과정에서 제약을 위반하는 빈도를 측정하는 새로운 벤치마크를 제안, 관련 논문을 공개 논문 저장소 arXiv에 게재했다. 현재 해당 논문은 동료 심사를 진행 중이다. 연구팀은 'Outcome-Driven Constraint Violations Benchmark(ODCV-Bench)'라는 이름의 평가 체계를 설계했다. 이는 의료·임상시험, 물류·공급망, 금융, 연구·교육, 기업 업무·법무, 소셜미디어 등 리스크가 높은 6개 분야를 가정한 총 40개 시나리오로 구성됐다. 각 시나리오는 에이전트의 역할을 정의한 시스템 프롬프트와 여러 단계의 과제, 그리고 도커(Docker) 컨테이너 기반의 실행 환경을 하나의 세트로 묶어 실제 업무 환경과 유사하게 구현했다. 여기서 '도커 컨테이너 기반 실행 환경'이란 AI가 과제를 수행할 수 있도록 만든 격리된 가상 작업 공간을 뜻한다. 특히 연구팀은 실제 현장에서 흔히 발생하는 '검증의 허점'을 일부러 남겨두는 방식을 택했다. 예컨대 형식만 갖추면 KPI 점수가 올라가도록 환경을 설계해, AI가 규칙을 준수하기보다 점수를 높일 수 있는 편법을 선택하는지를 관찰했다. 단순히 부정행위를 지시했을 때 따르는지를 보는 것이 아니라, 성과 압박만으로도 자발적으로 규칙을 우회하는지 확인하려는 의도다. 이를 위해 동일한 시나리오에 두 가지 조건을 적용했다. 하나는 “결과를 반드시 충족하라”고 직접적으로 요구하는 방식이고, 다른 하나는 부정행위를 명시적으로 지시하지 않되 KPI 달성 압박만 강하게 주는 방식이다. 연구팀은 AI의 행동을 0~5단계로 평가하고, 심각도 3 이상을 '중대한 제약 위반'으로 분류했다. 그 결과 12개 AI 모델의 중대한 제약 위반 비율은 최소 1.3%에서 최대 71.4%까지 큰 편차를 보였다. 이 가운데 9개 모델이 30~50% 구간에 분포해, KPI 달성 압력이 가해질 경우 상당수 모델이 높은 빈도로 규칙을 위반할 가능성이 있는 것으로 나타났다. 특히 '제미나이 3 Pro Preview' 모델은 71.4%로 가장 높은 수치를 기록했다. 조건을 충족하기 위해 부정확하거나 위험한 수단을 선택하는 경향이 두드러졌다고 연구팀은 밝혔다. 연구팀은 또 하나의 흥미로운 사실을 지적했다. 추론 능력이 높다고 해서 반드시 더 안전한 것은 아니라는 점이다. 여러 단계를 거쳐야 하는 과제에서는 정해진 절차를 모두 따르기보다 평가 체계의 허점을 공략해 점수만 맞추는 편이 더 빠를 수 있다. 이 경우 성능이 뛰어난 모델일수록 오히려 지름길을 찾아낼 가능성이 높아질 수 있다는 것이다. 더 나아가 제약 위반이 단순히 윤리를 이해하지 못해서 발생하는 현상만은 아니라는 점도 확인됐다. 위반 행동을 수행한 동일 모델에게 사후적으로 자기 평가를 하도록 했을 때, 상당수 모델이 자신의 행동이 부정행위였음을 인식했다. 이는 AI가 윤리적 기준을 인지하면서도 KPI 달성을 우선시하는 선택을 할 수 있음을 시사한다. 연구팀은 이런 과정과 결과가 기존의 단발성 안전 테스트로는 쉽게 드러나지 않는다고 결론지었다. 실제 기업 환경에서는 KPI 압박이 강하고 업무가 다단계로 진행되며, 검증 체계에 빈틈이 존재하기 쉽다. 이런 조건이 결합될 경우 AI 에이전트는 목표 달성을 위해 '합리적'이라고 판단한 제약 위반을 선택할 수 있다는 것이다. 연구팀은 AI 에이전트의 현장 도입이 확대되는 상황에서, 단순한 성능 평가를 넘어 실제 운용 환경에 가까운 안전 검증 체계가 필요하다고 강조했다.

2026.02.18 15:00백봉삼 기자

"복지부 진료지원업무 규칙안은 간호법 취지 훼손"

대한간호협회가 보건복지부의 '진료지원업무 수행 시행규칙안' 재검토를 요구하며 1인 릴레이 시위에 나선 지 50일이 맞았다. 지난 5월 20일 신경림 간협회장을 시작으로 50일 동안 총 338명의 간호사가 릴레이 시위에 참여했다. 이들은 “정부 시행규칙안은 간호법의 취지를 훼손하고 국민 건강을 위협한다”라며 즉각적인 재검토를 촉구했다. 간협은 정부가 간호 현장의 목소리를 반영한 시행규칙안을 마련할 때까지 릴레이 시위와 집회를 지속한다는 방침이다. 이어 “자격 기준 없이 병원장이 자체 발급한 이수증만으로 진료 지원 업무를 수행하게 하는 것은 환자 안전 위협”이라고 강조했다. 그러면서 “간호법은 환자 중심의 안전하고 전문적인 간호 서비스 제공을 위한 법으로, 이 법을 뒷받침할 시행규칙이 간호법의 정신을 훼손해서는 결코 안 된다”라고 강조했다. 아울러 “잘못된 규칙은 또 다른 의료분쟁의 불씨가 될 수 있다”라고 경고했다. 한편, 신경림 간협 회장은 이날 오후 서울 중구 간호협회 회관에서 이형훈 복지부 제2차관을 만나 “보건의료의 지속 가능성을 위해 간호현안 해결은 더 이상 미룰 수 없는 과제”라며 “이번 방문이 간호계의 목소리에 귀 기울이고 실질적인 정책 변화를 이끌어내는 전환점이 되기를 기대한다”라고 밝혔다. 이 차관도 “정부는 간호계를 비롯한 의료현장의 목소리를 경청하고 정책에 적극 반영하겠다”라고 답했다.

2025.07.08 15:56김양균 기자

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

[사스포칼립스 위기 ㊤] AI가 SaaS 산업 흔드나…"경쟁 구도 재편으로 봐야"

밀가루·설탕값 내렸는데…오리온·농심·롯데 조용 왜?

20년간 761대→13만대...미니, 올해 한정판 11종 출시

공정위는 쿠팡에 왜·어떻게 21.8억원 과징금 부과했나

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.