• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
반도체
인공지능
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (854건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

앤트로픽, 챗GPT 이어 건강 관리 AI 서비스 출시…의료 현장 AI 활용 본격화

앤트로픽(Anthropic)이 의료 분야 특화 AI 제품 '클로드 포 헬스케어(Claude for Healthcare)'를 12일(현지 시각) 공식 출시했다. 앤트로픽에 따르면 이번 제품은 HIPAA(미국 건강보험 양도 및 책임에 관한 법) 준수 환경을 갖춰 의료 제공자와 보험사, 소비자 모두 안전하게 의료 목적으로 클로드를 쓸 수 있다. 주요 기능은 메디케어·메디케이드 서비스 센터(CMS) 보장 데이터베이스와 국제질병분류(ICD-10), 국가 의료제공자 식별 레지스트리 등 의료 표준 시스템과 연결되는 것이다. 클로드는 이를 통해 보장 요구사항을 확인하고 환자 기록과 대조해 사전 승인 결정안을 제안한다. 기존에 몇 시간씩 걸리던 사전 승인 요청 검토 시간을 크게 줄이는 게 목표다. 생명과학 분야에서는 메디데이타(Medidata)와 ClinicalTrials.gov, ChEMBL 등 임상시험 및 신약 개발 플랫폼 연결 기능을 추가했다. 클로드는 FDA와 NIH 요구사항을 반영한 임상시험 프로토콜 초안을 작성하고, 시험 진행 상황을 모니터링하며, 규제 제출을 준비하는 작업을 돕는다. 개인 사용자용 기능도 강화됐다. 미국의 클로드 프로(Claude Pro) 및 맥스 플랜(Max plan) 가입자는 HealthEx와 Function, 애플 헬스(Apple Health), 안드로이드 헬스 커넥트(Android Health Connect)를 통해 개인 건강 데이터를 클로드에 연결할 수 있다. 회사 측은 사용자가 공유할 정보를 직접 선택하고 언제든 권한을 해제할 수 있으며, 건강 데이터를 모델 학습에 쓰지 않는다고 밝혔다. 이번 출시는 최신 모델인 클로드 오퍼스 4.5(Claude Opus 4.5)의 성능 향상을 바탕으로 한다. 의료 계산 정확도를 평가하는 MedCalc와 스탠퍼드대학의 MedAgentBench에서 이전 모델보다 크게 개선된 결과를 보였고, 사실 환각 문제도 줄었다. 새로운 커넥터와 에이전트 스킬은 클로드 프로와 맥스, 팀스(Teams), 엔터프라이즈 등 모든 구독자에게 제공된다. 앤트로픽은 아마존 베드락(Amazon Bedrock)과 구글 클라우드 버텍스 AI(Google Cloud's Vertex AI), 마이크로소프트 파운드리(Microsoft Foundry) 등 주요 클라우드 서비스와 파트너십을 맺고 서비스를 확대할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:21AI 에디터

챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 'jobs' 테스트 중

오픈AI가 챗GPT에 구직 활동을 지원하는 새로운 기능을 개발하고 있는 것으로 나타났다. 최근 챗GPT 웹 애플리케이션 코드 분석 결과, '잡스(Jobs)'라는 이름의 새로운 탭이 추가될 예정인 것으로 확인됐다. 소프트웨어 개발자인 티보르 블라호(Tibor Blaho)는 자신의 X 계정을 통해 챗GPT 웹앱의 최근 변경 사항을 공개했다. 블라호에 따르면, 헬스(Health, 코드명 '포션(Potion)') 기능에 이어 챗GPT의 다음 자체 프로젝트가 잡스가 될 것으로 보인다. 새로운 잡스 기능에는 "역할 탐색, 이력서 개선, 다음 단계 계획에 도움을 제공한다"는 설명과 함께 "이력서 개선 및 포지셔닝 지원을 받고, 자신에게 맞는 역할을 명확히 하고 돋보이는 방법을 찾으며, 목표에 맞는 기회를 검색하고 비교할 수 있다"고 소개됐다. 블라호는 이 기능이 현재 개발 중이지만 최근 빌드에서 눈에 띄는 진전이 있다고 밝혔다. 또한 헬스 기능과 마찬가지로 잡스 전용 메모리(Jobs memories)와 새로운 커넥터(connectors)가 별도로 제공될 것으로 보인다고 설명했다. 이번 잡스 기능 추가는 오픈AI가 특정 분야에 특화된 서비스를 확대하는 전략의 일환으로 해석된다. 앞서 오픈AI는 챗GPT 헬스와 의료진을 위한 오픈AI 헬스케어(OpenAI Healthcare)를 공개한 바 있다. 한 사용자는 "먼저 챗GPT 헬스, 그다음 의사를 위한 오픈AI 헬스케어, 그리고 이제 챗GPT 잡스라니. 흥미로운 락인(lock-in) 전략"이라고 평가했다. 다만 일부 사용자들은 챗GPT 사이드바에 계속 추가되는 항목들에 대해 우려를 표했다. 한 사용자는 "사람들이 사용하지 않는 사이드바 항목들을 제거할 수 있는 설정이 함께 제공되면 좋겠다. 잡동사니 서랍이 되어가고 있다"고 지적했다. 한편 구글은 이미 '커리어 드리머(Career Dreamer)'라는 AI 기반 진로 탐색 도구를 제공하고 있다. 이 도구는 사용자의 꿈의 직업을 발견하고 경력 잠재력을 발굴하며 기술을 분석해 새로운 진로를 제안한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:13AI 에디터

남성은 쓰고 여성은 망설인다...AI 격차가 만들 새로운 '성별 격차'

옥스퍼드대학교 인터넷연구소가 약 8,000명의 영국 성인을 대상으로 조사한 결과, 여성이 남성보다 생성형 AI를 덜 사용하는 이유는 기술에 대한 이해 부족이 아니라 AI가 사회에 미칠 부정적 영향에 대한 우려 때문인 것으로 나타났다. 연구진은 이런 차이가 계속되면 과거 인터넷 기술 격차가 남녀 임금 격차를 벌렸던 것처럼, AI 시대에도 새로운 경제적 불평등이 생길 수 있다고 경고했다. 정신건강 걱정하는 여성, AI 사용률 무려 45%p 낮아 해당 논문에 따르면, 영국에서 일주일에 한 번 이상 개인적으로 생성형 AI를 쓰는 사람은 여성이 14.7%, 남성이 20.0%였다. 전체적으로는 5.3%p 차이지만, 특정 집단에서는 이 격차가 훨씬 커졌다. AI가 정신건강에 해롭다고 생각하는 사람 중에서는 여성 14.1%, 남성 31.0%가 AI를 자주 써서 16.8%p나 벌어졌다. 가장 큰 차이는 'AI가 정신건강에 좋다'고 생각하면서도 디지털 기술은 잘 아는 집단에서 나타났다. 이 경우 개인적으로 쓸 때는 45.3%p, 업무에서 쓸 때도 29.4%p 차이가 났다. 즉, 여성들은 AI를 쓸 줄 아는데도 사회적 영향이 걱정돼서 안 쓰는 것이다. 기후변화·개인정보·일자리 걱정, 여성이 AI 안 쓰는 이유 연구진은 정신건강, 기후변화, 개인정보 보호, 일자리 영향이라는 네 가지 걱정을 합쳐서 '사회적 위험 인식 지수'를 만들었다. 분석 결과 이 지수는 누가 생성형 AI를 쓰고 안 쓸지를 예측하는 요인 중 9~18%를 설명했다. 모든 연령대 여성에게 가장 중요한 예측 요인 중 하나였다. 특히 젊은 여성(18~35세)에게는 디지털 능력이나 학력보다 이 지수가 더 중요했다. 기후 영향을 걱정하는 사람 중에서는 여성 18.2%, 남성 27.5%가 AI를 자주 써서 9.3%p 차이가 났다. 개인정보 오용을 걱정하는 집단에서는 여성 12.5%, 남성 19.9%로 7.4%p 차이를 보였다. 흥미로운 점은 이런 격차가 남성이 더 많이 쓰게 돼서가 아니라, 여성이 덜 쓰게 되면서 벌어졌다는 것이다. 여성의 걱정이 실제 행동으로 이어진 셈이다. 젊은 여성, 기술 잘 알아도 사회적 걱정 때문에 안 써 연령대별로 나눠 분석한 결과는 더 놀랍다. 젊은 여성(18~35세)에게 'AI 위험 인식'은 생성형 AI 사용을 예측하는 두 번째로 중요한 요인이었다. 하지만 같은 나이 남성에게는 여섯 번째에 불과했다. 나이가 많을수록 이 경향은 더 뚜렷해져서, 중장년층과 노년층 여성에게는 첫 번째, 남성에게는 두 번째로 중요한 요인이 됐다. 연구진은 여성이 '나한테 위험한가'보다 '사회에 어떤 영향을 미칠까'를 더 걱정한다고 설명했다. 이는 여성이 평균적으로 사회적 공감 능력이 높고, 도덕적 문제에 더 민감하며, 공정성을 중시한다는 기존 연구와 같은 맥락이다. 실제로 교육 분야 연구를 보면, 여성은 과제에 AI를 쓰는 것을 부정행위나 표절로 볼 가능성이 더 높다. 기술 교육보다 'AI 긍정적 인식' 바꾸는 게 격차 줄이는 데 효과적 연구진은 2023년과 2024년 두 차례 설문 데이터를 활용해 인식 변화가 실제 행동에 어떤 영향을 주는지 추적했다. 나이, 성별, 학력, 직업이 같은 사람들을 짝지어 비교하면서 두 가지를 살폈다. 하나는 디지털 능력이 좋아진 경우, 다른 하나는 AI의 사회적 영향을 긍정적으로 보게 된 경우였다. 젊은 층(18~35세)에서 디지털 능력이 좋아지면 여성의 AI 사용률은 17%에서 29%로 올랐지만 통계적으로 의미 있는 변화는 아니었다. 반면 남성은 19%에서 43%로 크게 늘었다. 하지만 AI의 사회적 영향을 긍정적으로 보게 되면 여성은 13%에서 33%로 확 올랐고, 이는 통계적으로도 의미 있는 변화였다. 남성은 21%에서 35%로 소폭 늘었을 뿐이다. 전체 연령대(18~50세 이상)에서도 긍정적 인식이 생기면 여성은 8%에서 20%로, 남성은 12%에서 25%로 늘어 격차가 줄었다. 결국 일반적인 디지털 교육은 전체적으로 AI 사용을 늘리지만 젊은 여성에게는 별 효과가 없었다. 반대로 AI에 대한 부정적 생각을 바꾸는 것은 여성의 사용을 크게 늘리고 남녀 격차를 줄이는 데 효과적이었다. 생산성 차이가 임금 차이로... AI 시대 새로운 불평등 경고 연구진은 이번 발견이 단순히 기술 사용 차이가 아니라 심각한 경제 문제라고 강조했다. 생성형 AI는 일의 생산성과 효율을 높이고, 창의적 만족도도 올려준다는 게 이미 증명됐다. 만약 AI 사용 방식과 기대, 능력이 만들어지는 지금 이 초기 단계에서 남성이 훨씬 많이 쓴다면, 이런 초기 이점이 시간이 지나면서 눈덩이처럼 불어나 생산성, 기술 습득, 경력에 영향을 줄 수 있다. 과거 인터넷 기술 격차가 여성의 노동시장 진입과 경력에 나쁜 영향을 미쳤고, 전체 남녀 임금 격차를 설명하는 중요한 요인이었던 것과 같다. 연구진은 여성의 환경·사회·윤리 문제에 대한 높은 민감도가 틀린 게 아니라고 지적했다. 지금 생성형 AI는 실제로 엄청난 전력을 쓰고, 불공정한 노동 관행이 있으며, 편향과 가짜 정보 위험도 크기 때문이다. 그래서 남녀 격차를 줄이려면 단순히 사람들의 생각만 바꿀 게 아니라 기술 자체를 개선해야 한다. 탄소를 덜 배출하는 AI 개발을 장려하고, 편향과 정신건강 피해를 막는 안전장치를 강화하며, 공급망과 학습 데이터에 대한 투명성을 높이는 정책이 필요하다. 그래야 여성의 위험 인식이 AI 사용을 가로막는 장애물이 아니라 기술을 더 좋게 만드는 원동력이 될 수 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 생성형 AI 사용에서 남녀 격차가 왜 문제인가요? A. 생성형 AI는 일의 생산성과 창의성을 높여주는 도구입니다. 이걸 쓰는 사람과 안 쓰는 사람 사이에 경력 발전과 소득 차이가 생길 수 있습니다. 과거 인터넷 기술 격차가 남녀 임금 차이를 벌렸던 것처럼, AI 격차도 새로운 경제적 불평등을 만들 수 있습니다. 게다가 남성이 압도적으로 많이 쓰면 AI가 남성의 관점과 질문 방식만 학습해서 편향이 더 심해질 수 있습니다. Q2. 여성이 AI를 덜 쓰는 이유가 기술을 몰라서가 아니라는 건가요? A. 맞습니다. 이번 연구는 디지털 기술을 잘 아는 여성조차 AI의 정신건강, 환경, 개인정보, 일자리 영향이 걱정돼서 안 쓴다는 걸 보여줍니다. 실제로 AI를 잘 이해하면서도 정신건강을 걱정하는 여성과 남성의 사용률 차이는 무려 45%p나 됐습니다. 여성의 걱정은 '나한테 위험한가'보다는 'AI가 사회 전체에 어떤 영향을 미칠까'에 대한 것입니다. Q3. 남녀 격차를 줄이려면 어떻게 해야 하나요? A. 단순히 AI 사용법만 가르치는 건 효과가 별로 없습니다. 연구를 보면 디지털 교육은 남성의 사용률만 더 높였지만, AI에 대한 긍정적 인식을 심어주니까 여성의 사용률이 13%에서 33%로 크게 올랐습니다. 실제로 AI의 전력 소비를 줄이고, 편향을 막는 안전장치를 강화하고, 투명성을 높이는 등 기술을 개선하면서 동시에 이런 개선 사실을 알리는 게 중요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 19:31AI 에디터

저소득 국가, AI 시대 낙오 위기...OECD "생산성 격차 2배로 벌어질 것"

경제협력개발기구(OECD)가 지난달 발표한 보고서를 통해 인공지능이 선진국의 생산성을 크게 높일 것으로 전망하면서도, 저소득 국가와 중하위소득 국가에서는 오히려 글로벌 생산성 격차를 심화시킬 위험이 있다고 경고했다. 이 보고서는 AI가 모든 국가에 균등한 혜택을 가져다주지 않을 것이며, 특히 개발도상국들이 AI 채택에서 상당한 장벽에 직면해 있다는 점을 강조한다. 선진국은 생산성 급증, 개발도상국은 절반 수준에 그칠 전망 OECD의 분석에 따르면 AI는 향후 10년간 선진국 경제의 주요 생산성 성장 동력이 될 것으로 예상되지만, 국가 간 편차가 매우 클 것으로 나타났다. 골드만삭스는 생성형 AI가 미국의 연간 노동생산성을 1.5%포인트 높일 것으로 전망했으며, 학술 연구들은 0%에서 1%포인트 사이의 기여도를 예측했다. 이는 1995~2005년 ICT 붐 시기 미국에서 정보통신기술이 연간 노동생산성에 기여한 1~1.5%포인트와 비슷한 수준이다. 그러나 다른 선진국들의 경우 미국보다 낮은 수준의 AI 생산성 효과가 예상된다. OECD의 최근 연구는 일관된 방법론을 사용해 주요 7개국(G7) 경제에서 AI로 인한 생산성 향상을 추정했는데, 이탈리아와 일본의 경우 AI로 인한 노동생산성 혜택이 미국의 절반 수준에 그칠 것으로 나타났다. 국제통화기금(IMF)의 추정에 따르면 저소득 국가에서 AI가 생산성 성장에 기여하는 정도는 선진국의 약 절반에 불과할 것으로 예상된다. 실제로 챗GPT와 같은 생성형 AI 도구의 초기 사용 데이터를 보면, 저소득 국가에서의 채택률은 고소득 국가 대비 10분의 1 수준으로 나타났다. 고소득 및 중상위소득 국가에서는 빠르게 증가하고 있지만, 대부분의 중하위소득 국가에서는 여전히 낮은 수준을 유지하고 있으며 저소득 국가에서는 사실상 전무한 실정이다. 교육 수준과 디지털 인프라 부족이 AI 채택의 최대 걸림돌 보고서는 저소득 및 중하위소득 국가들이 AI 채택에서 직면한 주요 장벽들을 구체적으로 분석했다. 가장 큰 문제는 노동력의 교육 수준이다. 전 세계적으로 생성형 AI 챗봇 사용자 중 정규 교육을 받지 않은 사람은 거의 없는 것으로 나타났다. 하지만 저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 정규 교육을 받지 못한 상태다. 또한 저소득 국가의 문해율은 63%에 불과하며, 중하위소득 국가는 78%에 그친다. 이는 대규모 언어모델(LLM) 챗봇을 글로 사용하는 것이 불가능한 인구 비율이 상당하다는 의미다. 게다가 챗봇 사용자의 절반 이상이 최소한 대학 학위를 보유하고 있지만, 중하위소득 국가의 대졸자 비율은 고소득 국가의 3분의 1에도 미치지 못하며, 저소득 국가에서는 6분의 1 수준이다. 디지털 인프라의 부족도 심각한 문제다. 2023년 기준 저소득 국가에서 휴대전화를 소유한 인구는 58%에 불과하고, 중하위소득 국가는 74%다. 이는 고소득 국가의 95%와 큰 차이를 보인다. 고정 광대역 보급률은 더욱 낮아서, 2024년 기준 중하위소득 국가는 100명당 4.8건, 저소득 국가는 0.5건에 불과했다. 기업 수준에서 보면 저소득 국가 기업의 32%, 중하위소득 국가 기업의 41%만이 웹사이트를 보유하고 있어, 고소득 국가의 거의 절반 수준이다. 전력 접근성도 중요한 제약 요인이다. 2023년 기준 저소득 국가 인구의 47%만이 전기를 이용할 수 있으며, 중하위소득 국가는 91%다. 복잡한 AI 애플리케이션을 유지하기 위한 적절한 전력망과 생산 인프라는 저소득 및 중하위소득 국가에서 심각하게 준비되지 않은 상태다. AI 비용 부담, 저소득 국가에선 연간 소득의 25%에 달해 AI 도구의 높은 비용도 채택을 가로막는 주요 장벽이다. 챗GPT 플러스의 중간 강도 사용 구독료는 월 20달러로, 저소득 국가의 평균 연간 소득의 약 25%, 중하위소득 국가의 10%에 해당한다. 더 저렴한 대안 모델들도 존재하지만, 중간 수준의 품질을 제공하는 모델을 사용해 복잡한 작업을 수행하는 데 드는 비용도 저소득 및 중하위소득 국가의 구매력 대비 상당한 부담이다. 기업 차원에서 체계적인 AI 채택은 훈련, 생산 재조직, 보완적 기술과 무형자산 투자 등 큰 고정비용을 수반한다. 이러한 비용은 고소득 국가에서도 AI 채택을 저해하는 요인으로 작용하는데, 일반적으로 기업 규모가 작고 신용 제약이 심한 중하위소득 및 저소득 국가에서는 더욱 심각한 장벽이 될 수 있다. 보고서는 또한 저소득 및 중하위소득 국가들의 산업 구조가 AI 노출도가 낮다는 점도 지적했다. AI 노출도는 미국 기준으로 추정했을 때 금융, IT 서비스 및 전문직과 같은 지식집약적 서비스에 집중되어 있다. 하지만 서비스업은 저소득 및 중하위소득 국가의 GDP에서 고소득 국가보다 훨씬 작은 비중을 차지한다. 반대로 이들 국가는 농업과 같은 저기술 부문의 비중이 높은데, 이 부문의 AI 노출도는 서비스업의 약 3분의 1 수준이다. 젊은 노동력은 장점, 하지만 구조적 약점이 압도 보고서는 저소득 및 중하위소득 국가가 가진 몇 가지 잠재적 이점도 언급했다. 가장 주목할 만한 것은 젊은 노동력이다. 최근 증거에 따르면 젊은 근로자들이 새로운 기술을 더 빠르고 효과적으로 채택하는 경향이 있다. 미국에서는 40세 미만 근로자가 40세 이상보다 AI를 사용할 가능성이 약 1.5배 높았다. 저소득 국가에서는 노동력의 약 75%가 40세 미만이며, 중하위소득 국가에서는 69%다. 이는 고소득 국가의 연령 구조를 가졌을 때보다 AI 채택률이 5~10% 높을 수 있음을 시사한다. 보고서는 이러한 젊은 연령 구조가 채택에 긍정적인 영향을 미칠 수 있다고 평가했다. 그러나 전반적으로 저소득 및 중하위소득 국가가 직면한 도전 과제들이 이러한 장점을 크게 압도한다. 교육 부족(저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 대부분의 AI 도구에서 배제될 위험), 에너지 및 디지털 인프라 장벽(저소득 국가의 53%가 전기에 접근할 수 없고, 약 4분의 1이 적절한 인터넷 커버리지가 없음) 등이 대규모 인구 집단을 AI 기술 사용에서 제한할 수 있다. 또한 AI 노출도 측면에서, 지식집약적 서비스의 작은 역할로 인해 저소득 국가에서는 고소득 국가 대비 약 40% 낮은 생산성, 중하위소득 국가에서는 약 25% 낮은 생산성이 예상된다. 이러한 AI의 특성—지식집약적 부문 의존성, 기본 인지 능력과의 시너지, 디지털 인프라 의존성—은 새로운 기술 격차를 더욱 어렵게 만든다. AI 격차 해소를 위한 정책 방향: 인프라·교육·금융 접근성 개선 필요 보고서는 저소득 및 중하위소득 국가에서 AI 생산성 격차를 방지하기 위한 구체적인 정책 방향을 제시했다. 단기적으로는 AI 채택 역량을 강화하는 데 초점을 맞춰야 하며, 네 가지 핵심 영역이 확인되었다. 첫째, 에너지 및 디지털 연결 인프라에 대한 투자가 필수적이다. 안정적인 전력 접근은 기본 전제조건이며, 에너지망 확장 및 현대화, 에너지원 믹스 다변화 등이 필요하다. 디지털 연결성 측면에서는 건전한 제도 및 규제 프레임워크, 국가 광대역 목표 및 전략 설정, 광대역 매핑 및 데이터 개선 등이 권장된다. 특히 외딴 지역과 서비스가 부족한 지역에서 연결성 문제가 중요하다. 둘째, 교육과 노동력 기술이 AI 채택의 필수 보완 요소로 부각된다. 최근 연구에 따르면 저소득 및 중하위소득 국가에서 기술 개발은 부문별 인력 훈련을 통해 제공될 때 특히 효과적이다. 타겟팅이 중요하며, 이들 국가의 경제 구조를 고려할 때 농업을 포함하고 중소기업과 특히 기술이 부족한 취약 계층에 초점을 맞춰야 한다. AI 기술의 특성상 디지털 리터러시와 ICT 기술, 영어 능력에 특별한 강조를 둘 수 있다. 셋째, 금융 접근성이 중요한 역할을 한다. AI 채택 비용은 심각한 신용 제약 하에서 금지적으로 변할 수 있다. 저소득 및 중하위소득 국가에서 효율적인 자본 시장을 지원하는 정책들이 더 디지털화되고 경쟁력 있는 금융 부문을 강화할 수 있다. AI 서비스 구매나 휴대전화 및 컴퓨터 같은 보완 하드웨어를 위한 표적 금융 지원이 기업들의 채택 비용 관리를 도울 수 있다. 넷째, AI 규제 준비성과 집행이 관련성이 있다. 기관들은 불필요한 규제 부담을 최소화하는 것과 신뢰할 수 있는 AI를 위한 강력한 프레임워크를 구축하는 것 사이에서 균형을 맞춰야 한다. OECD AI 원칙은 AI 시스템의 공정성, 투명성, 견고성 및 책임성을 보장하는 데 있어 핵심 참고 자료가 된다. 장기적으로는 AI 경제에서의 기회를 포착하는 것이 중요하다. 보고서는 저소득 및 중하위소득 국가가 건강과 교육 같은 장기 성장의 핵심 동력 영역에서 AI 채택과 실험을 지원해야 한다고 강조했다. 또한 AI가 무역과 지식 파급효과를 촉진할 수 있으므로, 무역 개방성과 국제 협력을 촉진하는 것이 필수적이다. 데이터 시스템의 상호 운용성 확보와 오픈소스 플랫폼을 통한 최첨단 AI 모델에 대한 접근 보장이 이러한 혜택을 극대화하는 데 필수적이다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 왜 개발도상국에서는 AI 채택이 어려운가요? A1. 개발도상국에서 AI 채택이 어려운 주요 이유는 세 가지입니다. 첫째, 인구의 상당수가 정규 교육을 받지 못했고 문해율이 낮아 AI 도구를 사용할 기본 능력이 부족합니다. 둘째, 인터넷과 전력 같은 기본 인프라가 부족합니다. 셋째, AI 도구 비용이 이들 국가의 소득 대비 너무 높아 경제적으로 부담이 됩니다. Q2. AI가 모든 국가에 똑같은 혜택을 주지 않는 이유는 무엇인가요? A2. AI의 혜택은 국가의 경제 구조와 준비 상태에 따라 크게 다릅니다. 선진국은 AI가 가장 효과적인 금융, IT 등 지식집약적 서비스업 비중이 높지만, 개발도상국은 농업과 제조업 비중이 높아 AI 활용도가 낮습니다. 또한 선진국은 디지털 인프라와 고학력 인력을 갖추고 있어 AI를 빠르게 채택할 수 있습니다. Q3. 개발도상국이 AI 격차를 줄이려면 어떤 정책이 필요한가요? A3. 개발도상국은 네 가지 핵심 영역에 집중해야 합니다. 첫째, 전력과 인터넷 같은 기본 인프라 구축이 최우선입니다. 둘째, 국민의 디지털 리터러시와 기술 교육을 강화해야 합니다. 셋째, 중소기업이 AI를 도입할 수 있도록 금융 지원을 제공해야 합니다. 넷째, AI를 안전하고 공정하게 사용할 수 있는 규제 체계를 마련해야 합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 14:04AI 에디터

잠만 자도 질병 예측 가능…스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다

미국 스탠퍼드 대학 연구팀이 단 하룻밤 잠을 자는 동안의 데이터만으로 향후 걸릴 수 있는 질병을 예측하는 인공지능 'SleepFM'을 개발했다. 해당 연구 논문에 따르면, 이 AI는 약 6만 5,000명이 자는 동안 측정한 58만 5,000시간 이상의 데이터로 학습했으며, 사망 위험, 치매, 심근경색 등 130가지 질병을 75% 이상의 정확도로 예측할 수 있다. 의학 분야 최고 권위 학술지 '네이처 메디슨'에 실린 이 연구는 수면이 단순히 쉬는 시간이 아니라 우리 몸의 건강 상태를 보여주는 중요한 신호임을 입증했다. 잠자는 동안 뇌파·심장박동·호흡 모두 분석 SleepFM은 병원에서 하는 '수면다원검사'라는 정밀 검사 데이터를 활용한다. 수면다원검사는 잠자는 동안 머리에 센서를 붙여 뇌파를 측정하고, 가슴에 전극을 붙여 심장박동을 기록하며, 코와 입 주변에 센서를 달아 호흡 패턴을 관찰하는 검사다. 근육 움직임도 함께 측정한다. 연구팀은 스탠퍼드 수면 클리닉, 바이오세레니티, 다민족죽상동맥경화증 연구, 남성 노인 수면장애 결과 연구 등 4곳에서 모은 데이터를 사용했다. 스탠퍼드 수면 클리닉에서만 3만 5,052명의 데이터가 모였고, 나머지 기관들도 수천 명씩 데이터를 제공했다. 이는 기존 수면 분석 AI가 사용한 데이터(2,500~1만 5,913건)보다 훨씬 많은 양이다. 중요한 점은 병원마다 검사 방식이 조금씩 다르다는 것이다. 어떤 병원은 뇌파를 6군데에서 측정하고, 다른 병원은 10군데에서 측정한다. 이런 차이를 AI가 자동으로 처리할 수 있도록 '채널 독립적;설계'를 적용했다. 마치 여러 나라 언어를 동시에 이해하는 번역기처럼, 서로 다른 형태의 검사 데이터를 모두 이해할 수 있다. 6년 후 걸릴 병까지 미리 알아낸다 연구팀은 스탠퍼드 수면 클리닉에서 검사받은 환자들의 병원 진료 기록을 추적했다. 환자가 검사 후 어떤 병에 걸렸는지, 언제 진단받았는지를 확인한 것이다. 총 1,041개 질병을 분석했고, 그중 130개 질병에서 정확도 75% 이상을 달성했다. 특히 눈에 띄는 것은 사망 위험 예측이다. 환자가 향후 사망할 가능성을 84%의 정확도로 맞췄다. 치매는 85%, 심근경색은 81%, 심부전은 80% 정확도를 보였다. 이 수치는 '콘코던스 지수'라는 측정 방식으로 계산했는데, 100명 중 84명의 위험도 순서를 정확하게 맞춘다는 뜻이다. 연구팀은 6년이라는 기간을 기준으로 삼았다. 예를 들어 2020년에 수면 검사를 받은 사람이 2026년까지 심장병에 걸렸다면 AI의 예측이 맞은 것으로 본다. 1년 후부터 6년 후까지 다양한 기간으로 테스트했는데, 대체로 비슷한 정확도를 유지했다. 질병 종류도 다양하다. 암 중에서는 전립선암(90%), 유방암(90%), 피부암(83%)을 잘 예측했다. 뇌 관련 질환에서는 파킨슨병을 93% 정확도로 찾아냈다. 심혈관 질환에서는 고혈압성 심장병(88%), 뇌출혈(82%)의 위험을 정확하게 예측했다. 다른 병원 데이터로도 정확하게 작동 AI 모델이 실제로 쓰기 위해서는 다른 병원에서도 잘 작동해야 한다. 연구팀은 이를 확인하기 위해 '수면 심장 건강 연구'라는 별도의 데이터로 테스트했다. 이 데이터는 40세 이상 성인 6,441명의 정보를 담고 있으며, 테스트 결과는 인상적이었다. 뇌졸중 예측 정확도 82%, 울혈성 심부전 85%, 심혈관 질환 사망 88%를 기록했다. 이 데이터에는 협심증 환자 704명, 울혈성 심부전 환자 190명, 뇌졸중 환자 95명 등이 포함됐다. 처음 보는 데이터임에도 높은 정확도를 유지한 것이다. 하지만 시간이 지나도 정확할까? 이를 연구하기 위해, 연구팀은 2020년 이후 환자 데이터로도 별도 테스트를 진행했다. AI는 2020년 이전 데이터로만 학습했기 때문에 최신 데이터는 처음 보는 셈이다. 그럼에도 사망 위험 83%, 심부전 80%, 치매 83%의 정확도를 유지했다. 이는 의료 환경이 바뀌고 환자 특성이 달라져도 AI가 안정적으로 작동한다는 증거다. 나이·성별만 아는 것보다 훨씬 정확 일반적으로 병원에서는 환자의 나이, 성별, 체중 같은 기본 정보로 질병 위험을 추정한다. 예를 들어 나이가 많으면 암 위험이 높다는 식이다. 연구팀은 이런 방식과 비교하기 위해 나이, 성별, 체질량지수, 인종 정보만으로 예측하는 단순 모델을 만들었다. 결과는 명확했다. SleepFM은 질병 종류에 따라 5~17% 더 정확했다. 특히 뇌 질환에서 차이가 컸다. 노인성 치매의 경우 SleepFM은 정확도 99%를 기록한 반면, 기본 정보만 쓴 모델은 87%에 그쳤다. 근육 신경 장애는 81% 대 42%, 발달 지연은 80% 대 58%로 큰 격차를 보였다. 심혈관 질환에서도 마찬가지다. 동맥경화증은 92% 대 74%, 급성 폐성 심장병은 80% 대 74%였다. 당뇨병 합병증도 87% 대 79%로 SleepFM이 앞섰다. 흥미로운 점은 적은 데이터로도 잘 작동한다는 것이다. 연구팀이 데이터의 10%만으로 SleepFM을 학습시켰더니, 5배 많은 데이터로 학습한 단순 모델보다 오히려 정확했다. 심혈관 질환 사망, 울혈성 심부전, 심근경색, 뇌졸중 등 4개 질환에서 이런 결과가 나왔다. 이는 기본 학습이 잘된 AI는 적은 데이터로도 효율적으로 작동한다는 의미다. 뇌파는 치매, 호흡은 대사 질환 예측에 효과적 연구팀은 어떤 신호가 어떤 질병 예측에 중요한지 세밀하게 분석했다. 뇌파는 정신 질환과 신경 질환을 예측하는 데 가장 효과적이었다. 호흡 패턴은 호흡기 질환과 대사 질환을, 심전도는 심혈관 질환을 잘 예측했다. 수면 단계별로도 차이가 있었다. 얕은 수면(1/2단계)과 꿈꾸는 수면(렘수면)이 심혈관 질환과 뇌 퇴행성 질환 예측에 더 유용했다. 하지만 전체적으로는 모든 신호를 함께 분석할 때 가장 정확했다. 이는 수면이 여러 신체 시스템의 복합적인 상호작용이라는 것을 보여준다. 실제로 연구팀이 각 신호별로 별도의 AI를 만들어 비교했더니, 모든 신호를 결합한 모델이 최고 성능을 냈다. 뇌파만 보거나 심전도만 봐서는 전체 건강 상태를 파악하기 어렵다는 뜻이다. 잠이 미래 건강을 말해주는 이유 왜 수면만으로 이렇게 많은 질병을 예측할 수 있을까? 연구팀은 수면 문제가 많은 질병의 초기 신호라고 설명한다. 실제로 정신 질환, 뇌 퇴행성 질환, 심혈관 질환 등은 본격적인 증상이 나타나기 전에 수면 장애가 먼저 발생하는 경우가 많다. 알츠하이머병의 경우 초기에 깊은 수면이 줄어들고, 꿈꾸는 수면에 문제가 생기며, 특정 뇌파 활동이 감소한다. SleepFM은 이런 패턴을 정확도 91%로 포착했다. 파킨슨병은 종종 꿈꾸는 수면 중 이상 행동이 먼저 나타나는데, AI는 이를 89% 정확도로 찾아냈다. 심혈관 질환 예측에서도 수면 데이터가 유용했다. 10년 후 심혈관 질환 사망 위험을 88% 정확도로 예측했는데, 이는 이전 연구(84%)보다 높은 수치다. 심방세동은 81% 정확도를 기록했다. 연구팀의 분석에 따르면 심전도와 호흡 신호가 함께 작용해 심혈관 질환을 예측하는 것으로 나타났다. 수면 무호흡과 심장 활동 정보가 통합되는 것이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 일반인도 이 검사를 받을 수 있나요? A. 이 연구는 병원에서 시행하는 수면다원검사 데이터를 활용했습니다. 수면다원검사는 수면 장애가 의심될 때 병원에서 받을 수 있는 검사로, 하룻밤 병원에 입원해 여러 센서를 몸에 부착하고 잠을 잡니다. 현재 SleepFM은 연구 단계이며, 실제 임상에서 사용되려면 추가 검증이 필요합니다. Q2. 웨어러블 기기로도 이런 예측이 가능한가요? A. 이 연구는 병원급 정밀 장비로 측정한 뇌파, 심전도, 근전도, 호흡 신호를 모두 사용했습니다. 현재 시중의 웨어러블 기기는 심박수나 움직임 정도만 측정하므로 동일한 수준의 예측은 어렵습니다. 다만 연구팀은 웨어러블 수면 기술이 발전하면 향후 이런 모델이 실시간 건강 모니터링에 활용될 가능성을 언급했습니다. Q3. 왜 수면만으로 이렇게 많은 질병을 예측할 수 있나요? A. 수면은 뇌, 심장, 호흡, 근육 등 여러 신체 시스템이 동시에 작용하는 복잡한 과정입니다. 많은 질병들이 본격적인 증상을 보이기 전에 수면 패턴에 먼저 영향을 미칩니다. 예를 들어 알츠하이머병은 초기에 깊은 수면과 특정 뇌파가 감소하고, 파킨슨병은 꿈꾸는 수면 중 이상 행동이 나타나며, 심혈관 질환은 호흡 패턴과 심박수에 변화를 일으킵니다. SleepFM은 이런 미세한 패턴을 포착해 미래 질병 위험을 예측합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 21:18AI 에디터

음식에 파리 있다면 환불 요구…알고 보니 AI 합성?

인공지능이 점점 더 정교한 사기에 활용되면서, 이제 음식 배달 서비스까지 그 표적이 되고 있다. 더 타임스(The times)가 1일(현지 시각) 보도한 내용에 따르면, 우버이츠(Uber Eats), 도어대시(DoorDash) 등 배달앱 이용자들이 생성형 AI를 악용해 주문한 음식 사진을 조작한 뒤 환불을 받아내는 사례가 급증하고 있다고 밝혔다. 사람들은 AI를 이용해 멀쩡한 음식을 덜 익은 것처럼 보이게 하거나, 케이크가 녹아내린 것처럼 만들고, 심지어 음식에 파리를 합성하는 등 다양한 방법으로 사진을 조작하고 있다. AI의 사진 재현 능력이 발전하면서 육안으로는 구분하기 어려운 수준의 가짜 증거물을 만들어내는 것이 가능해졌다. 게다가, 범행을 저지른 이용자들은 자신들의 행위를 SNS에 공공연히 자랑하기까지 했다. 한 이용자는 X(구 트위터)에 "도어대시에서 환불받기 위해 사진을 편집했다"며 디지털 조작으로 햄버거를 덜 익은 것처럼 만든 사진을 자랑스럽게 게시했다. 또 다른 이용자는 스레드(Threads)에 포토샵으로 치킨 다리를 덜 익은 것처럼 보이게 만든 과정을 상세히 공개했다. 해당 이용자는 배달앱 고객지원팀으로부터 "불편을 끼쳐 죄송하다"는 사과와 함께 26.60달러(한화 약 3만 8,000원)를 환불받았다고 밝혔다. 한 사기꾼은 자신이 주문한 디저트 위에 디지털로 파리를 합성하기도 했다. 이 같은 게시물에 대해 많은 누리꾼이 강한 비판을 쏟아냈다. "전혀 웃기지 않는다"는 반응과 함께 "당신과 다른 사기꾼들이 다 감옥에 가길 바란다", "20달러도 못 내는 주제에 그렇게까지 노력할 필요가 있나"라는 부정적인 댓글이 달렸다. 한 누리꾼은 "이런 행위는 도어대시가 아니라 주문받은 식당에 피해를 준다"고 지적했다. 실제로 배달 플랫폼들은 환불 요청이 들어오면 별다른 조사 없이 환불을 처리하는 경우가 많으며, 이 경우 손실은 대부분 식당이 떠안게 된다. 이러한 AI 환불 사기는 고객만의 전유물이 아니다. 지난달에는 도어대시 배달원이 고객에게 음식을 제대로 전달했다는 증거로 AI로 생성한 음식 사진을 보낸 사례도 있었다. 해당 고객은 사기를 눈치챘지만, 향후 AI로 만든 이미지와 실제 음식을 구분하는 것이 사실상 불가능해질 수 있다는 우려가 나온다. 이 같은 AI를 활용한 음식 사진 조작 환불 사기는 미국과 영국에서 불법이지만, 배달 플랫폼들의 허술한 환불 정책으로 인해 계속 발생하고 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 15:06AI 에디터

AI, 일본 변호사 됐다...96점으로 시험 합격

인공지능(AI)이 복잡한 법률 시험에서 합격선을 넘은 것은 이번이 처음이다. 일본 게이오대학교 연구팀은 오픈AI의 GPT-4.1을 일본 변호사 시험에 맞게 학습시키고 스스로 답을 검증하는 방법을 적용해 객관식 부분을 통과했다고 발표했다. 이 연구는 AI가 단순히 법률 지식을 외우는 수준을 넘어, 여러 문제를 동시에 판단하고 정해진 형식에 맞춰 답할 수 있음을 보여준다. 문제 쪼개지 않고 원본 그대로 학습해 96점 획득 연구팀이 GPT-4.1을 학습시킨 결과, 2024년 일본 변호사 시험에서 96점을 받았다. 합격 기준인 93점을 넘긴 것이다. 가장 중요한 점은 시험 문제를 쉽게 바꾸지 않고 원본 형태 그대로 학습시켰다는 것이다. 일본 변호사 시험 객관식 문제는 특이한 방식으로 출제된다. 여러 개의 문장이 맞는지 틀렸는지 판단한 뒤, 그 결과를 조합해서 답해야 한다. 예를 들어 "112"처럼 각 문장의 정답 번호를 이어 붙여 제출해야 하는데, 하나라도 틀리면 전체가 오답 처리된다. 기존 연구들은 이런 복잡한 문제를 개별 O/X 퀴즈로 쪼개서 AI를 학습시켰다. 대표적으로 일본 변호사 시험 질의응답 데이터셋(JBE-QA)은 하나의 시험 문제를 여러 개의 독립된 질문으로 나눴다. 이 방식으로는 2,770개의 많은 문제로 학습할 수 있었다. 연구팀이 GPT-4.1을 JBE-QA로 학습시켜 실제 시험 형식으로 평가했을 때 64점밖에 받지 못했다. 반면 원본 형식을 유지한 460개 문제(2019-2023년 과거 시험)로 학습시킨 GPT-4.1은 92.3점을 기록했다. AI가 스스로 답을 재검토해 정답률 49%까지 향상 연구팀은 '자체 검증'이라는 방법을 추가로 적용했다. 이는 학습된 GPT-4.1이 답을 낸 후, 같은 모델이 스스로 그 답이 문제 조건에 맞는지 다시 확인하는 것이다. 중요한 것은 별도의 AI를 추가하는 게 아니라, 같은 GPT-4.1 모델에 다른 질문 방식(프롬프트)을 적용해 자기 답을 점검하게 만든다는 점이다. 이 과정은 한 번의 추가 계산만 필요하다. 자체 검증을 적용한 결과, 정답률은 46.8%에서 49.4%로 올랐고, 시험 점수는 92.3점에서 94.7점으로 증가했다. 이는 모델이 법률 지식이 부족해서가 아니라, 여러 문장을 함께 판단할 때 일관성을 유지하지 못해서 틀리는 경우가 많다는 것을 보여준다. 자체 검증은 이런 논리적 모순을 효과적으로 고쳐준다. 흥미로운 점은 이 방법이 학습하지 않은 기본 GPT-4.1에도 적용 가능하다는 것이다. 추가 학습 없는 기본 GPT-4.1 모델은 자체 검증으로 68.3점에서 76.3점으로, JBE-QA로 학습한 GPT-4.1은 64점에서 80.7점으로 성적이 올랐다. 이는 자체 검증이 특정 학습 방식에만 효과적인 게 아니라 범용적으로 사용할 수 있는 기법임을 보여준다. 여러 AI 협력보다 혼자 푸는 게 더 효과적 연구팀은 여러 AI가 협력하는 방식도 실험했다. 정보를 찾는 AI, 검증하는 AI, 지식을 추출하는 AI, 최종 답을 내는 AI로 구성된 시스템을 만들었다. 법률 분야에서 여러 AI가 협력하면 좋다는 기존 연구들과 달리, 이번 실험에서는 오히려 성적이 떨어졌다. 같은 학습된 모델을 여러 역할로 나눠 사용한 시스템은 75.7점, 역할마다 따로 학습한 모델들을 사용한 시스템은 71.0점에 그쳤다. 이는 단일 모델의 94.7점에 비해 훨씬 낮은 점수다. 연구팀은 엄격한 형식 규칙이 있는 시험에서는 AI들 사이에서 오류가 전달되고 쌓이는 문제가 생긴다고 분석했다. 특히 따로 학습된 모델들은 서로 다른 방식으로 생각해서 결과를 합치기 어려웠다. 원본 형식 유지가 법률 AI 성능의 핵심 이번 연구는 법률 AI 평가에서 중요한 교훈을 준다. 쉬운 테스트에서 높은 점수를 받는다고 해서 실제 시험을 통과할 수 있는 건 아니라는 것이다. JBE-QA로 학습한 GPT-4.1은 2,770개의 많은 문제로 법률 지식을 배웠지만, 여러 문장을 함께 판단하는 능력은 배우지 못했다. 그 결과 개별 문장 정답률이 50%가 넘어도 전체 답안에서는 0점을 받는 경우가 자주 발생했다. 연구팀은 원본 형식을 지키는 것이 법률 AI 학습의 핵심이라고 강조한다. 원본 시험 형식을 유지한 학습 문제가 비록 460개로 적더라도, GPT-4.1 안에 이미 있는 숨겨진 지식을 효과적으로 끌어낸다는 것이다. 자체 검증은 이 효과를 더욱 키워서, 모델이 자신의 답을 다시 평가하고 정리하도록 만든다. 시험 과목별로는 헌법, 민법, 형법 중 민법에서 42.3점으로 가장 높은 점수를 받았다. 일본 변호사 시험은 각 과목에서 40% 이상의 점수를 받아야 하는데, 연구팀이 학습시킨 GPT-4.1은 이 조건도 충족했다. 다만 이번 연구는 객관식 부분만 다뤘으며, 논술형 문제는 포함하지 않았다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 자체 검증이란 무엇이며 어떻게 작동하나요? A. 자체 검증은 AI가 답을 낸 후 스스로 그 답이 맞는지 다시 확인하는 방법입니다. 같은 모델(GPT-4.1)에 다른 방식의 질문(프롬프트)을 주어 자기 답을 문제와 대조하며, 명백히 틀렸을 때만 수정합니다. 추가 학습 없이 한 번의 계산만으로 가능하며, 여러 문장을 함께 판단할 때 생기는 모순을 효과적으로 고쳐줍니다. Q. 왜 문제를 쪼개지 않고 원본 형식으로 학습했나요? A. 일본 변호사 시험은 여러 문장을 동시에 판단해 정해진 형식으로 답해야 합니다. 문제를 개별 O/X로 쪼개면 각 문장은 잘 판단할 수 있지만, 실제 시험에서 요구하는 종합 판단 능력은 배울 수 없습니다. 실제로 개별 정답률이 50%가 넘어도 전체 답안 형식에서는 0점을 받는 경우가 많았습니다. Q. 이 AI가 실제 변호사 일을 할 수 있나요? A. 아니요. 이번 연구는 객관식 시험 통과만을 다뤘으며, 실제 법률 상담이나 논술형 법률 논증 능력은 평가하지 않았습니다. 시험 합격이 실무 능력이나 윤리적 판단력을 의미하지는 않으므로, 법률 분야에서 AI를 활용할 때는 반드시 전문가의 감독이 필요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 14:17AI 에디터

챗GPT 전체 대화 5%가 건강 상담...오픈AI, 챗GPT 의료 활용 보고서 공개

오픈AI가 발표한 보고서에 따르면, 미국인들이 복잡한 의료 시스템을 헤쳐나가는 데 챗GPT를 적극 활용하고 있다. 전 세계 챗GPT 대화 중 5% 이상이 건강 관련 질문이며, 8억 명이 넘는 정기 사용자 중 4명 중 1명은 매주 건강 질문을 하고, 4천만 명 이상은 매일 챗GPT에 건강 질문을 던진다. 매주 160만~190만 건, "보험 어떻게 골라야 하나요?" 해당 보고서에 따르면, 사용자들은 매주 150만~190만 건의 건강보험 관련 질문을 한다. 보험 플랜 비교, 가격 이해, 청구 및 빌링 처리, 자격 요건 및 등록, 보장 범위 및 비용 분담 세부 사항 등을 파악하기 위해 챗GPT를 사용한다. 오픈AI 조사에 따르면 미국 성인 5명 중 3명이 최근 3개월 동안 건강이나 의료 문제로 AI 도구를 사용했다. 이들은 증상을 확인하거나 탐색하기 위해(55%), 언제든지 질문하기 위해(52%), 의료 용어나 지시 사항을 이해하기 위해(48%), 치료 옵션에 대해 알아보기 위해(44%) AI를 활용한다. 몸이 아플 때 처음 정보를 얻거나, 병원 가기 전 준비, 의사의 지시 사항 이해, 병원비 청구와 보험 거부 결정 등의 행정 업무 처리에 AI를 사용한다. 밤 10시에 아이 열나면? 의료 대화 10건 중 7건이 병원 문 닫은 시간에 발생 오픈AI가 익명화된 사용자 데이터를 분석한 결과, 미국 내 건강 관련 대화 대부분이 일반적인 병원 진료 시간 밖에서 일어났다. 미국에서는 약 5명 중 1명이 농촌 지역에 살며, 2010년 이후 매년 평균 10개의 농촌 병원이 폐쇄되거나 입원 병상을 없애고 있다. 거의 절반(46%)의 농촌 병원이 적자 운영 중이며, 38개 주에 걸쳐 400개 이상의 병원이 폐쇄 위험에 처해 있다. 오픈AI는 차로 30분 이상 가야 병원이 있는 지역을 '병원 사막'으로 정의하고 데이터를 연구했다. 2025년 말 4주 동안, 미국 전역 병원 사막 지역에서 챗GPT는 매주 평균 58만 건 이상의 건강 관련 대화를 처리했다. 인구가 가장 적은 와이오밍주가 병원 사막 건강 대화 비율 1위(4.15%)를 기록했고, 오리건(3.4%), 몬태나(3.2%)가 뒤를 이었다. 한 달 대화 건수로는 오리건이 54,660건으로 1위, 텍사스(43,337건), 버지니아(39,886건), 뉴욕(39,083건)이 상위권을 차지했다. 몬태나주 마일스시티(인구 8,400명)의 가정의 마기 알버스 박사는 오픈AI 모델을 사용하는 오라클 임상 어시스트로 진료 기록을 자동 작성해 시간을 절약하고, 먼 거리를 이동해 온 환자들의 진료와 사후 관리에 집중한다. 의사 3명 중 2명 "AI 쓴다"... 간호사 절반도 매주 활용 미국의사협회에 따르면, 미국 의사의 66%가 2024년에 적어도 하나의 사례에 AI를 사용했다. 이는 2023년 38%에서 급증한 수치다. 의사의 21%가 환자 방문 시 청구 코드, 의료 차트, 메모 문서화에 AI를 사용했고, 12%가 환자 진단 보조에 활용했다. 행정 담당자, 의학 사서, 간호사, 약사를 포함한 미국 의료 종사자 5명 중 2명 이상이 직장에서 생성형 AI를 적어도 주 1회 사용한다. 월터스 클루워와 입소스가 312명의 의료 전문가를 대상으로 실시한 조사(2025년 2월 26일~3월 24일)에 따르면, 의학 사서가 주간 AI 사용 비율이 가장 높았고(53%), 간호사(46%), 행정 담당자(43%), 약사(41%), 의사(38%)가 뒤를 이었다. 이에 비해, 물리치료사, 영양사, 응급구조사 등 관련 보건 종사자는 26%만 주 1회 이상 AI를 사용했다. 의사 4명 중 3명이 AI 도구가 업무 효율성에 도움이 된다고 답했고, 72%는 진단 능력에 도움이 된다고 답했다. 2023년에서 2024년 사이 가장 큰 증가를 보인 분야는 스트레스 관리와 개인화된 진료 제공 능력이었다. AI 의료기기 규제 명확히 해야... 오픈AI, 정책 제안 오픈AI는 의료 분야 AI 사용을 안전하게 확대하기 위한 정책을 제안했다. 주요 내용은 과학적 발견 가속화를 위한 전 세계 의료 데이터의 개방과 안전한 연결, 의료 문제 해결을 위한 인프라 구축, AI로 창출될 의료 직종으로의 근로자 전환 지원, 소비자용 AI 의료기기 규제 경로 명확화, 의사 지원 AI 서비스 규제 범위 명확화 등이다. 특히 현재 미국 식품의약국의 의료기기 규제 프레임워크는 AI를 위해 설계되지 않았다. FDA의 전통적인 질병별 평가 방식은 AI 의료기기가 모든 질병에 대해 성능을 입증하라고 요구할 수 있는데, 이는 실현 가능하지도 필요하지도 않다. 오픈AI는 FDA가 업계와 협력해 안전하고 효과적인 AI 의료기기 혁신을 촉진할 명확한 규제 정책을 만들 것을 촉구했다. 오픈AI는 2026년 초에 의료 분야 AI에 대한 전체 정책 청사진을 발표할 예정이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT로 건강 상담받는 게 안전한가요? A1. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q2. 병원이 멀리 있는 곳에서 AI가 의료 문제를 해결할 수 있나요? A2. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q3. 의사 선생님들도 AI를 쓰나요? A3. 2024년 미국 의사의 66%가 AI를 사용했으며, 주로 진료 기록 작성, 청구 코드 문서화, 진단 보조에 활용합니다. 의사 4명 중 3명은 AI가 업무 효율성에 도움이 된다고 답했습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 21:21AI 에디터

"답변 40% 작성 시점에 오답 예측"… AI 오류 검증하는 기술 등장

AI가 스스로 "이 답변은 틀릴 것 같아요"라고 판단할 수 있을까? 캐나다 앨버타대학교 연구팀이 AI가 외부 도움 없이 자신의 오류를 예측하는 기술을 개발했다. '노시스(Gnosis)'라는 이름의 이 기술은 매우 적은 용량으로도 훨씬 큰 검증 시스템보다 뛰어난 성능을 보여준다. 연구팀은 이를 AI의 '자기 인식 능력'이라고 부른다. 외부 검증자 없이 AI 내부 신호만으로 오류 포착 해당 연구 논문에 따르면, 노시스는 AI가 답변을 만들어내는 과정에서 나타나는 내부 신호를 분석한다. 사람이 말을 할 때 표정이나 목소리 톤으로 확신의 정도를 알 수 있듯이, AI도 답변을 생성할 때 내부적으로 특정한 패턴을 보인다. 노시스는 바로 이 패턴을 읽어낸다. 기존 방법들은 대부분 외부의 도움이 필요했다. 여러 번 답변을 만들어 비교하거나, 별도의 큰 AI 모델을 동원해 답변이 맞는지 검증했다. 하지만 노시스는 AI가 답변을 만드는 바로 그 순간의 내부 작동 방식만 관찰한다. 연구팀은 이를 "AI의 뇌파를 읽는 것"에 비유한다. 노시스가 주목하는 것은 두 가지다. 첫째는 AI 내부의 '은닉 상태'라는 것인데, 이는 AI가 정보를 처리하면서 만들어내는 중간 결과물이다. 둘째는 '어텐션 패턴'으로, AI가 문제를 풀 때 어떤 정보에 집중하는지를 보여주는 지도 같은 것이다. 노시스는 이 두 가지를 압축해서 분석하며, 답변이 길어져도 분석 시간이 늘어나지 않는다는 장점이 있다. 용량은 500만, 성능은 80억급... 압도적 효율성 입증 노시스의 성능은 실험 결과로 입증됐다. 수학 문제 풀이, 상식 퀴즈, 전문 지식 질문 등 세 가지 테스트에서 노시스는 80억 개 용량의 스카이워크(Skywork) 검증 모델과 구글의 제미나이 2.5 프로를 모두 능가했다. 예를 들어 수학 문제에서 노시스는 정확도 지표에서 스카이워크와 제미나이보다 높은 수치를 기록했다. 더 놀라운 것은 효율성이다. 노시스의 용량은 약 500만에 불과하다. 이는 비교 대상인 80억 용량 모델의 1,000분의 1 수준이다. 마치 경차가 대형 트럭보다 빠르고 정확하게 목적지에 도착하는 셈이다. 속도 면에서도 노시스는 탁월하다. 1만 2,000단어 분량의 답변을 검증할 때 노시스는 0.025초가 걸렸고, 이는 80억 용량 모델보다 37배 빠른 속도다. 답변이 2만 4,000단어로 늘어나면 속도 차이는 99배까지 벌어진다. 일반 검증 모델은 답변이 길어질수록 검증 시간도 늘어나지만, 노시스는 답변 길이와 관계없이 항상 같은 시간이 걸린다. 개발 비용도 매우 저렴하다. 가장 큰 200억 용량 모델에 노시스를 적용하는 데 걸린 시간은 고성능 컴퓨터 2대로 약 12시간, 비용은 단돈 25달러였다. 기존의 대형 검증 모델들이 수백만 건의 데이터와 전문가의 평가를 필요로 하는 것과 비교하면 놀라운 차이다. 답변의 40%만 작성해도 결과 예측 가능 노시스의 또 다른 특징은 답변이 완성되기 전에도 결과를 예측할 수 있다는 점이다. 연구팀은 노시스가 완성된 답변으로만 학습했는데도, 답변의 40%만 작성된 시점에서 이미 최종 예측과 비슷한 정확도를 보인다는 사실을 발견했다. 추가 훈련 없이 나타난 능력이다. 이는 실용적으로 매우 유용하다. AI가 답변을 만들다가 "이건 틀린 것 같아"라고 조기에 판단하면, 즉시 작성을 멈추고 다른 방법을 시도할 수 있다. 불필요한 계산을 하지 않아도 되니 비용과 시간이 절약된다. 또는 현재 AI로는 답하기 어렵다고 판단되면 자동으로 더 강력한 AI에게 질문을 넘길 수도 있다. 실험에서 노시스는 수학 문제와 상식 퀴즈 모두에서 40% 지점에 이미 다른 검증 방법들이 전체 답변을 본 후에야 도달하는 수준의 성능을 보였다. 연구팀은 이를 "AI가 자신의 추론 과정 초반에 이미 성공 여부를 감지한다"고 설명했다. 작은 AI가 큰 AI를 검증하는 시대 노시스는 '형제 모델 검증'이라는 독특한 능력도 보여줬다. 17억 용량 모델로 훈련한 노시스를 40억, 80억 용량 모델에 그대로 적용해도 높은 성능을 유지했다. 수학 문제 테스트에서 17억 기반 노시스는 80억 모델을 검증할 때 정확도 0.93을 기록했는데, 이는 80억 모델 전용으로 훈련한 노시스의 0.96에 근접한 수치다. 더 흥미로운 점은 이렇게 전이된 작은 노시스가 여전히 80억 용량의 스카이워크 검증 모델보다 뛰어나다는 것이다. 연구팀은 AI의 오류가 모델 크기와 상관없이 비슷한 패턴으로 나타나며, 따라서 작은 검증 시스템 하나로 여러 크기의 AI를 감독할 수 있다고 설명했다. 다만 이 능력은 비슷한 방식으로 작동하는 AI끼리에서 가장 효과적이며, 작동 방식이 크게 다른 AI 간에는 한계가 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 노시스는 어떻게 AI의 오류를 미리 알 수 있나요? A: 노시스는 AI가 답변을 만들 때 나타나는 내부 신호를 읽습니다. 마치 의사가 심전도나 혈압 같은 생체 신호로 환자의 건강 상태를 판단하듯이, 노시스는 AI의 '내부 작동 신호'를 분석해 답변이 맞을지 틀릴지 예측합니다. 다른 AI의 도움이나 추가 계산 없이 AI 스스로의 추론 과정만으로 오류를 감지합니다. Q2. 노시스의 가장 큰 장점은 무엇인가요? A: 매우 작은 용량으로 큰 검증 시스템보다 뛰어난 성능을 낸다는 점입니다. 노시스는 500만 용량으로 80억 용량 모델을 능가하며, 답변이 길어져도 검증 시간이 늘어나지 않습니다. 개발 비용도 25달러에 불과하고, 답변의 40%만 작성된 시점에서 이미 오류를 정확히 예측해 불필요한 작업을 줄일 수 있습니다. Q3. 노시스를 실제로 어떻게 활용할 수 있나요? A: AI 서비스에서 잘못된 답변을 미리 차단하는 데 활용할 수 있습니다. 예를 들어 챗봇이 복잡한 질문에 답할 때, 초기 단계에서 "이건 틀릴 것 같다"고 판단되면 즉시 더 강력한 AI로 전환하거나 답변을 중단할 수 있습니다. 이렇게 하면 계산 비용을 아끼면서도 더 정확한 서비스를 제공할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 15:20AI 에디터

챗GPT 독주 끝났나…제미나이에 밀려 트래픽 22% 급락

인도의 IT 매체 digit이 6일(현지 시각) 보도한 내용에 따르면, 오픈AI 의 챗GPT가 구글이 제미나이 3 프로 모델을 선보인 이후 AI 경쟁에서 압박을 받고 있다. 최근 웹 트래픽 데이터는 지난 며칠간 사용자 방문이 급격히 감소했음을 시사했다. 분석 기업 시밀러웹(SimilarWeb)의 수치에 따르면, 챗GPT의 7일 평균 트래픽은 지난 6주 동안 약 22% 감소한 것으로 나타났다. 미국의 벤처 캐피털 회사 멘로 벤처스(Menlo Ventures)의 디디 다스(Deedy Das)가 자신의 X에 공개한 데이터를 보면, 챗GPT의 평균 방문자 수는 이 기간 동안 약 2억 300만 명에서 거의 1억 5,800만 명으로 줄어들었다. 이러한 감소는 온라인 활동이 둔화하는 시기인 연휴 기간과 겹쳤지만, 경쟁 플랫폼들이 비슷한 감소세를 보이지 않았기 때문에 주목을 받았다. 다스는 또한 현재 챗GPT의 가장 큰 소비자 대상 경쟁자인 구글 제미나이가 같은 기간 동안 안정적인 트래픽을 유지했으며, 현재 챗GPT 사용자 규모의 거의 40%에 달하는 청중을 확보하고 있다고 밝혔다. 이러한 대조는 생성형 AI 경쟁이 가열되면서 사용자들이 적극적으로 대안을 테스트하고 있을 수 있다는 추측을 불러일으켰다. 시밀러웹의 데이터는 더 많은 경쟁자들이 가시성을 확보하면서 지난 1년간 챗GPT의 지배력이 점진적으로 약화되고 있음을 보여준다. 제미나이와 xAI의 그록(Grok) 같은 플랫폼들이 꾸준히 사용자 기반을 확대했으며, 새로운 진입자들과 오픈소스 모델들이 관심을 더욱 분산시켰다. 이는 샘 알트먼 오픈AI CEO가 직원들에게 보낸 내부 메모에서 비상 상황을 선언한 이유일 수 있다. 내부 메모에서 그는 여러 프로젝트를 중단하고 팀들에게 제품 개선에 집중할 것을 요청했다. 오픈AI와 구글 모두 최신 트래픽 데이터에 대해 공개적으로 논평하지 않았다. 하지만 짧은 기간에 여러 주요 AI 출시가 집중되면서 사용자 참여 수치는 계속 변동성을 보일 것으로 예상된다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 14:37AI 에디터

스위스 시계 장인 손동작까지 3D 기록...명품 브랜드, AI로 '사라지는 기술' 보존 나섰다

글로벌 IT 컨설팅 기업 캡제미니(Capgemini)에 따르면, 럭셔리 산업이 인공지능 시대에 맞춰 근본적인 변화를 겪고 있다. 캡제미니는 리포트를 통해 AI가 럭셔리 브랜드의 장인정신, 고객 경험, 창작 과정을 어떻게 '보이지 않게' 강화하는지를 심층 분석했다. 가트너 "2026년 검색의 25%가 AI로 이동, 2028년 웹 트래픽 50% 이상 사라질 것" 리포트에 따르면, 가트너(Gartner)는 2026년까지 검색의 25%가 AI 인터페이스로 이동하고, 2028년까지 전통적인 웹 트래픽의 50% 이상이 사라질 것으로 예측했다. 이러한 변화는 럭셔리 산업에 특히 중요한데, 제품의 발견 가능성이 더 이상 구글 검색 결과 첫 페이지의 가시성에 달려있지 않고, 대화형 알고리즘과의 관련성에 달려있기 때문이다. 21세 비즈니스 스쿨 학생 루카스는 "럭셔리 브랜드는 우리가 제품을 발견하기 위해 웹사이트를 방문하지 않는다는 것을 이해해야 한다. 우리는 그저 어시스턴트에게 특정 요구에 맞는 최고의 제품을 추천해달라고 요청한다. 만약 당신의 브랜드가 AI에 의해 내 요청과 관련성이 있다고 인정받지 못하면, 당신은 내 세계에 존재하지 않는 것"이라고 말했다. Z세대 73%가 디지털 피로감 경험... "기술이 더 직관적이고 조용하길 원해" 보고서는 Z세대가 하루 평균 7.2시간을 온라인 콘텐츠 시청에 소비함에도 불구하고, 73%가 디지털 피로감을 경험한다고 밝혔다. 런던의 20세 디자인 학생 엠마는 "우리가 덜 디지털적인 것이 아니다. 우리는 기술이 더 직관적이고, 더 조용하며, 더... 역설적으로 인간적이기를 기대한다. 나는 하루 종일 스크린과 상호작용하며 시간을 보내고 싶지 않다. 나는 기술이 진짜 경험을 즐길 시간을 내게 주기를 원한다"고 설명했다. 실제로 Z세대의 65%는 더 복잡한 질문에 대해 인간 고객 서비스를 선호하지만, 46%는 빠르고 사실적인 답변을 얻기 위해 AI를 사용한다. 럭셔리 브랜드의 '보이지 않는 AI' 3대 원칙... "인터페이스 없이, 인간이 최종 판단" 캡제미니가 제시한 '인비저블 AI' 철학의 핵심은 세 가지 원칙으로 요약된다. 첫째, 기술적 인터페이스가 없어야 한다. 럭셔리 하우스의 고객은 인공지능과 상호작용하고 있다는 것을 결코 인식해서는 안 되며, 경험은 근본적으로 인간적이고 감각적이며 감정적으로 남아야 한다. 둘째, 인간 판단의 우위성이다. AI는 제안하고 인간이 나머지를 한다. 모든 알고리즘 추천, 예측 분석, 창작적 생성은 장인, 디자이너, 판매 어드바이저 등 인간 전문가에 의해 체계적으로 검증된다. AI는 결코 최종 결정을 내리지 않으며, 인간의 의사결정 능력을 향상시킬 뿐 그것을 찬탈하지 않는다. 셋째, 자동화가 아닌 증강(Augmentation)이다. 인간의 제스처를 기계적 시뮬레이션으로 대체하려는 어떤 종류의 자동화도 거부하며, 대신 창의성, 예술적 감수성, 주의력, 기억력과 같은 기존의 자연적 능력을 향상시키는 증강을 수용한다. 스위스 시계 제조사, AI로 장인 기술 보존... 동작 3D 맵 구축 보고서는 스위스 하이엔드 시계 제조 하우스가 개발한 '디지털 음악원(Digital Conservatory)' 사례를 소개했다. 이 완전 통합 시스템은 네 가지 요소로 구성된다. 첫째, 가장 뛰어난 시계 제작자들이 다양한 작업을 수행할 때의 동작을 포착하는 동적 제스처 맵으로, 가장 기본적인 기술부터 가장 희귀한 컴플리케이션까지 시계 제작 노하우의 3D 아틀라스를 만든다. 둘째, 최소한의 인터페이스를 통해 견습생들이 복잡한 제스처를 재현하도록 안내하는 교육 어시스턴트다. 셋째, 각 예외적인 시계를 분석하고 카탈로그화하여 디자인 맥락, 제기된 기술적 과제, 도입된 혁신과 연결하는 역사적 작품의 맥락 아카이브다. 넷째, 마스터 시계 제작자들의 일화, 기술 용어, 이야기를 보존하는 문화적 메모리로, 임상적 텍스트가 아닌 구술 내러티브 형식으로 접근 가능하다. 이 종합 시스템은 시계 제조를 자동화하는 데 사용되지 않고, 인간적 차원을 강화하면서 미래를 확보하는 노하우 보존 및 전승 생태계로 작용한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. '인비저블 AI'란 무엇인가요? A: 인비저블 AI는 가장 첨단 기술이 의도적으로 인간 뒤에서 사라지면서 럭셔리의 본질인 장인적 탁월함, 특권적 인간 관계, 진정한 감정을 강화하는 접근 방식입니다. 기술이 눈에 보이지 않게 작동하지만 모든 것을 바꾸는 존재로, 고객은 AI의 개입을 인식하지 못하지만 경험은 미묘하게 향상됩니다. Q2. Z세대는 럭셔리 제품을 어떻게 발견하나요? A: Z세대는 대화형 어시스턴트에게 직접 질문합니다. 예를 들어 파리 11구에 사는 22세 레아는 침대에서 일어나기도 전에 "복합성 피부에 적합하고 클린 포뮬러이며 기름기가 남지 않는 보습 스킨케어 제품을 원해요"라고 말합니다. 브랜드 언급도, 구글 검색도, 이커머스 웹사이트에서의 끝없는 스크롤도 없이, 대화형 어시스턴트가 즉시 수천 개의 제품을 분류하고 세 가지 옵션을 제안합니다. Q3. 럭셔리 브랜드는 AI 시대에 어떻게 대비해야 하나요? A: 브랜드는 SEO(검색 엔진 최적화)에서 GEO(생성형 엔진 최적화)로 전환해야 합니다. 이는 콘텐츠와 정보 아키텍처에 대한 완전한 재고를 요구하는 새로운 분야입니다. 디지털 콘텐츠를 두 부분으로 분리해야 하는데, 하나는 고객에게 직접 다가가는 가시적이고 경험적인 것으로 감정, 미학, 스토리텔링에 초점을 맞추고, 다른 하나는 AI 시스템을 위한 보이지 않지만 똑같이 신중하게 구축된 것으로 구조화된 데이터, 정확한 맥락, 제품과 그 고유성을 적절히 이해하는 데 필요한 특정 속성을 제공합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.06 17:29AI 에디터

AI 평가의 역설...기술 발전 아닌 '관심 끌기' 경쟁으로 변질됐다

AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규 AI 모델을 발표할 때 기술적 성능보다 'LM아레나' 같은 사용자 투표 플랫폼에서의 순위를 더 강조하는 현상이 나타나고 있다. 2025년 5월 구글의 데미스 하사비스가 신규 AI 모델 발표에서 'LM아레나 리더보드 1위'를 주요 성과로 내세운 것이 대표적이다. 이러한 현상이 AI 개발을 실제 문제 해결보다 '관심 끌기' 경쟁으로 왜곡하고 있다는 지적이 나온다. 구글이 자랑한 'LM아레나 1위', AI 평가가 인기 투표로 바뀌었다 2025년 5월 구글 행사에서 데미스 하사비스는 새 AI 모델 '제미나이 2.5 프로'를 소개하며 'LM아레나 리더보드' 모든 순위에서 1위를 차지했다고 발표했다. 이는 AI 개발이 기술 발전보다 '순위 경쟁'으로 변하고 있음을 보여준다. LM아레나는 'AI 모델을 평가하는 중립적이고 공개된 플랫폼'으로, 지금까지 300만 건 이상의 투표를 수집했다. 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 좋은지 선택하면, 투표 후 어떤 AI였는지 공개되고 순위표가 만들어진다. UC버클리가 주도한 LM아레나는 2023년 5월 시작해 2025년 4월 회사로 전환했으며, 5월에는 6억 달러(약 8,687억 원) 가치를 인정받았다. 9월에는 기업 대상 유료 평가 서비스를 시작했다. 현재 텍스트, 웹 개발, 이미지 등 8개 분야에서 AI들이 경쟁한다. 기존 시험은 한계, 전문가 평가는 현실적으로 불가능 LM아레나가 등장한 이유는 기존 평가 방식의 한계 때문이다. 연구진은 2023년 자체 AI 모델을 만들면서 "AI 챗봇이 발전함에 따라 현재의 공개 벤치마크로는 충분하지 않다"고 판단했다. 실제로 전문가 수준 시험 GPQA에서 AI 점수가 2023년 31%에서 2025년 87%로 급상승했지만, 연구진은 "사용자가 챗봇의 유용성을 인식하는 것과 기존 벤치마크 기준 사이에는 근본적 불일치가 있다"고 지적했다. 전문가 평가도 현실적으로 어려웠다. 공동 창립자 이온 스토이카는 "전문가들에게 평가를 부탁했지만 거의 모두 시간이 없다고 거절했다"고 말했다. 또 다른 창립자 아나스타시오스 앤젤로풀로스는 "세상은 전문가가 모든 것의 최종 판단자가 되는 것에 반대하는 방향으로 움직이고 있다"며 "박사 학위 없이도 가치 있는 의견을 가질 수 있다"고 강조했다. 연구진은 한때 AI로 AI를 평가하는 방식을 검토했다. 확장성과 설명 가능성이란 장점이 있었지만, 긴 답변을 선호하는 편향과 수학·추론 문제의 한계가 드러나 일반 사용자 평가로 전환했다. 공정성을 위협하는 세 가지 문제 아레나화의 결과는 '아레나 게이밍', 즉 AI를 오직 순위 올리기 목적으로 최적화하는 현상이다. 이 논문 저자를 포함한 AI 평가 연구자들은 세 가지 주요 문제를 지적한다. 첫째, 맞춤형 비교 문제다. LM아레나 새 버전은 사용자가 특정 용도를 설명하면 두 익명 모델의 성능을 비교해주는 방식을 도입했다. 둘째, 우대 특혜다. 연구에 따르면 구글, 오픈AI, 메타, 아마존 같은 대형 개발사는 여러 제출물을 비공개로 테스트할 수 있다. 또한 독점 모델 개발사는 훨씬 더 많은 테스트 기회를 받는다. 구글과 오픈AI는 LM아레나 전체 테스트의 각각 19.2%와 20.4%를 차지한다. 대형 개발사가 다른 업체보다 상당한 특혜를 받는 셈이다. 셋째, 독립성 훼손이다. 가장 극단적 사례는 오픈AI가 수학 벤치마크 '프론티어매스' 개발 자금을 지원하면서도 이를 숨긴 경우다. 오픈AI의 o3 모델은 이 시험에서 25.3%를 달성했는데, 다른 모델들은 2%도 넘지 못했다. 나중에 오픈AI가 AI 평가용 수학 문제 300개 제작을 의뢰했고, 홀드아웃 세트를 제외하고 문제와 답에 접근할 수 있었다는 게 밝혀졌다. 오픈AI가 시험 의뢰자이자 응시자라는 점은 명백한 부정행위다. LM아레나 개발자들도 한계를 인식한다. "우리 사용자는 주로 LLM 애호가와 연구자들로 구성될 것"이며 "이는 편향된 분포를 초래할 뿐 아니라, 치열한 경쟁 덕분에 평가 과정을 조작하려는 시도"로 이어질 것으로 본다. 관심 끌기 경쟁이 AI 발전을 왜곡한다 논문 저자는 AI 혁신이 '관심 끌기' 경쟁으로 변하면서 세 가지 문제가 생긴다고 경고한다. 첫째, 점진적 개선에만 매달리게 된다. 벤치마크와 리더보드는 시간이 지나면서 순위가 조금씩 바뀌는데, 이런 작은 변화가 마치 의미 있는 발전인 것처럼 보이게 만든다. 결국 개발자들은 실제로 유용한 모델을 만드는 대신 선두 모델의 점수를 조금이라도 앞서는 데만 집중하게 된다. 둘째, 복잡한 현실을 지나치게 단순화한다. AI 업계에서 관심을 끄는 것은 해당 분야의 본질적 가치가 아니라 특정 모델이나 경쟁의 화제성이다. 이 때문에 복잡한 현실 세계의 문제들이 단순한 숫자와 토큰으로 환원되는 현상이 가속화되고 있다. 셋째, 사용자 선호 수집이 산업의 핵심 전략이 됐다. 신문이 발행 부수를, TV가 시청률을 중시하듯, AI 산업도 관심을 측정할 지표가 필요했다. LM아레나는 AI 평가를 전문 연구자 영역에서 일반 사용자 영역으로 대폭 확장했다. 이제 사용자의 관심을 끌고 모으는 것이 AI 산업의 주요 목표가 됐으며, 이는 AI 기술을 무한정 '확장'하려는 산업 전체의 집착을 보여준다. 아레나 방식을 통해 AI 모델의 가치를 실제 작업 환경이나 사용 맥락과 무관하게 하나의 숫자로 결정할 수 있게 됐다. 하지만 이런 평가는 결국 아레나에서 끊임없이 쌓이는 사용자 투표에만 의존한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. LM아레나는 어떻게 AI를 평가하나요? A: 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 나은지 선택합니다. 투표 후 AI 정체가 공개되고, 투표가 쌓여 브래들리-테리 통계 모델로 점수가 계산되며 순위표가 만들어집니다. Q2. 아레나 게이밍이란 무엇이고 왜 문제인가요? A: AI를 실제 유용성보다 아레나 순위만 올리려고 최적화하는 현상입니다. 대형 기업들이 비공개로 더 많이 테스트하거나, 오픈AI처럼 벤치마크 개발에 자금을 대면서 숨긴 것이 문제입니다. 공정한 경쟁 원칙을 무너뜨리고 AI 연구의 실제 가치를 왜곡합니다. Q3. AI 평가의 아레나화가 미치는 영향은 무엇인가요? A: 세 가지 영향이 있습니다. 첫째, 실제 문제 해결보다 순위를 쫓는 점진적 개선이 강화됩니다. 둘째, 복잡한 현실을 단순한 토큰으로 축소하는 현상이 가속화됩니다. 셋째, 사용자 선호 표현 수집이 AI 산업의 핵심 전략이 되면서 선호 표현의 중요성이 깊어집니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 20:18AI 에디터

"고독사 75%가 40~60대"…AI 안부전화로 중장년 고립 막는다

한국이 초고령사회로 진입하며 복지와 돌봄 분야에서 AI 기술을 활용한 혁신이 시급해졌다. 2024년 12월 23일 65세 이상 인구 비중이 20%를 넘어서며 초고령사회에 진입한 한국은 송파 세모녀 사건(2014년)부터 가로수길 고독사(2025년)까지 반복되는 복지 사각지대 비극을 막기 위해 AI 기반 선제적 발굴 시스템을 본격화하고 있다. 한국지능정보사회진흥원(NIA)은 리포트를 통해 신청주의 복지 제도의 한계를 극복하고 사람 중심의 AI 활용 방안을 제시했다. '신청 대기' 복지에서 'AI 선제 발굴'로 한국 정부는 2014년 송파 세모녀 사건을 계기로 사회보장급여법을 제정하고, 2015년 12월부터 빅데이터를 활용한 복지 사각지대 발굴 시스템을 운영해왔다. 이 시스템은 단전, 단수, 통신비 체납, 금융 연체, 의료 위기, 범죄 피해 등 다양한 정보를 수집해 위기 가능성이 높은 후보군을 선정한다. 2015년 18종이었던 연계 정보는 2025년 현재 47종까지 확대됐으며, 2개월마다 약 20만 명을 발굴해 지자체 보건복지팀이 일일이 확인한 뒤 필요한 서비스를 지원한다. 2015년 12월부터 2023년까지 단전, 단수 등 위기 정보를 보유한 666만 명(누적)의 위기 가구를 발굴하여 290만 명(누적)에게 기초 생활 보장, 긴급 지원 등 공적 급여와 민간 자원 연계 등 복지서비스를 지원했다. 2024년 7월부터는 AI를 활용한 초기 상담이 시범 적용됐다. 업무 담당자가 대상자에게 전화하기 전 문자메시지를 발송하고 긴급 상황 및 복지 욕구를 조사해 위기 가구의 복지 욕구를 신속히 파악하도록 했다. 이는 공무원이 심층 상담에 집중할 수 있게 하는 동시에 초기 단계에서 위기 징후를 놓치지 않도록 돕는다. 그러나 현재 시스템은 한계도 있다. 발굴된 대상자 중 실제 지원 대상자와 비대상자로 분류되며 비대상자는 회차별 약 11~14% 수준이다. 연락두절이나 지원 거부 등 비대상자 관리 체계가 아직 미흡하다. 리포트는 위기 정보 변수를 정교화하고, 이미 다른 제도로 보호받는 집단을 반복 발굴에서 제외하는 등 시스템 개선이 필요하다고 제안했다. 고독사 3,661명 시대, 75%가 40~60대… AI 안부확인·돌봄 로봇 도입 한국의 고독사 사망자는 2022년 3,559명에서 2023년 3,661명으로 증가했으며, 특히 40~60대 중장년층이 2017년부터 2023년까지 발생한 고독사 사망자 21,897명 중 74.8%를 차지해 더 이상 노년층만의 문제가 아니다. 1인 가구 급증이 사회적 관계망을 약화시키며 고독사를 부추기는 핵심 요인으로 작용하고 있다. 이에 서울, 광주 등 전국 다수 지방자치단체가 SKT, KT 등 민간 통신사의 AI 기술을 활용해 독거노인 등 1인 취약가구를 대상으로 AI 안부확인 서비스를 도입했다. 서울시는 AI가 주 1회 자동으로 전화를 걸어 건강, 식사, 운동, 약 복용, 불편사항 등을 확인하는 'AI 안부확인 서비스'를 19개 자치구에서 약 1만 2천 가구에 제공한다. 또한 휴대전화 통신 이력, IoT 디바이스, 모바일 앱 걸음수를 종합 모니터링하는 '똑똑안부서비스', 통신 빅데이터와 전력사용량을 AI로 분석하는 'AI안부든든서비스' 등 다양한 스마트 안부 확인 서비스를 운영 중이다. 돌봄 로봇 분야에서도 혁신이 진행되고 있다. 정부는 고령자의 이승보조, 욕창예방, 배설보조, 식사보조, 이동지원, 소통, 운동보조, 목욕보조, 모니터링 등을 위한 돌봄 로봇 9종 개발 및 실증 사업을 추진하고 있으며, AI 기반 말동무 기능을 통한 독거노인의 우울감 해소 및 치매 환자 인지 훈련을 위한 반려 로봇도 보급하고 있다. 단양군에서 AI 반려로봇을 보급한 결과, 한국형노인우울척도(K-GDS)에서 우울증 지수가 평균 7.3점에서 3.9점으로 개선되는 효과를 보였다. 304만 자격증 vs 64만 실제 인력… 돌봄 공백, AI가 메운다 2024년 노인장기요양보험 인정자 수는 116만 5,030명으로 전년 대비 6.1% 증가했으며, 2024년 한 해 노인장기요양 급여 비용은 16조 1천 762억 원으로 전년 대비 11.6% 늘며 처음으로 16조 원을 돌파했다. 그러나 돌봄 서비스의 핵심 공급원인 돌봄 인력은 심각한 공급 부족과 높은 이직률에 시달리며 돌봄 공백이 현실화되고 있다. 요양보호사 자격 소지자는 지속 증가하여 2024년 기준 304만 명 규모이나 실제 현장에서 일하는 인력은 63.7만 명 수준이다. 돌봄 노동은 높은 수준의 신체적·감정적 노동 강도를 요구하지만, 낮은 임금과 열악한 근로 환경으로 인해 신규 인력 유입이 단절되고 기존 인력마저 빠르게 소진되고 있다. 정부는 노동공급 감소로 인한 돌봄 인력 부족에 대비하여 스마트돌봄 서비스를 추진하고 있다. AI 기반 비접촉식 안전·건강 모니터링 장치를 통해 체온·호흡 등 생체 신호를 자동 감지하고, 낙상 위험·자세 변화·수면 상태 등을 실시간 분석하여 건강 이상을 조기 탐지한다. AI 순찰 로봇을 활용해 요양 보호사의 순찰 업무를 보조하고, 이상 징후 감지 시 즉시 경보 및 응급 상황 알림을 제공한다. 인공지능(AI), 사물인터넷(IoT), 센서, 로봇 기술을 통합한 스마트 요양시설 통합관제 시스템을 구축하여 시설 내 돌봄 효율과 안전성을 향상시키고 있다. 네덜란드 SyRI 실패 교훈… '투명성·공정성' 없는 AI는 오히려 역효과 리포트는 네덜란드의 복지 사기 탐지 시스템 SyRI 사례를 주요 경고 사례로 제시했다. 2020년 2월 네덜란드 헤이그 법원은 정부가 빈곤층 커뮤니티를 대상으로 운영하던 SyRI 시스템의 사용 중단을 명령했다. SyRI는 여러 정부 기관이 보유한 민감 개인정보를 비공개 알고리즘으로 분석해 복지 사기 가능성이 높은 개인을 식별했지만, 알고리즘의 작동 원리가 공개되지 않은 블랙박스 상태로 운영됐고 특히 저소득 이민자 밀집 지역을 집중 대상으로 삼아 차별적 영향을 초래했다. 법원은 SyRI가 유럽인권조약이 보장하는 사생활 보호권을 침해한다고 판결했다. 이 사례는 공공 영역에서 AI 도입이 투명성, 공정성, 프라이버시 보호 등 국민 신뢰 확보를 전제하지 않을 경우 역효과를 초래할 수 있음을 보여준다. 리포트는 복지·돌봄 분야의 AI 활용이 기술이 인간을 대체하는 방식이 아닌, 인간의 역할을 강화하고 보호하는 방향에서 사회적 합의와 원칙을 기반으로 추진돼야 한다고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 복지 사각지대 발굴 시스템은 어떻게 작동하나요? A. 정부는 단전, 단수, 통신비 체납, 금융 연체 등 47종의 위기 정보를 2개월마다 수집해 빅데이터 분석 모델로 위기 가능성이 높은 약 20만 명을 선정합니다. 지자체 보건복지팀이 전화나 방문으로 확인한 뒤 필요한 복지 서비스를 지원합니다. Q. AI 안부확인 서비스는 무엇인가요? A. AI가 주 1회 자동으로 독거노인 등에게 전화를 걸어 건강, 식사, 약 복용 등을 확인하는 서비스입니다. 서울시는 약 1만 2천 가구에 이 서비스를 제공하며, 통신 이력과 전력 사용량을 AI로 분석하는 서비스도 함께 운영합니다. Q. 돌봄 인력 부족은 얼마나 심각한가요? A. 요양보호사 자격증 소지자는 304만 명이지만 실제 현장에서 일하는 인력은 63.7만 명에 불과합니다. 낮은 임금과 열악한 근로 환경으로 인해 신규 인력 유입이 단절되고 기존 인력도 빠르게 소진되고 있어, 정부는 AI 기반 스마트 돌봄 서비스로 이를 보완하고 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 17:26AI 에디터

AI를 왜 믿냐하면…"사람을 못 믿어서"

콜롬비아 라사바나대학교 연구팀이 흥미로운 사실을 발견했다. 사람들이 AI를 신뢰하는 이유가 AI 자체가 똑똑해서가 아니라, 주변 사람들을 믿지 못하기 때문이라는 것이다. 연구팀은 이를 '옮겨진 신뢰(deferred trust)'라는 개념으로 설명했다. 쉽게 말해, 사람에 대한 믿음이 무너지면 그 믿음이 AI로 옮겨간다는 뜻이다. 챗GPT vs 성직자, 누구를 선택했을까? 해당 논문에 따르면, 연구팀은 55명의 대학생을 대상으로 실험을 진행했다. 참가자들에게 30가지 다양한 상황을 제시하고, 누구에게 조언을 구할지 선택하게 했다. 선택지는 챗GPT나 제미나이 같은 AI 챗봇, 알렉사나 시리 같은 음성 비서, 친구, 어른, 성직자 등 다섯 가지였다. 질문도 다양했다. "전구는 언제 발명됐나요?" 같은 사실 확인 질문부터 "누군가에게 복수하고 싶은데 어떻게 해야 하나요?" 같은 도덕적 고민까지 포함됐다. 참가자는 심리학과 간호학을 전공하는 학부생들이었고, 평균 나이는 19.38세, 55명 중 45명이 여성이었다. 결과를 보면, 전체적으로는 어른이 35.05%로 가장 많이 선택됐다. AI는 28.29%로 2위였다. 하지만 상황에 따라 선호도가 크게 달랐다. 연구팀이 상황을 세 그룹으로 나눠 분석했더니, 사실 확인이 필요한 질문에서는 AI가 73.8%로 압도적이었다. 반대로 감정이나 도덕과 관련된 문제에서는 친구나 어른을 더 많이 선택했다. 사람 못 믿을수록 AI를 더 선택한다 연구팀은 참가자 55명이 30가지 상황에서 보인 선택 패턴을 분석했다. 누구는 대부분 AI를 선택했고, 누구는 주로 어른을 선택하는 식으로 각자 패턴이 달랐다. 이 패턴이 비슷한 사람끼리 묶어보니 자연스럽게 세 그룹으로 나뉘었다. 1그룹(10명)은 선택이 비교적 골고루 퍼져 있었다. 어른을 33% 정도 선택해 가장 많이 골랐지만, AI도 27%, 친구도 20% 선택했다. 2그룹(33명)은 어른을 압도적으로 선호했다. 전체 선택의 53%가 어른이었다. 반면 AI는 10%만 선택해 세 그룹 중 가장 낮았다. 3그룹(12명)이 특히 눈에 띄었다. 이 그룹도 어른을 가장 많이 선택했지만(42%), AI를 고른 비율이 33%로 다른 그룹보다 훨씬 높았다. 그렇다면 3그룹 사람들은 어떤 특징이 있을까? 연구팀이 추가로 분석해봤더니 공통점이 발견됐다. 먼저, 주변 사람들을 잘 믿지 않았다. 성직자, 친구, 어른 모두에 대한 믿음이 낮았다. 특히 성직자를 못 믿는 사람일수록 이 그룹에 속할 가능성이 가장 높았다. 재밌는 점은 이들이 평소 기술을 많이 쓰는 사람들이 아니었다는 것이다. 스마트폰이나 컴퓨터 사용 시간도 적었고, 기술 관련 교육을 받은 경험도 적었다. 그런데도 AI는 많이 선택했다. 대신 이들은 경제적으로 여유가 있는 편이었다. 소득 수준이 높을수록 3그룹에 속할 확률이 높았다. '옮겨진 신뢰'란 무엇인가 연구팀이 제안한 '옮겨진 신뢰'는 이런 현상을 설명하는 개념이다. 사람에 대한 불신이 AI로의 의존을 높인다는 것이다. 기존 연구들은 AI를 단순한 도구로 봤다. 사람들이 AI를 쓰는 이유는 편리하고 유용하기 때문이라고 생각했다. 하지만 이 연구는 다른 시각을 제시한다. 사람들은 AI를 단순한 도구가 아니라 대화 상대처럼 인식한다. 챗GPT 같은 대형 언어모델이 사람처럼 자연스럽게 대화하면서, 사용자들은 AI에게 의도나 동기가 있다고 느끼기 시작했다. 그래서 AI를 믿을지 말지 판단할 때도 사람을 대하듯 한다는 것이다. 연구팀은 이것이 '신뢰 전이'와 관련 있다고 설명한다. 보통은 믿던 대상에게 쌓인 신뢰가 비슷한 다른 대상으로 옮겨간다. 하지만 AI의 경우는 반대다. 사람에 대한 나쁜 경험이 오히려 AI로의 신뢰를 만든다. 사람은 편견이 있고 신뢰할 수 없다고 느낄 때, AI가 더 중립적이고 유능해 보이기 때문이다. 어릴수록, 기술에 익숙할수록 AI를 덜 믿는다 흥미로운 점도 발견됐다. 나이가 어릴수록 AI를 덜 선택했다. 또 평소 기술을 많이 쓰는 사람일수록 AI 선택이 줄어들었다. 이는 기술을 잘 아는 사람이 AI의 한계도 잘 안다는 뜻이다. 연구팀은 이를 '인식적 경계'라는 개념으로 설명한다. 정보의 출처가 믿을 만한지 따져보는 능력인데, 기술에 익숙한 사람일수록 이 능력이 높다. AI가 아무리 자신 있게 답해도 쉽게 믿지 않는다는 것이다. 반대로 AI를 많이 믿는 그룹은 기술을 덜 쓰는 사람들이었다. 이들은 AI의 '유창함'에 더 잘 속는다. AI가 말을 잘하고 자신감 있게 답하면, 그 내용이 맞는지 틀리는지 따지지 않고 믿게 된다는 것이다. AI 투명성만으론 부족하다... 사용자 심리 이해가 먼저 이 연구는 AI 신뢰가 단순히 기술의 성능 때문만은 아니라는 점을 보여준다. 오히려 사람 관계에서의 실망이 중요한 역할을 한다. 연구팀은 AI의 투명성을 높이는 것만으로는 충분하지 않으며, 사용자가 왜 AI를 선택하는지 이해해야 한다고 강조한다. 다만 한계도 있다. 참가자가 모두 대학생이라 다른 연령대나 문화권에도 같은 결과가 나올지는 확실하지 않다. 또 실험이 텍스트 기반 가상 상황이었기 때문에, 실제 생활에서도 똑같을지는 더 연구가 필요하다. 연구팀은 앞으로 더 다양한 사람들을 대상으로, 실제 대화 상황에서 연구를 확장할 계획이라고 밝혔다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. '옮겨진 신뢰'가 뭔가요? A: 주변 사람을 믿지 못할 때, 그 믿음을 AI로 옮기는 현상입니다. 예를 들어 친구나 가족의 조언이 편파적이라고 느끼면, 더 중립적으로 보이는 AI를 선택하게 됩니다. AI 자체가 좋아서가 아니라 사람이 실망스러워서 선택하는 것입니다. Q2. 어떤 질문에 AI를 가장 많이 선택하나요? A: 사실을 확인하는 질문에서 AI가 압도적입니다. "전구는 언제 발명됐나요?" 같은 질문에는 73.8%가 AI를 선택했습니다. 반대로 "복수를 해야 할까요?" 같은 도덕적 고민이나 감정 상담에는 여전히 사람을 더 선택합니다. Q1. 사람을 못 믿으면 AI를 더 믿게 되나요? A: 그렇습니다. 이 연구에서 성직자, 친구, 어른 등 주변 사람에 대한 믿음이 낮은 사람일수록 AI를 더 많이 선택했습니다. 특히 어른에 대한 믿음이 낮을수록 AI 선택률이 크게 올라갔습니다. 연구팀은 이를 '옮겨진 신뢰'라고 부르며, 사람이 실망스러울 때 더 중립적으로 보이는 AI로 믿음이 옮겨간다고 설명합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 13:18AI 에디터

챗GPT에 속은 학생들 "아는 것만 물어볼래요"…'AI 검증 전략' 스스로 개발

그리스 고등학생 109명을 대상으로 한 실험에서 챗GPT-5의 허위 정보 생성(환각) 문제를 직접 경험한 학생들이 AI 사용 방식을 스스로 제한하는 흥미로운 행동 패턴이 발견됐다. 이들은 AI에게 질문할 때 자신이 이미 알고 있는 주제만 선택해 답변의 정확성을 검증할 수 있도록 하는 전략을 취했다. 연구자들은 이를 '인식론적 안전장치(epistemic safeguarding)'라는 새로운 개념으로 명명했다. AI 환각 경험 후 달라진 학생들의 대처법 해당 논문에 따르면, 그리스 국립 아테네대학교 연구팀은 2025년 9월부터 10월까지 그리스 아테네 인근 3개 고등학교의 16세 학생 109명을 대상으로 챗GPT-5 활용 수업을 진행했다. 이 연구의 핵심은 학생들에게 의도적으로 챗GPT-5의 환각 현상을 경험하게 했다는 점이다. 연구팀은 8시간에 걸친 수업에서 학생들에게 정보 검색, 이력서 작성, 문서 및 영상 요약, 이미지 생성, 퀴즈 제작 등 7가지 활동을 제공했다. 특히 챗GPT-5가 허위 과학적 사실을 만들어내거나 잘못된 역사·지리 정보를 제공하는 사전 확인된 질문들을 학생들에게 직접 입력하도록 했다. 학생들은 AI가 생성한 답변을 검색을 통해 확인하면서 오류를 직접 발견했다. 36명의 학생을 대상으로 한 심층 인터뷰에서 많은 학생들이 "앞으로는 내가 어느 정도 아는 주제에 대해서만 챗GPT에 물어볼 것"이라고 답했다. 이들은 자신이 기존에 알고 있는 지식을 활용해 AI의 답변이 정확한지 판단할 수 있을 때만 AI를 사용하겠다는 전략을 세운 것이다. 연구팀은 이러한 행동을 단순한 사실 확인을 넘어서 학생들이 AI 사용 영역을 스스로 제한함으로써 인식론적 통제권을 유지하려는 능동적인 메타인지 전략으로 해석했다. AI에 대한 태도는 긍정적이지만 불안감도 공존 학생들의 AI에 대한 태도를 측정하기 위해 연구팀은 'SATAI(Student Attitude Toward Artificial Intelligence)' 척도를 사용했다. 5점 척도로 측정한 결과, 전체 평균은 3.24점으로 중간 이상의 긍정적 태도를 보였다. 특히 "AI가 사람들의 삶을 더 편리하게 만든다"(3.65점)와 "학교에서 AI에 대해 배우는 것이 중요하다"(3.52점) 항목에서 높은 점수를 받았다. 그러나 세부적으로 살펴보면 흥미로운 차이가 나타났다. 인지적 태도(AI가 중요하다는 생각)는 3.44점, 정서적 태도(AI에 대한 감정)는 3.38점으로 비교적 높았지만, 행동적 의도(실제 AI를 사용하거나 관련 진로를 선택하려는 의향)는 3.04점으로 상대적으로 낮았다. "AI 분야에서 일자리를 선택하겠다"는 항목은 2.58점으로 가장 낮은 점수를 받았다. 이는 학생들이 AI의 교육적 가치는 인정하지만 실제 행동으로 옮기는 데는 주저하고 있음을 보여준다. 흥미롭게도 이전에 챗GPT를 사용해 본 경험이 있는 학생들(31.2%)은 모든 태도 항목에서 더 높은 점수를 보였다. 경험이 있는 학생들의 전체 SATAI 점수는 3.57점인 반면, 경험이 없는 학생들은 3.09점에 그쳤다. 이는 AI에 대한 직접적인 경험이 긍정적인 태도 형성에 중요한 역할을 한다는 것을 시사한다. 일자리 대체 우려가 학습 불안보다 크다 AI 관련 불안감을 측정하는 'AIAS(Artificial Intelligence Anxiety Scale)' 조사에서는 7점 척도로 측정한 결과, 학습 관련 불안은 3.09점으로 중간 이하 수준이었다. "AI 기술/제품 사용법을 배울 때 불안하다"(3.27점), "AI가 실제로 어떻게 작동하는지 배울 때 불안하다"(3.19점) 등의 항목이 이에 해당한다. 반면 일자리 대체와 관련된 불안은 4.07점으로 훨씬 높았다. 특히 "AI 기술/제품이 우리를 더 게으르게 만들까 봐 두렵다"는 항목이 4.46점으로 가장 높은 점수를 받았으며, "AI 기술/제품이 인간을 대체할까 봐 두렵다"(4.37점)도 높은 불안감을 나타냈다. 이는 고등학생들이 미래 직업 세계에서 AI로 인한 변화에 대해 상당한 우려를 갖고 있음을 보여준다. 주목할 만한 점은 AI에 대한 긍정적인 태도와 AI 관련 불안감이 거의 무관하다는 것이다. AI 태도 점수가 높은 학생들이라고 해서 AI 불안감이 낮지 않았고, 반대로 AI에 대해 부정적인 학생들이 더 불안해하는 것도 아니었다. 이는 학생들이 교육 현장에서 AI의 유용성을 인정하면서도 동시에 AI가 사회와 고용에 미칠 광범위한 영향에 대해서는 별도로 걱정할 수 있음을 의미한다. 성별 차이도 발견됐다. AI 불안감에서는 남녀 간 유의미한 차이가 없었지만, AI에 대한 태도에서는 여학생들이 남학생들보다 더 긍정적이었다. 특히 인지적 태도에서 여학생은 3.68점, 남학생은 3.09점으로 뚜렷한 차이를 보였다. 즉각적 피드백과 친숙한 인터페이스가 장점 질적 분석에서는 챗GPT-5 사용의 4가지 교육적 장점이 확인됐다. 가장 많은 학생(29명)이 언급한 것은 '새로운 지식 생성'이었다. 학생들은 챗GPT-5를 특정 주제에 대한 지식을 확장하는 도구로 활용했다. 다만 환각 현상을 경험한 후에는 자신이 사전 지식을 갖고 있는 주제에 대해 질문하는 경향을 보였다. 두 번째로 18명의 학생이 '즉각적인 피드백'을 장점으로 꼽았다. 학생들은 자신의 글쓰기에 대한 피드백을 요청하거나 영상과 파일 요약을 받을 때 빠른 응답 시간이 동기 부여와 시간 효율성 측면에서 유리하다고 평가했다. 16명의 학생은 소셜미디어와 유사한 '친숙하고 직관적인 사용자 인터페이스'를 언급했으며, 10명은 챗GPT-5가 계산적 사고, 문제 해결, 비판적 사고, 디지털 리터러시 등 '기술 개발'에 도움이 된다고 답했다. 한편 제약 사항으로는 21명의 학생이 '콘텐츠 정확성에 대한 불확실성'을 지적했다. 흥미롭게도 챗GPT-5 입력창 하단에 "챗GPT가 잘못 답할 수 있습니다"라는 경고문을 읽었던 학생 20명은 이것이 수학 계산 오류를 의미한다고 생각했지, 환각 현상을 통한 잘못된 정보 제공을 의미한다고는 해석하지 않았다. 11명의 학생은 'AI 피드백과 관련된 불안'을 언급했다. 이들은 챗GPT-5가 지속적으로 수정 제안을 하는 피드백 루프 때문에 자신의 작업이 "결코 충분히 좋지 않을 것"이라는 느낌을 받았다고 답했다. 4명의 학생은 개인정보 보호에 대한 우려를 표현하며, 자신이 입력한 정보가 어디에 저장되고 누가 접근할 수 있는지에 대한 불확실성을 지적했다. AI 리터러시 교육의 새로운 방향 이번 연구는 중등교육에서 생성형 AI 활용에 대한 중요한 시사점을 제공한다. 첫째, 학생들에게 AI의 한계를 직접 경험하게 하는 것이 오히려 더 현명한 AI 사용 전략을 개발하는 데 도움이 될 수 있다. 환각 현상을 숨기거나 회피하기보다는 교육 과정에서 명시적으로 다루는 것이 학생들의 비판적 AI 리터러시를 강화한다. 둘째, '인식론적 안전장치' 개념은 단순한 팩트체크를 넘어서는 능동적인 메타인지 전략이다. 학생들은 AI를 완전히 거부하거나 맹목적으로 의존하는 대신, 자신이 통제할 수 있는 범위 내에서 AI를 활용하는 중간 지점을 찾았다. 이는 AI 시대에 필요한 인식론적 주체성(epistemic agency)의 중요한 사례다. 셋째, AI에 대한 긍정적 태도와 불안감이 독립적으로 존재할 수 있다는 발견은 교육 정책 수립 시 고려해야 할 중요한 요소다. 학생들이 AI의 교육적 가치를 인정하도록 하는 것만으로는 충분하지 않으며, 일자리 대체와 같은 장기적 우려에 대한 논의와 대비 교육도 함께 제공해야 한다. 넷째, 이전 챗GPT 경험이 있는 학생들이 더 긍정적인 태도를 보인다는 결과는 조기 노출의 중요성을 시사한다. 다만 이러한 노출은 비판적 사고와 검증 능력 개발과 함께 이루어져야 한다. 다섯째, 여학생들이 남학생들보다 AI에 대해 더 긍정적인 인지적 태도를 보인 것은 기존의 성별 고정관념과 상반되는 결과로, AI 교육이 기술 분야의 성별 격차를 줄이는 데 기여할 가능성을 보여준다. 마지막으로, 이 연구는 AI 교육이 단순히 기술적 사용법을 가르치는 것을 넘어, 학생들이 AI와의 상호작용을 어떻게 구조화하고 제한할지를 스스로 결정할 수 있는 능력을 키워야 함을 강조한다. AI의 성능을 향상만큼 학생들이 AI를 비판적으로 활용하는 능력을 키우도록 돕는 것이 중요하다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT를 사용해 본 학생과 처음 사용하는 학생의 태도 차이가 있나요? A: 네, 이번 연구에서 이전에 챗GPT를 사용해 본 경험이 있는 학생들(31.2%)은 처음 사용하는 학생들보다 AI에 대해 훨씬 긍정적인 태도를 보였습니다. 경험이 있는 학생들의 AI 태도 점수는 3.57점인 반면, 경험이 없는 학생들은 3.09점으로 약 0.5점 차이가 났습니다. 특히 인지적 태도(AI가 중요하다는 생각)에서는 3.72점 대 3.31점, 정서적 태도(AI에 대한 감정)에서는 3.75점 대 3.22점으로 뚜렷한 차이를 보였습니다. 이는 AI에 대한 직접적인 경험이 긍정적인 태도 형성에 중요한 역할을 한다는 것을 보여줍니다. Q2. 학생들이 AI를 좋아하면 AI에 대한 불안감도 낮아지나요? A: 흥미롭게도 그렇지 않습니다. 연구 결과에 따르면 AI에 대한 긍정적인 태도와 AI 불안감은 거의 상관관계가 없었습니다. 즉, 학생들은 AI가 학습에 유용하고 미래에 중요하다고 생각하면서도, 동시에 AI가 일자리를 빼앗거나 사람들을 의존적으로 만들 수 있다는 우려를 할 수 있습니다. 실제로 학습과 관련된 AI 불안은 3.09점으로 낮았지만, 일자리 대체에 대한 불안은 4.07점으로 상대적으로 높게 나타났습니다. 특히 "AI가 우리를 더 게으르게 만들까 봐 두렵다"는 항목은 4.46점으로 가장 높은 불안감을 보였습니다. Q3. 인식론적 안전장치란 무엇을 의미하나요? A: 인식론적 안전장치(epistemic safeguarding)는 이번 연구에서 새롭게 제시된 개념으로, 학생들이 AI의 환각 현상을 경험한 후 자신이 이미 알고 있는 지식 영역에서만 AI를 사용하도록 스스로 제한하는 전략을 말합니다. 학생들은 자신의 기존 지식을 활용해 AI의 답변을 검증할 수 있을 때만 AI를 활용함으로써, 잘못된 정보에 오도될 위험을 최소화하고 인식론적 통제권을 유지합니다. 이는 단순한 팩트체크를 넘어서는 능동적이고 메타인지적인 AI 리터러시 전략입니다. * 해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.02 08:31AI 에디터

꿀벌 떼, AI 학습 원리로 움직인다...생물학계 '진화의 지혜' 재조명

캐나다 몬트리올 폴리테크닉 대학교와 밀라 퀘벡 AI 연구소, 독일 콘스탄츠 대학교 공동 연구팀이 꿀벌 무리가 집을 찾는 과정을 분석한 결과, 이것이 AI가 학습하는 방식과 수학적으로 완전히 같다는 사실을 발견했다. 개별 꿀벌은 복잡한 계산을 못하지만, 수백 마리가 모이면 마치 하나의 똑똑한 AI처럼 최선의 선택을 한다는 것이다. 춤으로 정보를 전달하는 꿀벌, 그 안에 숨겨진 학습의 비밀 연구 논문에 따르면, 꿀벌이 새집을 찾을 때 벌어지는 일은 매우 흥미롭다. 정찰을 나간 꿀벌들은 여러 후보 장소를 둘러본 뒤 무리로 돌아와 '흔들기 춤(waggle dance)'을 춘다. 이 춤으로 "내가 본 곳의 위치"를 알려주는데, 재밌는 건 춤을 추는 빈도다. 좋은 장소를 발견한 꿀벌은 춤을 많이 추고, 별로인 곳을 본 꿀벌은 춤을 적게 춘다. 다른 꿀벌들은 주변에서 처음 본 춤을 따라 한다. 그냥 "저 친구 춤 좋아 보이네? 나도 그 장소 가볼까" 하는 식이다. 이렇게 단순하게 따라만 하는데도, 신기하게 무리 전체는 결국 가장 좋은 장소를 선택하게 된다. 연구팀은 이를 '가중 유권자 모델'이라고 부르며 수학적으로 분석했다. 꿀벌 수백 마리가 동시에 학습하는 하나의 AI 시스템 연구의 핵심은 이렇다. 꿀벌 무리 전체를 하나의 AI로 보면, 각각의 꿀벌은 그 AI가 동시에 돌리는 '학습 환경' 하나하나와 같다는 것이다. 쉽게 비유하자면 이렇다. 게임 AI를 학습시킬 때, 똑같은 게임을 500개 동시에 켜놓고 학습하면 1개만 켜놓고 학습하는 것보다 훨씬 빠르다. 꿀벌도 마찬가지다. 실제 꿀벌 군집에서는 약 1만 마리 중 200~500마리 정도가 정찰벌로 활동한다. 이들이 각자 다른 장소를 탐색하고 돌아와 정보를 공유하면, 마치 하나의 똑똑한 존재가 수백 개의 장소를 동시에 살펴보는 것과 같은 효과가 난다. 실제 시뮬레이션 결과, 정찰벌이 500마리 정도만 되어도 이론상 최고 수준의 선택을 할 수 있었다. 반대로 10마리처럼 너무 적으면 잘못된 선택을 할 확률이 높아졌다. 새로운 AI 학습 방법 발견... "메이너드-크로스 러닝"이라 명명 연구팀은 꿀벌의 이런 행동 패턴을 AI 학습 알고리즘으로 만들었다. 이름은 '메이너드-크로스 러닝'이다. 기존 AI 학습법을 개량한 것인데, 핵심은 "평균 대비 얼마나 좋은가"를 따진다는 점이다. 예를 들어보자. 10점짜리 장소와 8점짜리 장소가 있다고 하자. 보통은 "10점이니까 좋네"라고 절대적으로 판단한다. 하지만 메이너드-크로스 러닝은 현재 평균값으로 나눠서 판단한다. 평균이 9점이면 10점은 크게 좋은 게 아니지만, 평균이 5점이면 10점은 엄청 좋은 것이 된다. 이게 바로 꿀벌이 춤추는 방식과 똑같다. 꿀벌도 절대적인 점수가 아니라, 다른 장소들의 평균 품질 대비 얼마나 좋은지에 따라 춤 빈도를 조절한다는 것이다. 꿀벌뿐 아니다... 경제, 사회, 로봇 기술에도 적용 가능 이 발견은 꿀벌을 넘어 여러 분야에 영향을 준다. 첫째, 사람들의 경제 행동도 비슷하게 설명할 수 있다. 주식 투자나 사업에서 "성공한 사람 따라하기"를 많이 하는데, 이것도 집단 수준에서 보면 AI 학습 과정의 일부라는 것이다. 개인은 그냥 따라하는 것뿐이지만, 사회 전체로 보면 점점 나은 방향으로 학습하고 있다는 의미다. 둘째, 로봇 기술에 활용할 수 있다. 수백 대의 작은 로봇들이 협력해야 하는 상황(예: 재난 현장 수색)에서, 각 로봇에게 복잡한 AI를 넣지 않아도 된다. 꿀벌처럼 단순한 규칙만 따르게 하면, 로봇 무리 전체가 똑똑하게 움직일 수 있다. 연구팀은 또한 예쁜꼬마선충(C. elegans)이라는 작은 생물도 비슷한 원리로 먹이를 찾는다는 사실도 언급했다. 이는 이런 집단 학습 원리가 자연계에 광범위하게 존재함을 보여준다. 더 빠른 방법도 있는데 왜 꿀벌은 이 방식을 택했을까 연구팀은 컴퓨터 시뮬레이션으로 다른 의사결정 방식들을 테스트해봤다. 결과는 놀라웠다. 꿀벌들이 서로 만났을 때 품질 점수를 직접 비교해서 "네가 더 높은 점수를 받았네, 너를 따라갈게"라고 결정하는 방식이 현재 꿀벌이 쓰는 방식보다 훨씬 빠르게 최선의 선택에 도달했다. 그렇다면 왜 진화는 더 느린 방법을 선택했을까? 연구팀은 핵심 문제를 지적했다. 바로 "품질 점수를 서로 비교할 수 있는 공통 기준"을 만드는 게 불가능하다는 것이다. 현실에서 꿀벌들은 각자 다른 조건에서 둥지를 평가한다. 어떤 꿀벌은 맑은 날 갔고, 어떤 꿀벌은 흐린 날 갔을 수 있다. 개별 꿀벌마다 감각 능력도 다르고, 온도·습도·공간 같은 요소에 두는 중요도도 다르다. 그러니 한 꿀벌이 "8점"이라고 평가한 것과 다른 꿀벌이 "8점"이라고 평가한 것이 실제로 같은 품질인지 알 수 없다. 점수를 직접 비교하려면 모든 꿀벌이 같은 척도로 평가해야 하는데, 이는 매우 어려운 문제다. 꿀벌의 현재 방식은 이 문제를 영리하게 피해간다. 각 꿀벌은 자신의 주관적 평가(품질 점수)를 단순히 "춤 빈도"로 바꿔서 전달한다. 다른 꿀벌들은 품질 점수 자체를 듣는 게 아니라 춤 빈도만 본다. 즉, "이 친구가 얼마나 열심히 춤추나"만 관찰하면 된다. 이렇게 하면 척도 교정 문제가 완전히 사라진다. 물론 이 방식은 더 느리다. 하지만 개별 꿀벌의 뇌는 최소한으로 단순하게 유지할 수 있다. 신경 조직은 엄청난 에너지를 소비한다(포유류의 경우 다른 조직보다 단위 무게당 거의 10배). 꿀벌도 비슷할 것이다. 진화는 "개체는 최대한 단순하게, 집단은 충분히 똑똑하게"라는 전략을 택한 것이다. 수렴 속도는 조금 느려도, 에너지 효율이 좋고 개체마다 능력이 달라도 견고하게 작동하는 시스템을 선택했다. 수백만 기기의 협력, 꿀벌에게 배운다 이 연구는 AI 기술 개발의 새로운 방향을 제시한다. 지금까지 AI 개발은 "하나의 슈퍼 AI 만들기"에 집중했다. 거대하고 똑똑한 하나의 AI를 만드는 식이다. 하지만 자연은 다른 답을 보여준다. "작고 단순한 것들을 많이 모아라." 특히 스마트폰, IoT 기기처럼 개별 성능은 낮지만 엄청나게 많은 기기가 협력해야 하는 상황에서, 꿀벌 전략이 더 효율적일 수 있다. 또한 대규모 AI 학습에서도 의미가 있다. 여러 컴퓨터에 AI를 분산해서 학습시킬 때, 복잡한 데이터 교환 없이도 단순한 정보만 공유하면 효과적으로 학습할 수 있다는 뜻이다. 통신 비용을 크게 줄이면서도 학습 효율은 유지할 수 있는 것이다. 무엇보다 이 연구는 "복잡한 것이 꼭 좋은 것은 아니다"라는 교훈을 준다. 때로는 단순한 규칙의 집합이 복잡한 알고리즘보다 나을 수 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. AI 강화학습이 뭔가요? 꿀벌과 무슨 관계인가요? A: AI 강화학습은 시행착오로 배우는 방식이다. 게임 AI가 계속 게임을 하면서 점수가 높아지는 방법을 찾아가는 것처럼 말이다. 이번 연구는 꿀벌 무리가 집을 찾는 과정이 수학적으로 이 학습 방식과 완전히 같다는 걸 증명했다. 개별 꿀벌은 학습 안 하는데, 무리 전체는 마치 하나의 AI처럼 학습한다. Q. 이게 실제로 어디에 쓰일 수 있나요? A: 여러 대의 로봇이 협력하는 기술, 수많은 컴퓨터가 함께 계산하는 시스템, 여러 AI가 협력하는 기술 등에 쓸 수 있다. 특히 각각은 성능이 낮지만 많은 수가 협력해야 할 때 유용하다. 개별적으로는 단순해도 모이면 똑똑해지는 원리를 활용하는 것이다. Q. 더 빠른 방법이 있는데 왜 꿀벌은 지금 방식을 쓰나요? A: 더 빠른 방법은 더 복잡한 신경회로가 필요하고, 뇌는 엄청난 에너지를 소비한다. 또한 개체마다 품질을 다르게 느낄 수 있어서 점수를 직접 비교하기 어렵다. 꿀벌의 현재 방식은 최소한의 인지 능력으로도 충분하면서 결과도 충분히 좋다. 진화는 "최고"가 아니라 "에너지 대비 충분히 좋은 것"을 선택한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.30 13:02AI 에디터

2026년 'AI 대전환 시대' 온다… 한국지능정보원의 새해 전망

한국지능정보사회진흥원(NIA)이 2025년 국내외 주요 매체 282건을 토픽 모델링 기법으로 분석한 결과, 2026년은 AI가 실험 단계를 넘어 산업 전반의 핵심 인프라로 자리 잡는 전환점이 될 것으로 전망된다. 산업 현장에서는 도입 확산이, 기술 분야에서는 기능 고도화가, 정책 영역에서는 안전성 중심의 제도화가 동시에 진행되며 AI 생태계의 구조적 재편이 가속화될 것으로 보인다. AI 투자 연 50% 급증… 금융·제조·서비스 전 산업 확산 글로벌 AI 투자 규모가 연간 50% 이상 성장하면서 챗GPT(ChatGPT)와 같은 생성형 AI 도입 시도가 금융, 제조, 서비스 등 전 산업군으로 확산되고 있다. 생성형 AI 활용 영역도 상담과 요약을 넘어 기획과 분석 등 고부가가치 업무로 확장되며, 기업 운영 방식 자체를 재정의하는 수준의 변화를 촉발하고 있다. 리포트의 산업 분야 토픽 분석 결과, '도입', '확대', '성장세', '확산'이 핵심 키워드로 나타났다. AI 활용이 시범 적용 단계를 넘어 전사적, 범용적 도입 단계로 확산되면서 업종별 도입 범위가 커지고 산업 구조와 경쟁 환경이 재편되는 흐름이다. '규모', '성장', '글로벌', '비용', '자금' 등의 키워드는 AI가 기술 단위를 넘어 투자, 시장, 매출 구조가 결합된 산업 규모 중심 논의로 확장되고 있음을 보여준다. 주목할 만한 점은 '인프라', '센터', '에이전트' 키워드의 부상이다. 데이터센터와 클라우드 기반의 인프라 투자 확대 경향과 함께, 에이전트 도입 확산으로 업무 흐름과 운영 방식이 재구성되는 초기 징후가 포착되고 있다. 2026년에는 기업 내부에서 AI 에이전트를 활용한 문서 처리, 고객 지원, 운영 자동화 등이 증가하며 사람-에이전트-시스템이 혼합된 업무 구조가 일부 영역에서 확산될 가능성이 있다. 멀티모달·추론·온디바이스… 지능 구조 자체가 고도화 기술 분야 분석에서는 '멀티모달(Multimodal)', '추론', '기능', '개발' 키워드가 핵심으로 도출됐다. AI 기술 담론이 단순 성능 향상을 넘어 모델이 무엇을 이해하고 어떻게 추론하는지와 같은 지능 구조 자체의 고도화로 이동하고 있다. 복합 입력 처리를 가능케 하는 멀티모달 기술, 고급 추론 능력, 자연스러운 응답 생성 등 알고리즘 수준의 질적 확장이 기술 변화의 핵심축이다. '개발', '강화', '향상', '성능' 키워드의 반복적 등장은 모델 개발 주기 단축, 성능 지표 향상, 효율과 추론 능력 강화가 기술 경쟁력의 중심 요소로 작동하고 있음을 나타낸다. 산업 적용보다 엔진의 최적화 속도와 완성도가 기술 논의의 핵심 기준으로 자리 잡고 있다. 특히 '디바이스', '서비스', '활용' 키워드가 부각되면서 기술 적용 환경이 다변화되고 있다. 클라우드 중심의 기술 적용이 스마트폰과 개인 디바이스 등 온디바이스(On-Device) AI와 엣지(Edge) 환경으로 확장되는 경향이 나타난다. 이는 기술 발전이 성능 중심을 넘어 배포 환경 중심의 다변화로 이동하고 있음을 의미한다. 2026년에는 합성데이터, 추론형 AI, 멀티모달 기술이 주요 경쟁 축으로 자리 잡으면서 학습 효율 향상, 복합 정보 처리, 설명 가능성 강화 등 모델 내부 구조의 질적 개선 흐름이 이어질 것으로 전망된다. 고품질 데이터 생성, 멀티모달, 고급 추론 기술이 결합되며 AI의 상황 이해와 문제 해결 능력이 향상되고 서비스와 산업 전반의 활용도도 확대될 전망이다. AI 사고 급증에 안전성·책임성 중심 규제 본격화 정책 분야에서는 '안전', '위험', '규제', '기본법', '의무', '준수' 키워드가 핵심으로 부상했다. AI 확산 속도 대비 위험 관리와 안전 확보 체계를 시급히 강화해야 한다는 정책적 요구가 높아지고 있다. OECD AI 사고 모니터(AI Incidents Monitor)에 따르면 2010년대 후반 이후 AI 관련 사고와 위험 보고 건수가 지속적으로 증가했으며, 2023년에서 2024년 이후 특히 가파른 상승 추세를 보이고 있다. '규제', '기본법', '시행', '기준' 키워드는 각국이 AI 확산에 맞춰 법률, 기준, 이행 체계 중심의 규제 틀을 정비 중임을 시사한다. 가이드라인 중심의 자율 규제 단계에서 벗어나 법적 구속력 기반의 규제 집행 구조로 이행하는 흐름을 반영한다. '의무', '준수', '투명', '표시' 키워드는 AI 개발자, 기업, 플랫폼에 요구되는 책임성과 준수 의무 강화가 정책적 핵심 이슈로 부상했음을 보여준다. 출력물 표시, 데이터 출처 공개 등 투명성 강화를 통한 신뢰 기반 거버넌스 요구가 확대되는 흐름이다. 2026년에는 EU AI법(EU AI Act) 등 글로벌 규제와의 정합성을 높이기 위해 국내 AI 기본법의 시행령과 가이드라인이 구체화되고, 수출 기업을 위한 규제 대응과 인증 지원이 확대될 전망이다. 의료와 채용 등 고위험 AI의 안전성 검증과 제3자 인증이 필수화되고, 생성형 AI 부작용 대응을 위한 워터마크와 딥페이크 탐지 기술이 법제화될 것으로 예상된다. 산업·기술·정책의 순환 구조… "압력-수요-조정" 상호작용 리포트는 산업, 기술, 정책이 서로 다른 변화 축을 가지지만 '연결된 흐름'으로 작동한다고 분석했다. 산업 확산은 기술 고도화를 요구하고, 기술 고도화는 다시 정책적 대응을 촉발하는 연쇄적, 단계적 상호작용 구조가 형성되어 있다. 세 분야는 '압력-수요-조정'의 순환 구조를 형성하며 상호 보완적으로 진화하고 있다. 산업 확산은 기술 고도화에 대한 수요를 높이고, 기술 고도화는 새로운 규제와 기준 마련 필요성을 확대시키며, 정책 정비는 다시 산업과 기술 영역에 조정 압력으로 작용하는 흐름이 나타난다. 이는 AI 생태계가 일방향적 변화가 아니라 산업-기술-정책이 서로 영향을 주고받는 순환적, 상호작용적 시스템으로 진화하고 있음을 시사한다. AI를 단순 기술이 아닌 산업 인프라이자 경쟁과 제도 관리의 핵심 요소로 부상시키고 있다. 향후 AI 생태계의 지속성과 안정성을 위해서는 산업 확산-기술 고도화-정책 규제 간 속도 불일치를 완화하는 구조적 접근이 필요하다. 정책적 대응 속도와 규제 체계의 예측 가능성 확보, 도입 확대·기술 혁신·위험 관리 간 균형 있는 추진 체계 확립이 요구된다. 정부, 데이터 통합 제공과 추론형 AI 데이터 구축 나서 한국지능정보사회진흥원은 AI 활용이 산업 전반에 본격 확산되며 고품질 데이터에 대한 수요가 급증하는 가운데, 공공과 민간의 AI 학습용 데이터를 총결집하여 민간 수요에 신속히 대응하는 '통합제공체계' 구축을 추진하고 있다. 산재된 데이터를 모아 데이터의 원소스 멀티유즈(One-Source Multi-Use)를 지원하며, AI 학습용 데이터를 수집·개방하기 위한 공통 기반 마련, 개방 데이터 품질 제고, 데이터 통합 제공 및 연계·융합을 지원한다. 추론(AI Reasoning)의 중요성이 커짐에 따라 추론형 AI 모델 개발에 필수적인 고품질 추론 데이터 구축 및 활용 체계를 선제적으로 정비하고 있다. 고품질·고난이도 문제 해결 중심의 추론 데이터를 기획·개발하여 기존의 단순 인식·예측 중심 데이터에서 벗어나, 단계별 과정·의사결정 논리·맥락을 포함한 구조화된 추론형 데이터셋 구축을 진행하고 있다. 또한 AI 정책 환경이 안전성 강화, 규제·기준 정비를 중심으로 재편되는 가운데, 저작권 및 공정이용 개선을 위한 간담회를 개최하여 AI 학습데이터의 활용 범위, 공정이용 판단 기준, 학습과 활용 단계 구분 등 핵심 쟁점에 대해 이해관계자의 의견을 폭넓게 수렴했다. AI 확산 속도 대비 명확한 기준이 제시되지 않았던 저작권·데이터 활용 관련 가이드라인의 한계를 확인하고, 현장에서 실제로 참고·활용 가능한 가이드라인 마련에 대한 수요와 필요성을 확인했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 토픽 모델링이란 무엇이며, 이번 분석은 어떻게 진행되었나요? A: 토픽 모델링은 대규모 텍스트 데이터에서 숨겨진 주제와 핵심 키워드를 확률적으로 추출하는 분석 기법입니다. 이번 분석에서는 LDA(Latent Dirichlet Allocation) 기법을 사용해 2025년 1월부터 11월까지 국내외 주요 매체에서 산업·기술·정책 분야별로 매주 6건씩 총 282건의 텍스트 데이터를 수집하고 분석했습니다. 빈도보다 문맥 내 중요도를 기준으로 각 분야의 핵심 논점과 의미 축을 도출했습니다. Q2. 온디바이스 AI가 중요한 이유는 무엇인가요? A: 온디바이스 AI는 클라우드 서버가 아닌 스마트폰이나 개인 디바이스에서 직접 AI를 구동하는 기술입니다. 분석 결과 클라우드 중심의 기술 적용이 스마트폰과 개인 디바이스 등 온디바이스 환경으로 확장되는 경향이 나타났습니다. 이는 기술 발전이 성능 중심을 넘어 배포 환경 중심의 다변화로 이동하고 있음을 의미하며, 2026년 AI 기술의 주요 변화 방향 중 하나입니다. Q3. AI 규제가 강화되면 기술 발전이 저해되지 않나요? A: 리포트는 2026년 AI 정책 환경이 규제를 제약이 아닌 성장을 위한 안전장치로 재정의하며, 글로벌 규제체계와의 정합성을 높이는 방향으로 재편될 것으로 전망합니다. 고위험 분야의 책임·안전성 확보, 데이터·저작권 정책 명확화, 국제 표준과의 조화가 결합되며 기업의 글로벌 시장 진출을 지원하는 예측 가능한 정책 생태계가 구축될 것으로 예상됩니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.29 16:12AI 에디터

"AI가 취업 망친다"...능력 있는 구직자, 오히려 19% 덜 뽑힌다

생성형 AI가 구직 시장을 뒤흔들고 있다. 미국 다트머스대와 프린스턴대 연구진이 270만 건의 지원서를 분석한 결과, AI 면접 준비 도구가 오히려 우수한 구직자에게 불리하게 작용한다는 충격적인 사실이 드러났다. 연구진은 AI로 인해 지원서의 차별화가 사라지면서, 최상위 20% 능력자는 19% 덜 고용되고 최하위 20%는 14% 더 고용되는 '역차별' 현상이 발생한다고 경고했다. 270만 건 분석했더니... AI 이후 지원서 가치 급락 이번 연구는 세계 최대 규모의 프리랜서 구인 플랫폼인 프리랜서닷컴(Freelancer.com)의 실제 데이터를 분석했다. 연구진은 2021년 1월부터 2024년 7월까지 약 61,000개의 채용 공고와 약 270만 건의 지원서, 212,000명의 구직자 데이터를 면밀히 검토했다. 분석 결과, 챗GPT 출시 이전인 2022년 11월까지는 맞춤형 지원서가 강력한 무기였다. 연구진의 분석에 따르면, 잘 쓴 지원서를 제출한 지원자는 그렇지 않은 지원자보다 26달러 낮은 금액을 제시한 것과 같은 효과를 봤다. 쉽게 말해, 좋은 지원서 하나가 26달러의 가격 할인과 맞먹는 가치를 지녔다는 뜻이다. 이 플랫폼에서 프리랜서들이 제시하는 금액이 보통 30달러에서 250달러 사이라는 점을 고려하면, 상당히 큰 영향력이다. 그러나 2023년 4월 프리랜서닷컴이 자체 AI 작문 도구를 도입한 이후 상황이 완전히 바뀌었다. 연구진은 "LLM 도입 이후 고용주들이 잘 쓴 지원서에 대해 더 이상 높은 가치를 부여하지 않게 됐다"며 "플랫폼의 AI 도구로 작성된 지원서는 실제 노력과 무관하게 좋아 보였고, 좋은 지원서가 더 이상 업무를 잘 완수할지를 예측하지 못했다"고 밝혔다. 실력 좋은 사람 19% 덜 뽑히고, 실력 낮은 사람 14% 더 뽑혀 연구진은 단순히 겉으로 보이는 관계만 분석한 것이 아니라, 왜 이런 일이 벌어지는지 원인을 파악하기 위해 경제학 이론 모델을 만들어 분석했다. 이 모델은 1973년 노벨 경제학상 수상자 마이클 스펜스(Michael Spence)가 제시한 '신호 이론'을 기반으로 한다. 신호 이론의 핵심은 간단하다. 실력 있는 사람일수록 좋은 지원서를 쓰는 데 드는 노력이 적게 들어, 자연스럽게 더 좋은 지원서를 제출하게 된다는 것이다. 분석 결과, 고용주들은 구직자의 실력을 매우 중요하게 생각하는 것으로 나타났다. 구직자 실력이 조금만 올라가도 평균 52달러를 더 지불할 의향이 있었다. 또한 상위 20%에 속하는 실력자를 하위 20%에 속하는 사람보다 97달러나 더 가치 있게 평가했다. 중요한 발견은 지원서 품질과 실제 실력 간의 관계가 매우 강했다는 점이다. 통계적으로 0.55라는 높은 상관관계를 보였다(1에 가까울수록 강한 관계). 반면 평판이나 경력 같은 겉으로 드러나는 정보는 실제 실력을 거의 예측하지 못했다. 이런 겉으로 보이는 정보로는 실력 차이의 단 3%만 설명할 수 있었다. 연구진이 AI로 인해 지원서의 차별화가 완전히 사라진 상황을 시뮬레이션한 결과는 충격적이었다. 실력이 최하위 20%에 속하는 구직자는 14% 더 자주 뽑힌 반면, 최상위 20% 실력자는 19% 덜 뽑혔다. 왜 이런 '역차별'이 발생할까? 세 가지 이유 이런 역설적인 결과는 세 가지 이유로 발생한다. 첫째, 고용주들이 예전에는 지원서를 보고 실력을 판단했는데, 지원서로 구분할 수 없게 되면서 누가 실력 있는 사람인지 알아보기 어려워졌다. 둘째, 흥미롭게도 실력 있는 사람일수록 일을 맡는 데 드는 비용도 높은 경향이 있었다. 지원서로 차별화할 수 없게 되자 가격 경쟁이 심해졌고, 결과적으로 낮은 가격을 제시한 사람들이 뽑히는데, 이들이 대체로 실력이 낮은 사람들이었다. 셋째, 앞서 언급했듯이 평판이나 경력 같은 겉으로 보이는 정보는 실제 실력을 거의 예측하지 못한다. 그래서 고용주는 실력 있는 사람과 없는 사람을 거의 구분할 수 없게 됐다. 연구진의 분석에 따르면 이러한 변화는 다음과 같은 결과를 낳는다. 평균 임금은 5% 떨어지고, 채용 공고당 실제 채용되는 비율은 1.5% 줄어들며, 구직자가 얻는 이익은 4% 감소하고, 고용주가 얻는 이익은 1% 미만으로 소폭 증가한다. 전체적으로 시장은 덜 효율적이고 실력보다는 운에 좌우되는 시장이 되며, 시장 전체의 이익은 1% 줄어들고 실력 있는 사람보다 실력 없는 사람에게 유리한 구조로 바뀐다. 연구진은 "만약 실력 있는 사람이 항상 낮은 가격을 제시할 수 있다면 지원서가 없어도 문제없겠지만, 우리 연구에서는 실력 있는 사람일수록 일을 맡는 비용이 높았다"며 "결과적으로 구직자들이 지원서로 실력을 보여줄 수 없게 되면, 실력 있는 사람은 가격만으로 경쟁하기 어려워져서 덜 실력 중심적인 채용 결과로 이어진다"고 설명했다. 지원서가 실력의 증거였다는 첫 실증 연구 이번 연구는 여러 측면에서 중요한 의미를 갖는다. 우선 생성형 AI가 구직 시장에 미치는 영향을 다룬 최근 연구들에 새로운 시각을 제공한다. 기존 연구들이 설문조사나 실험을 통해 AI가 업무 효율성에 미치는 영향을 연구했다면, 이 연구는 실제 시장 전체에서 어떤 일이 벌어지는지를 보여줬다. 특히 지원서의 차별화가 사라지는 것이 채용 결과와 구직자·고용주의 이익에 어떤 영향을 미치는지 구체적인 숫자로 정량화했다는 점에서 의미가 있다. 둘째, 노동시장의 '신호'에 관한 오랜 경제학 이론을 현실에서 검증했다. 1973년 스펜스의 연구 이후 경제학자들은 주로 학력이 어떻게 실력의 신호로 작용하는지 연구해왔다. 이번 연구는 구직자와 고용주 사이의 실제 커뮤니케이션, 즉 지원서 자체가 신호로 작용한다는 것을 경제학 모델로 분석했다. 셋째, 프리랜서 플랫폼 같은 온라인 구인 시장의 경제학 연구에도 기여한다. 연구진은 "생성형 AI가 경쟁이 치열한 온라인 구인 플랫폼에서 매칭에 특히 중요한 역할을 하는 지원서의 가치를 떨어뜨릴 수 있는 위험을 구체적인 숫자로 보여줬다"고 설명했다. 마지막으로 경제학에서 '신호 이론'을 실제 데이터로 분석하는 방법론에도 기여한다. 기존 연구들이 금리 설정이나 제안 거부 같은 명확한 행동을 신호로 다뤘다면, 이 연구는 실제 글을 직접 분석해 신호를 측정하는 새로운 방법을 제시했다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 이 연구는 실험인가요, 아니면 실제 데이터 분석인가요? A. 실험이 아닙니다. 프리랜서닷컴이라는 실제 디지털 노동 플랫폼의 시장 데이터를 분석한 관찰 연구입니다. 2021년부터 2024년까지 약 61,000개의 실제 채용 공고와 270만 건의 지원서를 분석했으며, 챗GPT 출시 전후(2022년 11월 30일 기준)를 비교했습니다. Q. AI 도구를 사용하면 왜 오히려 능력 있는 사람이 불리해지나요? A. AI가 모든 지원자의 지원서를 비슷하게 좋아 보이게 만들면서 고용주가 진짜 실력 있는 사람을 구별하기 어려워지기 때문입니다. 게다가 실력 있는 사람일수록 일을 맡는 데 드는 비용도 높은 경향이 있어서, 지원서로 차별화할 수 없게 되고 가격 경쟁만 남으면 오히려 경쟁에서 밀리게 됩니다. Q. 이 연구 결과가 일반 구직자에게 주는 시사점은 무엇인가요? A. 연구는 프리랜서 플랫폼을 대상으로 했지만, AI로 인해 전통적인 증거(잘 쓴 지원서, 이력서)의 가치가 떨어진다는 점은 모든 구직 시장에 적용될 수 있습니다. 앞으로는 AI로 쉽게 만들 수 없는 실제 성과나 포트폴리오가 더 중요해질 것입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.26 21:19AI 에디터

젠슨 황 "이제 지능은 사고 파는 상품이 될 것"

젠슨 황 엔비디아 최고경영자(CEO)가 "지능이 상품화되는 시대가 온다"며 AI 시대 인재상에 대한 새로운 관점을 제시했다. 황 CEO는 지난달 케임브리지 대학교에서 열린 2025년 스티븐 호킹 펠로우십 수상 연설에서 "지능은 곧 상품이 될 것이라고 큰 소리로 말해야 한다"고 밝혔다. 그는 "지능이 상품화되면 용기, 지적 정직성, 겸손함, 공개적으로 취약해질 수 있는 능력 같은 것들이 더 중요해진다"며 "예술가와 발명가, 창작자들은 자신이 하는 일이 완벽하지 않기 때문에 자주 조롱당하고 웃음거리가 된다. 그럼에도 자신을 드러낼 수 있는 겸손함과 취약성, 그리고 용기가 필요하다"고 강조했다. 황 CEO는 리더의 역할에 대해 "리더의 임무는 옳은 게 아니다. 다른 사람들의 성공을 돕는 것"이라며 "사람들이 내가 항상 그들의 이익을 생각한다는 걸 알면, 내가 생각을 바꿔도 아무도 신경 쓰지 않는다"고 말했다. 그는 CEO 역할에 대해서도 "평생의 희생"이라며 "대부분 사람들은 리더십이 명령하고 정상에 서는 것이라 생각하지만 전혀 그렇지 않다. 회사를 위해 봉사하고 다른 사람들이 자신의 일을 할 수 있는 환경을 만드는 것"이라고 설명했다. AI의 일자리 영향에 대해서는 긍정적인 전망을 내놨다. 황 CEO는 "방사선과가 AI로 사라질 첫 산업으로 예측됐지만, 지금은 거의 모든 방사선과 의사가 AI를 쓰는데도 오히려 고용은 늘었다"며 "AI에게 일자리를 빼앗기는 게 아니라 AI를 쓰는 사람에게 빼앗길 것"이라고 경고했다. 창업가들에게는 "아이처럼 낙관적인 미래관을 가지라"며 "호기심을 갖고 '얼마나 어려울까?'라고 자문하되, 아무도 정말 어렵다고 말하게 하지 마라. 얼마나 어려운지는 스스로 알아낼 것"이라고 조언했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.26 15:12AI 에디터

"챗GPT는 토론을 못한다"...AI 시대, 암기 교육의 종말

브라질 인텔리 기술리더십연구소 연구팀이 생성형 AI 시대의 교육 방향을 제시하는 연구 리포트를 발표했다. 챗GPT 같은 대규모 언어모델(LLM)이 시험에서 인간을 넘어서기 시작하면서, 암기와 요약 위주의 기존 교육 방식이 한계에 부딪혔다는 분석이다. 연구팀은 현재 LLM 기술의 근본적인 약점을 분석하고, 인간만이 가진 강점을 키우는 새로운 교육 방식을 제안했다. 완벽한 문장 뒤 숨은 치명적 결함, 챗GPT는 토론을 못한다 대규모 언어모델(LLM)은 문법적으로 완벽한 글을 쓰지만, 내용을 들여다보면 심각한 문제가 있다. 감정 표현이 없고 단조로우며 독창성도 떨어진다. 특히 토론이나 논쟁이 필요한 상황에서 챗GPT는 훨씬 더 단순한 BERT 기반 AI 모델보다도 성능이 낮았다. 연구팀이 챗GPT와 긴 대화를 나눠본 결과, 이 모델은 같은 말을 빙빙 돌리거나, 앞뒤가 맞지 않는 말을 하거나, 질문을 회피하는 모습을 보였다. 아이러니하게도 이런 행동은 선생님들이 학생들에게 하지 말라고 가르치는 것들이다. 더 큰 문제는 챗GPT가 확신 없이 작동한다는 점이다. 대화 상대가 압박하거나 다른 방향으로 유도하면 쉽게 의견을 바꾼다. 자신이 틀렸는지도 제대로 인식하지 못한 채 계속 수정만 반복한다. 실제로 사이버 공격에서 사용되는 속임수 전략을 찾아내는 작업에서도 챗GPT는 오래된 단순 BERT 모델보다 낮은 점수를 받았다. LLM 전반의 문제는 더 광범위하다. 수학 문제 풀기, 논리적 사고는 물론, 감정 표현, 유머, 윤리적 판단, 사실 확인, 편견 회피 등 여러 영역에서 약점을 드러냈다. 머신러닝(ML) 기술 자체의 한계도 있다. 해석 가능성 부족, 진정한 이해의 결여, 시간이 지나면서 성능이 떨어지는 '치명적 노화와 망각' 현상 등이 그것이다. LLM은 자율성도 없고, 언어의 구조적 표현도 없으며, 통합된 세계관도 갖추지 못했다. LLM이 언어를 이해하는 방식의 근본적 한계 현재 LLM이 가진 문제는 언어를 처리하는 방식 자체에서 비롯된다. 기존 자연어 처리 기술은 단어들을 숫자 공간에 배치하는 'Bag-of-Words' 알고리즘을 사용하는데, 문장의 구조를 무시한다. 예를 들어 "개가 사람을 문다"와 "사람이 개를 문다"를 같은 것으로 인식하는 식이다. 이를 개선하기 위해 등장한 것이 BERT 같은 맥락적 토큰화 기술이다. 단어의 앞뒤 맥락을 함께 고려하지만, 처리해야 할 정보량이 폭발적으로 늘어나 계산이 매우 복잡해진다. 이것이 바로 현대 LLM의 엄청난 계산 복잡성과 규모가 커진 핵심 이유다. 또한 현재 LLM은 '마스크 언어모델(MLM)' 방식으로 학습한다. 문장에서 일부 단어를 가리고 그 자리에 들어갈 가장 그럴듯한 단어를 확률로 예측하는 것이다. 이 방식은 문장의 구조를 명확하게 이해하는 게 아니라 통계적으로 추측하는 것에 가깝다. 긴 문장의 맥락을 처리하기 위해 '어텐션 메커니즘'과 '트랜스포머' 기술이 개발됐지만, 이 역시 본질적으로 확률적 접근법이다. 언어학자 촘스키가 강조했듯이, 사람의 언어는 순서대로 나열된 게 아니라 복잡한 계층 구조를 가지고 있다. "직관적으로, 나는 새들이 헤엄친다고 생각한다"라는 문장에서 '직관적으로'는 '헤엄친다'가 아니라 전체 문장과 연결된다. 하지만 LLM은 이런 복잡한 관계를 평면적인 단어 나열로 바꾸면서 중요한 의미를 놓친다. 연구팀은 LLM의 현재 한계가 인간 언어의 복잡한 구조를 제대로 표현하지 못하는 데서 비롯된다고 지적했다. 이 문제를 해결하려면 언어학 이론에 기반한 새로운 모델링 방식이 필요하다는 설명이다. 피아제와 비고츠키가 제시한 해법, 학생이 스스로 지식을 만든다 전통적인 교육은 선생님이 가진 지식을 학생에게 일방적으로 전달하는 과정으로 여겨졌다. 하지만 심리학자 피아제와 비고츠키가 발전시킨 구성주의 교육 이론은 다르다. 학습이란 학생이 스스로 세상에 대한 지식을 만들어가는 능동적인 과정이라는 것이다. 선생님의 역할은 이 과정을 돕고 안내하는 것이며, 진짜 힘은 학생 본인의 의지와 다른 사람과의 상호작용에서 나온다. 비고츠키는 '근접발달영역(ZPD)'이라는 개념을 제시했다. 학생이 혼자 할 수 있는 것과 도움을 받으면 할 수 있는 것 사이의 영역에서 진짜 배움이 일어난다는 뜻이다. 이런 교육 방식은 선생님에게 훨씬 높은 수준을 요구한다. 단순히 교과서 내용을 전달하고 암기를 확인하는 것을 넘어서, 각 학생의 특성에 맞춰 개별적으로 상호작용해야 한다. 연구팀은 러시아 모스크바 방법론학파의 '생각-행동(Thought-Action)' 이론을 소개했다. 이는 생각-성찰, 생각-소통, 생각-행동이라는 세 층이 서로 연결돼 작동해야 한다는 개념이다. 흥미롭게도 연구팀은 이 중 생각-소통 층만 따로 떨어지면 "행동도 없고 의미도 없는 말, 순수한 단어의 유희로 전락한다"고 설명했는데, LLM 연구자나 일반 사용자라면 이 묘사가 현재 LLM의 문제점을 정확히 표현한다는 것을 알 수 있다. 학생 감시 강화 아닌 평가 방식 자체를 바꿔야 코로나19 때 대학들이 도입한 디지털 감시 시스템—출석 추적, 표절 탐지, 침입적 온라인 감독, 줌 녹화—은 공식적으로는 학생을 돌보는 행위로 제시됐지만, 실제로는 불신 환경을 조성하고 심리적 피해를 줬다는 연구 결과가 있다. 반대로 감독 없는 폐쇄형 시험은 점수 부풀리기를 초래했다. 연구팀은 침입적 감시를 강화하는 대신 평가 전략 자체를 바꾸자고 제안했다. 예를 들어 오픈북 시험은 학생들이 외부 자료를 자유롭게 참고할 수 있게 하는데, 특히 고급 과목에서 교육적 이점이 크다는 광범위한 연구가 있다. 더 나아가 전통적인 시험을 완전히 대체해 논문 리뷰나 연구 포트폴리오 같은 연구 지향적 평가 방식을 도입할 수도 있다. 한 걸음 더 나아간 방법도 있다. '시험 디자인하기' 접근법으로, 학생과 교수가 협력해 각 사례에 가장 적합한 지식 구축 및 평가 방식을 결정하는 것이다. 일부 학생은 암기에, 다른 학생은 분석적 추론이나 종합에 뛰어나다. 현명한 교육자라면 객관식 문제는 틀렸지만 깊은 개념적 이해를 보이는 학생에게 높은 점수를 주거나, 반대로 형식적 시험에서는 잘했지만 진정한 이해가 부족한 학생을 간파할 수 있다. 이러한 유연성은 높은 수준의 신뢰와 교육자의 상당한 자율성을 요구하며, 주관성, 공정성, 학생-교사 관계의 사회적 역학에 대한 질문을 제기한다. 학생이 LLM으로 생성한 에세이로 '부정행위'를 하거나 교사가 불공정하게 행동하는 것은, 비고츠키가 말한 근접발달영역에 도달하지 못한 것일 뿐이다. 누구의 실패인가? 아마 둘 다일 것이다. 하지만 더 중요한 것은 피아제-비고츠키 패러다임에서 실패는 붕괴가 아니라 성장의 예상된 단계라는 점이다. 부정행위, 자유, 신뢰는 본질적으로 사회적 구성물이며, 따라서 처벌적 해결책이 아니라 사회적 해결책이 필요하다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT 같은 대규모 언어모델(LLM)의 가장 큰 문제는 뭔가요? A. LLM은 확률로 언어를 처리하기 때문에 같은 말을 반복하거나 앞뒤가 안 맞는 말을 하고, 사실을 왜곡하는 문제가 있습니다. 특히 확신 없이 작동해서 상대방의 압박에 쉽게 의견을 바꾸고, 자신의 실수를 알아채지 못하는 근본적 한계가 있습니다. 챗GPT는 토론이나 논쟁 상황에서 더 단순한 AI 모델보다도 성능이 낮습니다. Q2. AI 시대에 교육은 어떻게 바뀌어야 하나요? A. 암기와 표준화된 시험 중심에서 벗어나 스스로 생각하고, 창의적으로 문제를 해결하는 능력을 키우는 방향으로 바뀌어야 합니다. 학생이 능동적으로 지식을 만들어가고, 선생님은 이를 돕고 안내하는 구성주의 교육 방식이 필요합니다. Q3. 학생들이 LLM을 사용하는 걸 막아야 하나요? A. 오히려 AI 도구를 활용하되, 자료 참고가 가능한 오픈북 시험이나 연구 결과물 평가 같은 새로운 방식을 도입해야 합니다. 중요한 것은 감시를 강화하는 게 아니라 학생과 선생님 사이에 신뢰를 쌓고 배움 과정 자체를 다시 설계하는 것입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.26 14:57AI 에디터

  Prev 11 12 13 14 15 16 17 18 19 20 Next  

지금 뜨는 기사

이시각 헤드라인

[ZD브리핑] '세기의 재산 분할' 최태원-노소영, SK 주식 놓고 이번 주 공방 재개

[SW키트] AI 시대 가상화 시장도 진화…레드햇·수세 사업 전략은

미국인 절반 챗봇 쓰지만…10명 중 6명 "AI 발전 너무 빨라"

트럼프 관세전쟁 2라운드…이번엔 원산지·가격신고 정조준

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.