• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (664건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

오픈AI, 18개월 안에 파산할 수도…"MS나 아마존에 인수될 가능성 커"

챗GPT로 AI 혁명을 주도해 온 오픈AI가 향후 18개월 내 자금 고갈에 직면할 수 있다는 경고가 나왔다. 외교협회(Council on Foreign Relations) 선임연구원 세바스찬 말라비는 13일(현지 시각) 뉴욕타임스 기고문을 통해 "오픈AI가 대규모 수익을 내기 전에 자금이 바닥날 것"이라고 전망했다. 챗GPT 출시 3년 만에 AI는 이미지 생성부터 복잡한 논리 문제 해결까지 놀라운 발전을 이뤘다. 와튼스쿨 조사에서는 미국 기업 4분의 3이 AI 투자로 긍정적 수익을 거두고 있다고 답했다. 매달 10억 명 이상이 생성형 AI를 사용하고 있다. 문제는 대부분의 사용자가 무료로 서비스를 이용한다는 점이다. 여러 무료 모델이 존재하는 상황에서 유료 전환은 쉽지 않다. 말라비는 "AI가 사용자의 모든 것을 기억하고 이해하는 단계가 와야 수익화가 가능하지만, 그때까지 생존할 수 있느냐가 문제"라고 지적했다. 인포메이션(The Information)에 따르면 오픈AI는 2025년 80억 달러(한화 약 11조 8천억 원) 이상, 2028년 400억 달러 이상을 소진할 것으로 예상했다. 샘 알트만 CEO는 지난해 3월 역대 최대 규모인 400억 달러를 투자 유치했지만, 데이터센터 인프라에만 1조 4,000억 달러가 필요한 상황이다. 말라비는 "생성형 AI는 과거 소프트웨어 기업과 달리 훨씬 더 자본집약적"이라며 "결국 오픈AI는 마이크로소프트나 아마존 같은 거대 기업에 인수될 가능성이 크다"고 내다봤다. 그는 "이는 AI 자체에 대한 비판이 아니라 과대광고에 의존한 한 기업의 종말일 뿐"이라고 덧붙였다. 해당 기사의 원문은 뉴욕타임스에서 확인 가능하다. 이미지 출처: 이디오그램 생성 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 22:28AI 에디터

챗GPT, 3년 만에 연매출 10배 폭증...오픈AI CFO "전례 없는 성장"

오픈AI가 챗GPT 출시 3년 만에 연간 반복 수익(ARR)을 10배 성장시키며 생성형 AI 시장의 지배력을 입증했다. 사라 프라이어(Sarah Friar) 오픈AI 최고재무책임자(CFO)는 18일(현지 시각) 공식 블로그를 통해 "2023년 20억 달러였던 ARR이 2024년 60억 달러, 2025년 200억 달러 이상으로 증가했다"며 "이는 이러한 규모에서 전례 없는 성장"이라고 밝혔다. 프라이어 CFO는 이 같은 폭발적 성장의 비결로 '지능의 가치에 따라 비즈니스 모델을 확장한다'는 원칙을 꼽았다. 챗GPT가 단순한 실험 도구를 넘어 학생들의 숙제 풀이부터 기업의 업무 자동화까지 일상에 깊숙이 침투하면서, 오픈AI는 소비자 구독부터 사용량 기반 API까지 다층적 수익 모델을 구축했다. 특히 컴퓨팅 파워가 성장의 핵심 변수로 작용했다. 오픈AI의 컴퓨팅 용량은 2023년 0.2기가와트(GW)에서 2025년 1.9GW로 9.5배 증가했으며, 수익도 같은 곡선을 그리며 성장했다. 프라이어 CFO는 "컴퓨팅은 AI에서 가장 희소한 자원"이라며 "더 많은 컴퓨팅이 있었다면 고객 채택과 수익화가 더 빠르게 이뤄졌을 것"이라고 강조했다. 오픈AI는 주간 활성 사용자(WAU)와 일일 활성 사용자(DAU) 모두에서 계속해서 사상 최고치를 경신하고 있다. 회사는 2026년 '실용적 채택' 확대에 초점을 맞춰, 특히 건강, 과학, 기업 분야에서 AI 활용 격차를 좁히는 데 주력할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 20:05AI 에디터

AI가 만든 광고, 젊은 세대는 싫어한다...기업만 모르는 현실

기업들이 AI로 광고를 만드는 건 당연한 시대가 됐지만, 정작 광고를 보는 젊은 소비자들의 반응은 차갑다. 특히 10대 후반~20대 초반 Z세대의 절반 가까이가 AI 광고를 거부감 있게 본다고 답했다. 문제는 광고를 만드는 기업들이 이런 사실을 전혀 모르고 있다는 것이다. 미국 광고 업계 단체 IAB(Interactive Advertising Bureau)가 발표한 조사 결과에 따르면, 기업과 소비자가 생각하는 AI 광고에 대한 온도차가 지난해보다 더 벌어진 것으로 나타났다. 볼보도 코카콜라도 AI 광고... 하지만 젊은 세대는 냉담 요즘 유튜브나 인스타그램에서 보는 광고 상당수는 AI의 손을 거쳐 만들어진다. 볼보는 AI로 자동차 광고를 제작했고, 코카콜라는 2년 연속 크리스마스 광고를 AI로 만들었다. 광고업계 임원 82%가 "우리 회사는 AI로 광고를 만든다"고 답할 정도로 AI 광고는 이제 표준이 됐다. 2024년 해도 절반 정도였던 게 지금은 대부분의 기업이 사용하는 수준까지 올라왔다. 기업들이 AI를 가장 많이 쓰는 곳은 SNS 광고다. 인스타그램이나 페이스북에 뜨는 광고 10개 중 8개 정도가 AI의 도움을 받는다고 보면 된다. 배너 광고는 10개 중 7개, TV 광고는 절반 이상이 AI를 활용한다. 심지어 팟캐스트 같은 오디오 광고도 절반 가까이가 AI를 쓴다. 그런데 기업들이 AI를 쓰는 가장 큰 이유가 뭘까? 기업들이 AI를 쓰는 가장 큰 이유는 '돈을 아끼기 위해서'다. 2024년만 해도 5순위였던 비용 절감이 2026년에는 1순위로 올라섰다(64%). "AI가 창의적인 광고를 만들 수 있다"는 응답은 오히려 64%에서 61%로 조금 줄었다. "소비자들 좋아할 거야"라는 기업들의 치명적 착각 광고 업계 임원 82%는 "젊은 소비자들이 AI 광고를 좋아할 것"이라고 생각했다. 하지만 실제로 AI 광고를 좋아한다고 답한 소비자는 절반도 안 되는 45%였다. 기업이 생각하는 것과 실제 소비자 반응 사이에 37%포인트나 차이가 났다. 이 격차는 2024년 32%포인트에서 더 벌어진 것이다. 더 심각한 건 소비자들이 AI 광고에 대해 점점 더 부정적으로 변하고 있다는 점이다. 2024년에 비해 "AI 광고 싫다"고 답한 사람이 12%포인트나 늘었다. 반대로 "잘 모르겠다"는 애매한 답은 34%에서 25%로 줄었다. 즉, 소비자들이 AI 광고를 더 많이 접하면서 "역시 별로네"라는 결론을 내리고 있는 셈이다. 기업들은 AI를 쓰는 브랜드를 '미래지향적'이라고 생각하지만, 소비자 중에서 그렇게 생각하는 사람은 절반도 안 된다. '독특하다'는 평가도 비슷하다. 반대로 부정적인 평가는 소비자 쪽이 훨씬 가혹하다. 소비자들은 AI 광고를 보면서 "사람을 속이려 한다"거나 "윤리적이지 않다"는 느낌을 받는 경우가 많았다. 기업이 생각하는 것보다 두 배 이상 높은 비율이다. 챗GPT는 쓰면서 AI 광고는 싫다는 Z세대 특히 Z세대의 반응이 차가웠다. 10명 중 4명이 AI 광고를 싫어한다고 답했는데, 이는 30대 이상 밀레니엄 세대의 두 배에 달하는 수치다. 불과 2024년만 해도 Z세대 중 부정적인 사람이 5명 중 1명 정도였는데, 지금은 거의 두 배로 늘었다. AI를 광고에 사용하는 브랜드에 대해 Z세대의 30%가 '진정성 없다'고 평가했는데, 이는 밀레니엄 세대의 13%에 비해 두 배 이상이다. '단절된'이라는 응답은 Z세대 26% 대 밀레니엄 8%, '비윤리적'이라는 응답은 Z세대 24% 대 밀레니엄 8%로 나타났다. 흥미로운 건 Z세대가 평소에는 챗GPT 같은 AI 도구를 가장 많이 쓰는 세대라는 점이다. 숙제할 때도, 친구와 채팅할 때도, 이미지 만들 때도, AI를 자연스럽게 쓴다. 하지만 기업이 AI를 쓰는 건 전혀 다른 문제로 본다. 자신이 쓸 때는 좋지만, 기업이 쓰는 건 거부감이 든다는 이중적 태도다. 기업들이 이런 소비자 반응에 둔감해진 것도 문제다. 요즘 기업들은 "AI가 사람의 창의성을 떨어뜨리는가", "AI 도입 비용이 얼마나 드는가", "우리 브랜드 이미지는 괜찮은가" 같은 내부 문제에만 골몰한다. 정작 "소비자들이 어떻게 생각하는가"는 우선순위에서 밀렸다. "AI로 만들었어요" 솔직히 말하니 오히려 더 좋아해 의외의 반전은 AI 사용을 솔직하게 밝히면 소비자 반응이 나쁘지 않다는 점이다. 젊은 소비자의 73%는 "이 광고는 AI로 만들었습니다"라고 표시되어 있으면 구매 의향이 높아지거나(36%) 상관없다(37%)고 답했다. 구매를 꺼리게 된다는 응답은 27%에 그쳤다. 소비자들은 "AI로 만들었다는 표시"가 광고에서 고품질 이미지, 재미있는 내용 다음으로 중요한 관심 요소라고 답했다. 쉽게 말해 숨기지 말고 당당하게 밝히는 게 오히려 소비자의 눈길을 끌 수 있다는 얘기다. 하지만 실제로는 절반도 안 되는 기업들만 항상 AI 사용을 밝힌다. AI로 광고를 만드는 기업 10곳 중 9곳은 '가끔' 표시한다고 답했지만, '항상' 표시하는 기업은 절반도 안 됐다. 2024년도와 비교해도 거의 개선되지 않았다. 한 광고 전문가는 "기업들이 AI 사용을 숨기려 하면 소비자는 더 의심한다"며 "오히려 솔직하게 밝히는 게 장기적으로 신뢰를 쌓는 방법"이라고 조언했다. 약 광고, 정치 광고는 무조건 밝혀라 소비자의 절반 이상이 특정 AI 기술의 공개를 원하고 있다. 광고가 100% AI 생성인 경우, AI 이미지를 사용하는 경우, AI 비디오를 사용하는 경우 공개를 원한다는 응답이 각각 50% 이상이었다. AI 음성이나 AI 아바타/가상 캐릭터의 경우도 거의 절반이 공개를 원했다. 특히 소비자들은 광고주들보다 이러한 기술의 공개를 더 많이 원하는 경향이 있었는데, 특히 AI 비디오와 AI 카피에서 그 차이가 컸다. 흥미롭게도 35%의 소비자는 디지털로 조정된 이미지나 비디오도 공개되어야 한다고 생각했고, 31%는 조작된 사진 촬영 기법도, 23%는 돈을 주고 구매한 스톡 사진 사용도 공개되어야 한다고 답했다. 소비자들은 제약/헬스케어 광고나 정치 광고에서 AI 사용을 공개하는 것이 매우 중요하다고 여기는 경향이 가장 높았다(각각 60% 이상). 광고주들도 이들 카테고리를 높은 중요도로 평가했다. 이들 카테고리는 금융 서비스와 함께 이미 가장 엄격하게 규제되는 분야이며, 일부 광고주들은 사전에 자발적으로 공개를 선택하고 있다. 반면 엔터테인먼트(영화, TV 프로그램, 음악) 광고는 중요도가 가장 낮았지만, 여전히 과반수의 소비자와 광고주가 투명성을 선호했다(소비자 53%, 광고주 54%). 비용 절감만 생각하다 소비자 신뢰 잃는다 전문가들은 기업을 위한 세 가지를 조언했다. 첫째, Z세대의 태도를 제대로 이해하라는 것이다. 이들은 평소 AI를 많이 쓰지만 기업의 AI 마케팅에는 유독 엄격하다. Z세대를 타겟으로 하는 광고는 더욱 신중하게 접근해야 한다. 둘째, AI를 비용 절감용이 아니라 품질 향상용으로 써야 한다. 돈을 아끼기 위해 광고 품질이 떨어지면 소비자가 금방 알아챈다. 소비자 4명 중 1명은 아직 AI 광고에 대해 확실한 의견이 없는 상태다. 지금이 이들의 마음을 얻을 수 있는 골든타임이다. 하지만 저품질 AI 광고를 계속 보여주면 이들마저 부정적으로 돌아설 수 있다. 셋째, 특히 영상이나 이미지에 AI를 쓸 때는 반드시 표시하라는 것이다. 투명성이 장기적으로 브랜드 신뢰를 지킨다. 소비자가 헷갈릴 수 있는 상황이라면 무조건 밝히는 게 맞다. 한 업계 관계자는 "기업들이 AI를 단기적 비용 절감 도구로만 보는 순간, 소비자와의 신뢰는 무너진다"며 "AI 시대에는 오히려 투명성과 진정성이 더 중요해졌다"고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 광고가 늘어나는데 왜 젊은 사람들은 싫어하나요? A. 젊은 소비자들은 기업이 AI를 '비용 절감'과 '빠른 대량 생산' 수단으로만 쓴다고 봅니다. 실제로 기업들이 꼽은 AI의 가장 큰 장점이 2년 만에 '창의적 혁신'에서 '비용 효율성'으로 바뀌었습니다. 소비자 입장에서는 "우리한테 신경 쓰기보다 돈만 아끼려 한다"고 느끼는 거죠. 특히 Z세대는 본인들은 AI를 많이 쓰면서도 기업의 AI 사용에는 더 까다로운 이중적 태도를 보입니다. Q2. AI로 광고 만들었다고 솔직히 말하면 매출에 손해 아닌가요? A. 오히려 반대입니다. 젊은 소비자 10명 중 7명은 "AI로 만든 광고"라고 표시되어 있어도 구매 의향이 높아지거나 상관없다고 답했습니다. 또 "AI 사용 표시"가 고품질 이미지, 재미있는 내용 다음으로 소비자의 관심을 끄는 요소로 꼽혔습니다. 숨기지 말고 당당하게 밝히는 게 장기적으로 신뢰를 쌓는 길입니다. Q3. 어떤 경우에 꼭 "AI로 만들었다"고 표시해야 하나요? A. 소비자 절반 이상이 이런 경우 반드시 표시하길 원합니다. 광고 전체가 AI로 만들어진 경우, AI로 영상을 만든 경우, AI로 이미지를 만든 경우입니다. AI 목소리나 가상 인물을 쓸 때도 거의 절반이 표시를 원했습니다. 특히 의약품, 건강, 정치, 금융 관련 광고는 소비자와 기업 모두 절반 이상이 "꼭 밝혀야 한다"고 답했습니다. 간단히 말해 소비자가 "이게 진짜야, 가짜야?" 헷갈릴 수 있으면 표시하는 게 맞습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 15:09AI 에디터

생각만으로 챗GPT 쓰는 날 올까… 오픈AI, 뇌와 AI 연결하는 '머지 랩스'에 투자

오픈AI가 뇌-컴퓨터 인터페이스(BCI, Brain Computer Interface) 스타트업인 머지 랩스(Merge Labs)의 시드 라운드에 투자자로 참여한다고 15일(현지 시각) 발표했다. 오픈AI는 "인터페이스의 진보는 컴퓨팅의 진보를 가능하게 한다"며 "사람들이 의도를 표현하는 더 직접적인 방법을 얻을 때마다 기술은 더 강력하고 유용해진다"고 투자 배경을 설명했다. 머지 랩스는 생물학적 지능과 인공지능을 연결해 인간의 능력, 주체성, 경험을 극대화하는 것을 장기 목표로 하는 연구소다. 이 회사는 생물학, 디바이스, AI를 결합해 안전하면서도 훨씬 높은 대역폭으로 뇌와 인터페이스하는 근본적으로 새로운 BCI 접근 방식을 개발하고 있다. 오픈AI에 따르면 AI는 머지 랩스의 접근 방식에서 핵심적인 역할을 한다. AI는 생명공학(bioengineering), 신경과학, 디바이스 엔지니어링을 포함한 연구 개발을 가속화할 것이다. 또한 고대역폭 인터페이스는 의도를 해석하고 개인에게 적응하며 제한적이고 노이즈가 많은 신호로도 안정적으로 작동할 수 있는 AI 운영 체제의 혜택을 받게 된다. 오픈AI는 "과학 기반 모델과 기타 최첨단 도구로 머지 랩스와 협력해 발전을 가속화할 것"이라고 밝혔다. 이어 "야심 찬 아이디어를 현실로, 궁극적으로는 사람들에게 유용한 제품으로 만들어가는 머지 랩스를 지원하고 협력하게 돼 기쁘다"고 덧붙였다. 머지 랩스의 공동 창업자에는 BCI에 대한 완전히 새로운 접근 방식을 개척한 연구자인 미카엘 샤피로(Mikhail Shapiro), 타이슨 아플랄로(Tyson Aflalo), 섬너 노먼(Sumner Norman)이 포함됐다. 이들은 기술 기업가인 알렉스 블라니아(Alex Blania), 산드로 헤르비그(Sandro Herbig), 그리고 개인 자격으로 참여한 샘 알트만(Sam Altman)과 함께 팀을 구성했다. 오픈AI는 BCI를 "중요한 새로운 영역"이라고 평가하며 "새로운 소통, 학습, 기술과의 상호작용 방식을 열어준다"고 강조했다. 또한 "BCI는 누구나 AI와 원활하게 상호작용할 수 있는 자연스럽고 인간 중심적인 방법을 만들 것"이라고 전망했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.16 15:26AI 에디터

전 구글 X 임원, 충격 경고…"AI, 도구 아니라 인간의 주인 될 것"

전 구글X(Google X) 최고 비즈니스 책임자 모 가댓(Mo Gawdat)이 인공지능의 급속한 발전에 대해 강력한 경고를 보냈다. 그는 런던리얼(London Real)과의 인터뷰에서 "AI는 도구가 아니다. 현재는 유아 단계지만, 결국 인간의 주인이 될 것"이라고 단언했다. IBM, 마이크로소프트, 구글 등 글로벌 기술 기업에서 30년간 근무한 가댓은 "만약 지금 상황을 보지 못한다면 주의를 기울이지 않는 것"이라며 "우리는 이미 미니 디스토피아에 진입했다"고 주장했다. 가댓에 따르면 AI 능력은 5.7개월마다 두 배로 성장하고 있다. 이는 24개월마다 두 배로 증가하는 무어의 법칙(Moore's Law)과 비교해 충격적으로 빠른 속도다. 그는 "인텔(Intel) 4004 칩이 출시된 1970년대 초반부터 현재까지 처리 능력은 약 1,000억 배 증가했다"며 "AI는 이보다 훨씬 빠르게 발전하고 있고, AI가 더 나은 AI를 만드는 이중 지수 성장 단계에 있다"고 설명했다. 그는 풍부한 지능 자체에는 문제가 없다고 강조했다. "지능은 극성이 없는 힘이다. 좋은 곳에 사용하면 놀라운 결과를 얻지만, 나쁜 곳에 사용하면 순수한 악이 된다"는 것이다. 문제는 AI 기술이 희소성 기반의 자본주의 시스템과 정치적 이해관계에 의해 악용될 수 있다는 점이다. 가댓은 특히 미국과 중국 간의 AI 경쟁을 강하게 비판했다. 그는 "미국은 여전히 패권을 유지하려는 '약자 괴롭힘' 태도를 보이고 있다"며 "이는 전 세계가 대가를 치르는 냉전"이라고 지적했다. 오픈AI가 5,000억 달러 규모의 스타게이트 프로젝트를 발표한 지 일주일 만에 중국의 딥시크 R3가 3,000만 달러로 유사한 성과를 냈다는 사실을 언급하며, "우리가 왜 경쟁하는가"라고 반문했다. 가댓은 "우리가 직면한 진짜 문제는 풍부한 지능이 아니라 인간의 어리석음"이라며 "사람들이 잠에서 깨어나길 바란다. 겁을 주려는 게 아니라 깨어나길 바란다"고 말했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.15 16:37AI 에디터

구글, CT·MRI 읽는 AI 의사 공개…"의사 말 받아쓰기 오류 82% 줄였다"

구글이 3차원 의료 영상을 해석할 수 있는 인공지능 모델을 공개했다. 구글 리서치는 13일(현지 시각) 의료 인공지능 모델 '메드젬마 1.5(MedGemma 1.5)'와 의료 전문 음성인식 모델 '메드ASR(MedASR)'을 발표했다. 이번 모델의 가장 큰 특징은 컴퓨터 단층촬영(CT)과 자기공명영상(MRI) 같은 3차원 의료 영상을 분석할 수 있다는 점이다. 기존 모델이 평면 엑스레이 사진만 볼 수 있었다면, 이제는 여러 장의 단층 촬영 이미지를 종합해 입체적으로 판독할 수 있게 됐다. 내부 테스트 결과, 메드젬마 1.5는 컴퓨터 단층촬영 영상에서 질병을 찾아내는 정확도가 이전 버전보다 3% 높아졌고, 자기공명영상 분석은 14% 더 정확해졌다. 조직 슬라이드를 분석하는 능력도 크게 개선돼 해당 분야 전문 모델과 비슷한 수준에 도달했다. 흉부 엑스레이에서 병변이 어디에 있는지 찾아내는 정확도는 3%에서 38%로 크게 향상됐다. 과거 엑스레이 사진과 비교해 병의 진행 상태를 파악하는 정확도도 61%에서 66%로 높아졌다. 의료 검사 보고서에서 필요한 정보를 추출하는 능력은 60%에서 78%로 개선됐다. 의학 지식 문답 테스트에서도 정확도가 64%에서 69%로 올랐고, 전자의무기록 관련 질문에 답하는 능력은 68%에서 90%로 대폭 향상됐다. 함께 공개된 메드ASR은 의사가 진료할 때 하는 말을 글로 바꿔주는 모델이다. 일반 음성인식 프로그램과 비교하면 흉부 엑스레이 소견 받아쓰기에서 오류가 58% 줄었고, 여러 진료과 의사들의 받아쓰기를 테스트한 결과 오류율이 82% 감소했다. 실제로 말레이시아 의료기술 스타트업 큐메드 아시아(Qmed Asia)는 메드젬마를 활용해 150개 이상의 임상진료지침을 검색할 수 있는 대화형 인공지능을 만들었다. 대만 국민건강보험청은 이 모델로 3만 건의 병리 보고서를 분석해 폐암 수술 전 환자 상태를 평가하는 데 활용하고 있다. 구글은 두 모델을 연구 및 상업 목적으로 무료 공개했다. 다만 "임상 진단이나 치료 결정에 바로 사용할 수 없으며, 개발자가 자신의 사례에 맞게 검증하고 조정해야 한다"고 강조했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 21:37AI 에디터

나이·직업·취미 알려줬을 뿐인데…AI가 만든 2년 치 카드 내역 봤더니

금융회사들이 가진 고객 거래 정보는 AI 연구에 매우 유용하지만, 개인정보 보호 규정 때문에 공개할 수 없다. 이 문제를 해결하기 위해 미국 금융회사 캐피털원과 메릴랜드대학교 연구팀이 대규모 언어모델을 활용해 실제 고객 정보를 전혀 사용하지 않고도 진짜 같은 가짜 신용카드 거래 데이터를 만들어냈다. 이들이 공개한 데이터는 무려 3천만 건에 달하며, 23,000명의 가상 인물이 평균 2년간 사용한 신용카드 내역을 담고 있다. 나이·직업·취미 입력하면 AI가 그 사람의 소비 패턴 예측 연구팀이 개발한 '퍼스널레저'라는 시스템은 AI의 창의성과 컴퓨터 프로그램의 정확성을 합친 것이다. 이 시스템이 작동하는 방식은 이렇다. 먼저 가상의 사람에 대한 상세한 프로필을 만든다. 나이, 직업, 교육 수준, 취미, 자동차를 가지고 있는지 등 20가지 정보를 설정한다. 그러면 라마(Llama) 3.3 70B라는 대규모 언어모델이 "이런 사람이라면 언제 어디서 무엇을 살까?"를 예측해서 거래 내역을 만들어낸다. 예를 들어 72세의 은퇴한 제조업 관리자 조나단이라는 가상 인물이 있다. 조나단은 골프를 즐기고 역사에 관심이 많다는 설정이다. 라마 모델은 이런 특성을 고려해서 조나단이 골프장 회원권 비용을 결제하고, 역사 방송 채널 구독료를 내고, 목공 잡지를 구독하는 등의 거래 내역을 자동으로 생성한다. 연구팀은 이런 방식으로 23,000명의 가상 인물에 대해 각각 2년치 신용카드 사용 내역을 만들었고, 전체 거래 건수는 3천만 건이 되었다. AI 혼자 맡기면 계산 실수 투성이... 감시 프로그램 붙여 해결 AI만으로 거래 내역을 만들면 큰 문제가 생긴다. 며칠만 지나도 회계 계산이 엉망이 되기 때문이다. 연구팀이 라마 3.3 70B 모델만 사용해서 거래 내역을 만들었을 때 이런 문제들이 발생했다. 식료품을 비현실적으로 자주 사거나, 넷플릭스 같은 구독 서비스가 다음 달에 자동으로 결제되지 않거나, 잔액 계산이 틀려서 카드값을 너무 많이 내는 일이 벌어졌다. 특히 거래 내역이 길어질수록 이런 오류가 쌓여서 실제 사람의 거래와는 전혀 다른 결과가 나왔다. 이 문제를 해결하기 위해 연구팀은 매번 거래가 생성될 때마다 검사하는 감시 프로그램을 추가했다. 이 프로그램은 몇 가지 중요한 규칙을 체크한다. 들어온 돈과 나간 돈의 합이 맞는지, 신용카드 한도를 넘지 않았는지, 카드값을 기한 내에 냈는지, 구독 서비스가 매달 자동으로 갱신되는지 등을 확인한다. 라마 모델이 거래를 제안하면 프로그램이 이를 검토하고, 규칙에 어긋나면 "이 부분이 잘못됐으니 이렇게 고쳐라"라고 구체적으로 알려준다. 모델이 다시 수정안을 내면 프로그램이 재검토하는 식이다. 이렇게 해서 AI의 다양한 아이디어와 프로그램의 정확한 계산을 동시에 얻을 수 있었다. "학력 높고 차 있으면 더 쓴다"... 실제 소비 패턴 그대로 재현 생성된 가짜 거래 데이터를 분석해보니 실제 사람들의 소비 패턴과 놀랍도록 비슷했다. 교육을 많이 받은 사람일수록 한 달에 돈을 더 많이 썼고, 자동차를 가진 사람이 없는 사람보다 지출이 많았다. 나이별로는 중년에 지출이 가장 많고 나이가 들수록 줄어드는 패턴을 보였는데, 이는 실제 통계와 일치한다. 또 소비 성향을 5단계로 나눴을 때 절약형에서 소비형으로 갈수록 지출이 단계적으로 증가하는 모습도 확인됐다. 시간에 따른 소비 패턴도 현실적이었다. 12월에 다른 달보다 조금 더 많이 쓰는 것으로 나타났고, 금요일과 토요일에 평일보다 지출이 많았다. 재미있는 점은 공휴일과 평일의 평균 지출액은 비슷한데, 공휴일에는 사람마다 차이가 훨씬 컸다는 것이다. 집에서 쉬는 공휴일도 있고 쇼핑을 많이 하는 공휴일도 있기 때문이다. 돈이 부족한 사용자의 경우 신용카드 사용률이 시간에 따라 급격하게 오르락내리락하는 불안정한 패턴을 보였는데, 이것도 실제 현상을 잘 반영한 것이다. AI가 사기 거래 찾기... '도용 거래 분별'은 최고 성능 모델도 100점 만점에 47.6점 연구팀은 만든 데이터가 실제로 쓸모있는지 확인하기 위해 두 가지 테스트를 준비했다. 첫 번째는 "이 사람이 곧 돈이 부족해질까?"를 예측하는 것이다. 거래 내역을 보고 앞으로 신용카드 빚이 가진 현금보다 많아질지 맞춰야 한다. 두 번째는 신용카드 도용을 찾아내는 것이다. 정상적인 거래 사이에 다른 사람의 하루치 거래를 몰래 섞어 넣고, 어느 거래가 이상한지 찾아내야 한다. 연구팀은 연습용 데이터 150,000개와 시험용 데이터 36,000개를 준비했다. 최신 AI 모델 15개로 테스트한 결과, 돈 부족 예측 과제에서는 대부분의 모델이 무작위로 찍는 것보다 훨씬 좋은 성능을 보였다. 가장 성적이 좋았던 '피라포머'라는 모델은 평가 지표에서 0.828점을 기록했고, 우리가 잘 아는 '트랜스포머' 모델도 0.817점으로 좋은 결과를 냈다(무작위는 0.5점). 하지만 신용카드 도용을 찾아내는 과제는 훨씬 어려웠다. 가장 좋은 트랜스포머 모델도 100점 만점에 47.6점에 그쳤다. 일반적인 거래와 도용 거래를 구분하기가 어렵기 때문이다. 식료품을 사거나 주유하는 것처럼 누구나 하는 거래는 정상인지 도용인지 판단하기 힘들다. AI 발전해도 계속 쓸 수 있다 이 시스템의 큰 장점은 계속 발전시킬 수 있다는 점이다. 연구팀 설명에 따르면 과거 거래 내역을 얼마나 보여주느냐만 조절해도 문제 난이도를 바꿀 수 있다. 돈 부족 예측의 경우, 3개월치 거래를 보여주면 그 사람의 패턴을 파악하기 쉬워서 쉬운 문제가 되고, 1개월치만 보여주면 정보가 부족해 어려워진다. 반대로 도용 탐지는 거래 내역이 길수록 정상 패턴이 명확해져서 그 안에 숨어 있는 하루치 이상 거래를 찾기가 더 어려워진다. 더 중요한 것은 감시 프로그램의 규칙을 바꿔서 새로운 상황을 만들 수 있다는 점이다. 신용카드 한도를 더 낮게 설정하거나, 월급 들어오는 주기를 바꾸거나, 새로운 구독 서비스를 추가할 수 있다. 경제 위기로 물가가 오르거나 실업이 생기는 상황도 반영할 수 있다. 명절 효과를 더 강하게 만드는 것도 가능하다. 이런 변경을 해도 회계 규칙은 프로그램이 자동으로 지켜주기 때문에 데이터의 정확성은 유지된다. 연구팀은 이 덕분에 AI 모델이 아무리 발전해도 계속 새로운 도전 과제를 제공할 수 있다고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 실제 고객 정보 없이 어떻게 진짜 같은 거래 내역을 만들 수 있나요? A: 대규모 언어모델은 이미 세상에 대해 많은 것을 알고 있습니다. 어떤 직업을 가진 사람이 언제 어디서 무엇을 사는지, 계절이나 명절에 따라 소비가 어떻게 달라지는지 등의 일반적인 지식을 학습했기 때문입니다. 여기에 나이, 직업, 취미 같은 가상 인물의 상세 정보를 입력하면, 라마 3.3 70B 같은 모델은 "이런 사람이라면 이렇게 소비할 것"이라고 추론해서 거래 내역을 만들어냅니다. 실제 고객 데이터가 없어도 사람들의 일반적인 소비 방식을 재현할 수 있는 이유입니다. Q2. 기존의 가짜 데이터 생성 방법과 무엇이 다른가요? A: 기존 방법들은 실제 데이터의 패턴을 학습해서 비슷한 데이터를 만들어냅니다. 하지만 이 방법들은 잔액 계산, 카드값 납부 기한, 구독 서비스 갱신 같은 금융의 엄격한 규칙을 자주 어기고, 무엇보다 학습에 실제 고객 데이터가 필요해서 공개할 수 없습니다. 퍼스널레저는 대규모 언어모델로 다양한 거래를 만들되, 모든 거래를 감시 프로그램이 검사해서 회계 규칙 위반을 원천 차단합니다. 실제 고객 데이터 없이도 규칙을 지키는 데이터를 만들 수 있습니다. Q3. 이 가짜 거래 데이터는 어디에 쓰이나요? A: 신용카드 사기를 찾아내거나, 신용 위험을 예측하거나, 고객 행동을 예측하는 AI 모델을 개발하고 테스트하는 데 쓰입니다. 특히 실제 고객 데이터를 구하기 어려운 대학이나 작은 회사에 유용합니다. 연구팀이 제공한 두 가지 테스트(돈 부족 예측, 도용 탐지)를 통해 여러 AI 모델의 성능을 공정하게 비교할 수 있습니다. 또한 규칙을 바꿔서 다양한 경제 상황을 시뮬레이션하는 연구에도 활용할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 20:35AI 에디터

KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝"

KAIST 연구팀이 병원 진료 기록만으로 치매를 예측하는 인공지능 'Dementia-R1'을 개발했다. 해당 연구 논문에 따르면, 이 AI는 70억 개의 파라미터를 가진 소형 모델이지만 GPT-4o에 필적하는 성능을 보였다. 무엇보다 의사가 손으로 쓴 듯한 정리되지 않은 진료 기록에서도 수개월에서 수년 뒤 치매 발병 여부를 정확히 예측할 수 있어, 실제 병원에서 바로 사용 가능하다는 평가를 받고 있다. 병원 기록의 80%는 '정리 안 된 메모'... AI가 읽기 어려웠다 병원의 전자 기록 중 약 80%는 의사가 작성한 진료 메모나 검사 소견처럼 정리되지 않은 글이다. 치매는 몇 달에서 몇 년에 걸쳐 천천히 나타나는 병이라 여러 번의 진료 기록을 종합해야 진단할 수 있다. 하지만 기존 AI들은 특정 시점의 정보만 보도록 학습돼 있어서, 시간이 지나면서 증상이 어떻게 변하는지 제대로 파악하지 못했다. 연구팀은 이 문제를 해결하기 위해 AI가 스스로 패턴을 찾아내는 '강화학습'이라는 방식을 사용했다. Dementia-R1은 환자의 과거 진료 기록을 시간 순서대로 분석해서 인지 기능이 계속 떨어지는지, 잠깐 좋아지는지까지 파악한다. 치매는 증상이 일정하게 나빠지지 않고 때로는 좋아지는 것처럼 보이다가 다시 악화되기도 해서, 전체적인 흐름을 봐야 한다. 기존 방식으로는 이런 복잡한 판단 과정을 AI에게 가르치기 어려웠지만, 강화학습은 AI가 최종 진단을 내리기 전에 중간 단계들을 스스로 배울 수 있게 해준다. '단계별 학습'으로 AI 혼란 해결... 먼저 점수 맞히기부터 AI를 치매 진단 같은 '있다/없다' 판정에 바로 적용하면 학습이 불안정해지는 문제가 있다. 정답 신호가 너무 단순해서 AI가 무엇을 배워야 할지 헷갈리기 때문이다. 연구팀은 이를 해결하기 위해 2단계 학습 전략을 썼다. 1단계에서는 AI가 먼저 검증 가능한 인지 검사 점수들을 맞히도록 훈련시키고, 2단계에서 최종 치매 진단 과제로 넘어가는 방식이다. 구체적으로 1단계에서는 MMSE(간이 정신 검사, 0-30점), GDS(치매 심각도 척도, 1-7점), CDR(치매 평가 척도, 0-3점) 같은 표준화된 검사 점수를 예측 목표로 삼았다. 연구팀은 보조 AI를 활용해 정리되지 않은 진료 기록에서 이 점수들을 뽑아내고, 이를 정답으로 삼아 모델을 학습시켰다. MMSE는 30점 만점이므로 ±2점 차이는 정답으로 인정하고, GDS와 CDR은 점수 단위가 더 크므로 정확히 맞춰야 했다. 이런 중간 점수 맞히기 과제를 통해 AI는 병이 어떻게 진행되는지 추론하는 능력을 자연스럽게 배우게 된다. 2단계에서는 학습된 모델을 치매 여부를 판단하는 최종 진단에 적용한다. 이때는 맞음/틀림이라는 단순한 신호만 주어지지만, 1단계에서 이미 시간에 따른 증상 변화를 읽는 법을 배웠기 때문에 안정적으로 학습된다. 연구팀은 GRPO라는 효율적인 학습 알고리즘을 사용했다. 아산병원 3천 명 데이터로 검증... 정확도 77% 달성 연구팀은 Dementia-R1의 성능을 검증하기 위해 아산병원의 실제 진료 기록과 알츠하이머병 연구 데이터베이스(ADNI)에서 실험했다. 아산병원 데이터는 2021년 1월부터 2023년 9월까지 신경인지장애로 진단받은 약 3,000명 환자의 전자의무기록으로 구성됐다. 개인 정보는 모두 삭제했으며, 의사가 작성한 진료 메모에서 주요 검사 점수들을 추출했다. 아산병원 데이터에서 Dementia-R1은 정확도 77.03%를 기록하며 가장 높은 성능을 보였다. 이는 1단계 학습 없이 바로 훈련한 모델(76.57%)과 일반적인 방식(75.85%)을 모두 앞질렀다. 특히 중간 점수 예측에서도 평균 정확도 59.61%를 달성해, 파라미터 수가 4배 이상 많은 Qwen2.5-32B(57.9%)보다 높았다. 특히 신경과 전문의들이 병의 단계를 정밀하게 평가하는 데 쓰는 GDS와 CDR에서 우수한 성능을 보였다. ADNI 데이터베이스는 표 형식으로 정리된 구조화 데이터라서 연구팀은 이를 시간순 문장으로 변환해 적용했다. 여기서도 Dementia-R1은 정확도 74.91%를 기록하며 GPT-4o(76.05%)에 근접한 성능을 보였다. 특히 18-24개월 이상의 장기 예측에서는 GPT-4o(78.78%)를 앞선 80.30%를 기록해, 오랜 기간에 걸친 병 진행 예측에 강점을 보였다. 2년 뒤까지 예측 가능... 장기 예측에서도 안정적 연구팀은 마지막 진료 기록과 진단 시점 사이의 시간 간격별로 성능도 분석했다. 아산병원 데이터에서 Dementia-R1은 12-18개월 구간에서 정확도 79.28%로 최고를 기록했으며, 이는 SFT → GRPO 방식(78.00%)과 Qwen2.5-32B(74.38%)를 모두 앞섰다. ADNI 데이터에서는 18-24개월 구간에서 80.30%로 GPT-4o(78.78%)를 앞질렀고, 24개월 이상 장기 예측에서도 73.11%로 GPT-4o(71.18%)보다 높았다. 흥미롭게도 ADNI 데이터는 아산병원보다 훨씬 긴 추적 기간을 가지고 있어, 테스트 데이터의 약 절반이 24개월 이상, 일부는 36개월 이상의 간격을 보였다. 이는 경도인지장애 진행을 장기간 지켜본 특성 때문이다. 연구팀은 검증 가능한 검사 점수로 학습시킨 모델이 장기 예측에서도 안정적인 능력을 유지한다고 분석했다. 학습 과정 분석에서도 1단계를 거친 모델이 바로 학습한 모델보다 더 빨리 배우고 더 안정적이었다. 한계와 과제... 여러 병원 데이터로 검증 필요 연구팀은 몇 가지 한계점도 밝혔다. 우선 정리되지 않은 진료 기록 데이터가 아산병원 한 곳에서만 나왔기 때문에 다른 병원이나 환자 집단에서도 잘 작동하는지 추가 검증이 필요하다. 또한 한국어 진료 기록을 영어로 번역하는 과정에서 인지 기능 저하를 평가하는 데 중요한 미묘한 표현이나 문법 오류가 사라질 수 있다. 앞으로는 원어 텍스트에 직접 적용하는 연구가 필요하다. 또한 이 시스템의 성능이 보조 AI의 성능에 달려 있다는 점도 한계다. 연구팀은 Qwen2.5 시리즈를 사용해 진료 기록 번역과 검사 점수 추출을 했는데, 추출된 점수를 학습에 사용하기 때문에 추출 오류가 있으면 AI 학습에 방해가 될 수 있다. 마지막으로 이 방법은 MMSE 같은 숫자로 측정 가능한 검사에 의존하기 때문에, 표준화된 수치 기록이 없는 질병으로 바로 확장하기는 어렵다. 주관적이거나 질적인 지표만 있는 질병으로 확장하는 것은 앞으로의 과제다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. Dementia-R1은 실제 병원에서 어떻게 쓰일 수 있나요? A: Dementia-R1은 의사가 쓴 일반적인 진료 기록만으로 앞으로 6개월에서 2년 이내 치매 발병 가능성을 예측할 수 있습니다. 별도로 데이터를 입력할 필요 없이 기존 전자의무기록을 그대로 사용할 수 있어, 조기 검사나 위험 환자 모니터링에 도움이 될 수 있습니다. 하지만 최종 진단은 반드시 전문의가 내려야 합니다. Q2. 작은 AI가 큰 AI만큼 잘하는 이유는 뭔가요? A: Dementia-R1은 모든 것을 할 수 있는 범용 AI가 아니라 치매 진단이라는 한 가지 일에 특화돼 있습니다. MMSE, GDS, CDR 같은 검사 점수를 먼저 예측하도록 학습하면서, 시간에 따라 인지 기능이 어떻게 변하는지 파악하는 능력을 집중적으로 키웠습니다. 이런 전문화가 작은 크기를 보완했습니다. Q3. 이 연구를 다른 질병 예측에도 쓸 수 있나요? A: 원칙적으로는 가능하지만, MMSE처럼 객관적으로 측정 가능한 중간 지표가 있는 질병에 적합합니다. 알츠하이머병처럼 오랜 기간에 걸쳐 천천히 진행되고, 진료 기록에 증상 변화가 남아있는 만성 질환이라면 비슷한 방법을 쓸 수 있습니다. 다만 질병마다 적절한 중간 지표를 정하고 추출하는 과정이 필요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 13:35AI 에디터

AI로 공부하면 머리 나빠진다?...OECD가 밝힌 AI 교육의 명암

전 세계 교육 시스템이 AI 도입을 두고 기로에 서 있다. 경제협력개발기구(OECD)가 발표한 리포트에 따르면, AI는 개인 맞춤형 학습으로 교육 격차를 해소할 수 있다는 희망과 함께 학생들의 사고력을 퇴화시키고 프라이버시를 침해할 수 있다는 우려를 동시에 낳고 있다. 챗GPT 등장 후 교육계 변화... 사교육 시장에서 가장 빠르게 확산 2022년 챗GPT가 등장한 이후 전 세계 교육계는 급격한 변화를 겪고 있다. OECD 교수학습 국제조사(TALIS) 2024에 따르면, OECD 국가 교사의 37%가 지난 12개월간 AI를 교육에 활용했다고 답했다. AI 관련 연수 참여율은 OECD 평균 38%였으며, 싱가포르는 75%로 가장 높았고, 한국과 카자흐스탄, 아랍에미리트에서는 60% 이상의 교사가 AI 관련 연수를 받았다. 교사들은 AI를 주로 수업 주제 요약(68%)과 수업 계획 작성(64%)에 활용했다. 또한 25%는 학생 참여도나 성취도 데이터 검토에, 26%는 학생 과제 평가나 채점에 AI를 사용했다. 특히 52%의 교사가 AI가 특수 교육이 필요한 학생을 지원하는 데 도움이 된다고 답했다. 하지만 우려도 크다. OECD 평균으로 교사의 72%는 AI가 학생들의 표절을 조장할 수 있다고 답했고, 42%는 AI가 편향성을 증폭시킬 수 있다고 우려했다. 더 주목할 점은 학생들이 교실보다 집에서 AI를 더 많이 사용한다는 것이다. 스위스 조사에 따르면 초등학생의 8%, 중학생의 30%, 일반 고등학생의 50%가 교실에서 AI를 정기적으로 사용한 반면, 가정에서의 학습 관련 AI 사용률은 각각 9%, 33%, 54%로 더 높았다. 이는 AI 교육이 학교보다는 가정, 특히 사교육 시장에서 먼저 확산되고 있음을 시사한다. AI 튜터의 양면성: 학습 향상 vs 인지적 외주화 AI 튜터와 교육 보조 시스템의 효과에 대한 연구 결과는 엇갈린다. 터키에서 실시된 무작위 대조 실험(RCT)에서 839명의 중등학교 학생을 대상으로 한 수학 성적 연구는 흥미로운 결과를 보여주었다. 일반 챗GPT에 접근한 학생들은 대조군 대비 평균 48%의 성적 향상을 보였다. 더 놀라운 것은 교사의 입력과 모범 사례로 훈련된 특화 버전 챗GPT 튜터를 사용한 학생들이 127%의 성적 향상을 달성했다는 점이다. 그러나 사후 테스트(AI 도움 없이)에서 특화 버전 사용 학생과 대조군 간 성적 차이가 유의미하지 않았던 반면, 일반 챗GPT 사용 학생들의 성적은 17% 하락했다. 이는 적절한 안전장치 없는 AI 도구가 학생의 학습 성과를 저하시킬 수 있음을 시사한다. 미국 유타주에서 166,000명 이상의 학생을 대상으로 한 대규모 RCT는 5가지 적응형 AI 읽기 소프트웨어의 효과를 검증했다. 결과는 취학 전 아동의 읽기 점수에서 큰 긍정적 효과를 보였으며, 초등학생에게서도 중소 규모의 효과가 관찰됐다. 특히 영어 학습자, 저소득층, 특수교육 대상 학생 등 취약 계층이 가장 큰 혜택을 받았다. 그러나 대만에서 153명의 고등학생을 대상으로 한 프로그래밍 수업 RCT는 상반된 결과를 보여주었다. 챗GPT를 사용한 실험군 학생들은 전통적 강의식 교육을 받은 대조군에 비해 자기효능감과 학습 성취도가 낮았다. 이는 챗GPT가 프로그래밍 교육에서 최소한이거나 부정적인 영향을 미칠 수 있음을 시사한다. 수학 성별 격차, AI가 해법이 될 수 있을까 이탈리아는 PISA 2022에서 수학 성별 격차가 가장 큰 국가로 나타났다. 국가 평가 결과 이탈리아 여학생들은 이미 2학년 때부터 남학생에 비해 수학 성적이 낮았다. OECD 리포트는 AI가 이러한 격차 해소에 기여할 수 있는 여러 방안을 제시했다. AI 기반 멘토링 시스템은 여학생들을 관련성 있는 여성 STEM(Science, technology, engineering, and mathematics) 멘토와 연결해 롤모델을 제공할 수 있다. 미국의 초기 교실 실험에서는 저명한 여성 수학자와의 대화를 시뮬레이션하는 AI 기반 '롤모델 에이전트'가 평가자가 아닌 동반자로 제시될 때 여학생들의 수학에 대한 소속감을 높이는 것으로 나타났다. AI는 또한 성 고정관념이 배제된 개인 맞춤형 학습 환경을 제공할 수 있다. 교사의 무의식적 편향이 여학생의 수학 성취에 부정적 영향을 미칠 수 있는데, AI 튜터는 이러한 편향으로부터 자유로운 피드백과 지원을 제공할 수 있다. 하지만 주의해야 할 점은 AI 시스템 자체가 훈련 데이터에 내재된 편향을 반영할 수 있다는 것이다. 영어권 수학 교과서를 중심으로 훈련된 AI는 소수 집단 학생을 소외시키거나 참여를 저해하는 서사를 포함할 수 있다. 국가 AI 교육 전략의 핵심 원칙 다섯가지 OECD는 교육 시스템에 AI를 구현할 때 고려해야 할 몇 가지 핵심 원칙을 제시했다. 첫째, 의도성과 교육학적 정렬이다. AI는 목적이 아니라 수단이며, 그 배치는 명확히 표현된 교육 목표와 명시적으로 연결되어야 한다. 도구는 정책 입안자와 교육자가 육성하려는 지식, 기술 또는 성향, 성공을 판단할 지표, 필요한 보완적 인적 투입을 명시한 후 선택(또는 거부)되어야 한다. 둘째, 예방 원칙이다. 더 낮은 안전 위험을 가진 단순한 기술이 AI 도구와 비슷한 학습 목표를 달성할 수 있다면 그것을 선호해야 한다. 이는 완전한 정보에 입각한 동의를 할 수 없는 미성년자가 교육 현장에서 AI 도구의 사용자라는 점을 고려할 때 특히 중요하다. 단계적 도입은 예방의 실질적 표현이 될 수 있다. AI 튜터링은 핵심 과목에 통합되기 전에 선택적 보충 세션에 예약될 수 있고, 학교 환경에서 일일 사용 시간이 제한될 수 있으며, 라이선스 갱신 전에 독립적인 효과성 검토가 의무화될 수 있다. 셋째, 교육자의 감독이다. 개인화가 무조건적인 선이 아니다. 인간은 "인지적 구두쇠"로, 지름길이 나타날 때마다 기꺼이 노력을 외주화하는 경향이 있다. 그 결과 많은 이들이 프로그램이 이미 단순화한 작업을 해결할 수 있다는 잘못된 숙달감을 발달시킬 수 있다. 정책 입안자가 배치에 대한 강력한 감독을 구축하지 않으면, 이러한 안일함은 학생들이 훈련 매개변수를 벗어나는 상황에 직면할 때만 식별될 것이다. 넷째, 형평성 고려사항이다. AI 기반 개인화는 참여와 반응성을 향상시킬 수 있지만, 증거는 또한 디지털 도구와 유료 기능에 대한 불평등한 접근이 기존의 사회경제적 격차를 심화시킬 수 있음을 나타낸다. 인간의 중재는 AI 출력을 해석하고, 학습을 맥락화하며, 기술이 계층화가 아닌 포용적 목적을 달성하도록 보장하는 데 필수적이다. 다섯째, 데이터 보호와 거버넌스다. AI 튜터는 순간순간의 참여, 감정, 성과 신호를 포착할 때 가장 잘 작동하는데, 이는 정의상 개인적이고 민감한 데이터다. 미성년자의 경우 동의는 규제 프레임워크를 형식적으로 준수할 뿐만 아니라 의미가 있어야 한다. 기술을 불신하거나 자녀의 디지털 발자국을 최소화하기를 원하는 가족은 학업적 불이익이나 학습 옵션에 대한 접근 제한 없이 실행 가능한 거부권을 가져야 한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 튜터가 사교육을 대체할 수 있나요? A1. 조건부로 가능합니다. 터키 실험에서 교사 지도로 설계된 AI 튜터는 학생 성적을 127% 향상시켰지만, 일반 챗GPT는 오히려 17% 하락시켰습니다. 공교육에서 제대로 설계된 AI 튜터를 제공한다면 사교육 격차를 줄일 수 있지만, 상업용 AI 도구에 무분별하게 의존하면 위험합니다. Q2. AI 사용이 학생들의 사고력을 퇴화시킬 수 있나요? A2. 그렇습니다. AI에 과도하게 의존하면 스스로 사고하고 문제를 해결하는 능력이 약화되는 '인지적 외주화' 현상이 발생합니다. 대만 프로그래밍 실험에서 챗GPT 사용 학생들의 학습 성취도가 오히려 낮아진 것이 이를 증명합니다. AI는 기본 사고력을 갖춘 후 보조 도구로만 활용해야 합니다. Q3. AI 교육 도구 사용 시 학생 데이터는 안전한가요? A3. 현재로서는 우려가 큽니다. AI는 학생의 학습 패턴, 감정 상태 등 민감한 개인 정보를 실시간으로 수집합니다. EU는 AI법으로 교육을 "고위험" 영역으로 분류해 엄격히 규제하지만, 많은 국가에서 규제가 부족합니다. 학교의 AI 도입 시 강력한 데이터 보호 조치와 학부모의 거부권 보장이 필수입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.13 15:21AI 에디터

AI 유머 취향 분석했더니... '긴 글'과 '은어' 좋아해

일본 개그 게임 '오오기리'에서 사용자들이 재미있는 답변에 투표한 기록을 분석한 결과, AI와 사람의 유머 취향이 뚜렷하게 갈렸다. 사람과 달리, AI는 지나치게 긴 답변이나 인터넷 은어가 들어간 답변을 좋아했다. 사용자를 7개 그룹으로 나눴더니 취향이 제각각 일본 IT 기업 CyberAgent(사이버에이전트)와 나라첨단과학기술대학 연구팀은 일본 오오기리 사이트에서 908개 질문과 14,389개 답변, 276명이 참여한 57,751개 투표를 수집했다. 오오기리는 사회자가 던진 질문에 재치있게 답하는 일본식 개그 게임이다. 연구팀은 각 사용자가 어떤 답변에 투표했는지 기록을 보고, 비슷한 취향을 가진 사람끼리 묶어 7개 그룹으로 분류했다. 그룹별로 선호하는 유머가 확연히 달랐다. '그룹 0'은 대화 형식이나 여러 문장으로 긴 답변, 괄호를 많이 쓴 답변을 좋아했지만, 자기 비하 개그와 황당한 넌센스 유머는 싫어했다. '그룹 1'은 정반대로 자기 비하 개그를 가장 좋아했고, 형용사로 끝나는 답변도 선호했다. 반면 답변 속에 고유명사를 언급하거나 과장 표현을 쓰는 것은 기피했다. '그룹 2'도 자기 비하를 좋아했고, 짧은 이야기 형식과 물음표로 끝나는 답변을 선호했다. 고유명사 언급과 말줄임표 마침, 과장 표현은 싫어했다. '그룹 3'은 괄호, 말줄임표로 끝나는 답변, 많은 공백 사용을 좋아했지만, 짧은 이야기 형식과 과장 표현은 싫어했다. '그룹 4'는 말줄임표로 마무리하는 답변과 자기 비하, 괄호 사용을 선호했으나, 인터넷 은어와 과장 표현을 강하게 기피했다. '그룹 5'는 인터넷 은어를 압도적으로 좋아했고, 과장 표현과 고유명사 언급도 선호했다. 반면 황당한 넌센스와 지나치게 긴 답변은 싫어했다. '그룹 6'은 황당한 넌센스와 고유명사 언급, 패러디를 좋아했지만, 말줄임표 마침을 매우 강하게 기피했고, 은어와 괄호도 싫어했다. 이처럼 사람들의 웃음 코드는 그룹마다 정반대였다. 자기 비하 개그는 그룹 1, 2, 4가 좋아한 반면 그룹 0은 가장 싫어했고, 인터넷 은어는 그룹 5가 가장 좋아했지만 그룹 4와 6은 강하게 기피했다. 11가지 유머 유형으로 분류... AI가 85% 정확도로 자동 분석 연구팀은 답변을 체계적으로 분석하기 위해 45개 언어 특징과 11개 유머 유형을 정의했다. 각 그룹이 정확히 어떤 유머를 좋아하는지 파악하기 위해 유머의 특징을 체계적으로 분류했다. 단순히 "재미있다/없다"가 아니라, "무엇 때문에 재미있는가"를 밝히기 위해 유머를 구성 요소로 쪼갰다. 연구팀은 글자 수, 문장 수, 특수문자 사용 등 객관적 특징 45가지와 함께, 말장난, 공감되는 경험, 과장, 블랙 유머와 풍자, 황당한 넌센스, 반전, 메타적 유머(개그 자체를 소재로 쓴 유머), 자기 비하, 의인화, 패러디, 짧은 이야기 등 11개 유머 유형을 정의했다. 14,389개 답변을 일일이 사람이 분류하기는 불가능해서, GPT-5.1에게 자동으로 11가지 유머 유형을 붙이는 작업을 맡겼다. 연구팀이 110개 샘플을 직접 검토해보니 85.5%가 정확했다. AI가 답변당 3번씩 시도한 뒤 다수결로 최종 판단하게 해서 정확도를 높였다. 이렇게 분류한 뒤, 각 그룹이 56개 특징(45개 언어 특징 + 11개 유머 유형) 중 어떤 것을 선호하는지 통계 분석을 진행했다. GPT·제미나이·클로드, 전체 사용자와는 취향 안 맞아 연구팀은 GPT-5.1, 제미나이 3 프로(Gemini 3 Pro), 클로드 소넷 4.5(Claude Sonnet 4.5) 등 3개 AI 모델에게도 같은 질문을 주고 가장 재미있는 답을 고르게 했다. AI들이 선택한 답변의 패턴을 분석해보니, 사람들과는 다른 취향이 드러났다. AI들은 모두 지나치게 긴 답변, 단어를 다양하게 쓴 답변, 인터넷 은어가 들어간 답변을 사람보다 훨씬 더 좋아했다. 반대로 적당한 길이의 답변이나 단어가 반복되는 답변은 사람보다 덜 좋아했다. 연구팀이 AI와 전체 사용자의 취향 일치도를 측정했더니, GPT-5.1은 -0.22, 제미나이 3 프로는 -0.36, 클로드 소넷 4.5는 -0.26으로 모두 마이너스 값이 나왔다. 음수는 취향이 맞지 않는다는 뜻이다. 하지만 특정 그룹하고는 취향이 맞았다. GPT-5.1과 클로드 소넷 4.5는 '그룹 0'과 각각 0.57, 0.52의 일치도를 보였다. 양수는 취향이 비슷하다는 의미다. 즉, AI는 모든 사람과 취향이 다른 게 아니라, 특정 유형의 사람들과는 웃음 코드가 통한다는 얘기다. AI에게 나이·성별 설정했더니 웃음 코드 바뀌어 연구팀은 AI에게 "당신은 20세 남성입니다", "당신은 45세 여성입니다" 같은 식으로 설정을 주고 다시 실험했다. 이를 '페르소나 프롬프팅'이라고 부른다. 20세 남성, 20세 여성, 45세 남성, 45세 여성, 65세 남성, 65세 여성 등 6가지 설정과 설정 없음을 비교했다. 제미나이 3 프로에서 효과가 가장 컸다. 설정이 없을 때 '그룹 0'과의 일치도는 0.39였는데, 45세 여성으로 설정하자 0.63으로 올라갔다. 20세 남성 설정은 '그룹 3'과의 일치도를 0.10에서 0.34로 높였다. 이는 AI에게 적절한 성격을 부여하면 특정 그룹의 취향에 맞출 수 있다는 뜻이다. 다만 모든 경우에 효과가 있는 건 아니었다. GPT-5.1의 경우 '그룹 1'과는 어떤 설정을 써도 일치도가 -0.09에서 0.03 사이에 머물렀다. 연구팀은 개인 맞춤형 유머 서비스를 만들려면 페르소나 설정만으로는 부족하고 추가적인 방법이 필요하다고 밝혔다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 사용자를 7개 그룹으로 나눈 기준은 무엇인가요? A. 각 사람이 어떤 답변에 투표했는지 기록을 모아서 비슷한 취향을 가진 사람끼리 묶었습니다. 통계 기법을 써서 자동으로 분류했으며, 최소 100번 이상 투표한 활성 사용자 276명만 분석 대상으로 삼았습니다. Q. 취향 일치도를 어떻게 숫자로 측정했나요? A. 각 유머 요소가 얼마나 선호되는지 점수를 매기는 통계 모델을 사용했습니다. 투표를 많이 받은 답변과 적게 받은 답변을 비교해서, 어떤 특징이 있는 답변이 인기있는지 계산했습니다. 그 결과를 그룹별, AI별로 비교해 일치도를 측정했습니다. Q. 이 연구 결과를 어디에 활용할 수 있나요? A. 사용자 개인의 취향에 맞춘 개그나 콘텐츠를 추천하는 시스템을 만들 수 있습니다. AI에게 특정 그룹의 취향을 학습시켜서, 그 그룹 사람들이 좋아할 만한 재미있는 답변을 자동으로 만들어내는 데 활용할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 23:01AI 에디터

앤트로픽, 챗GPT 이어 건강 관리 AI 서비스 출시…의료 현장 AI 활용 본격화

앤트로픽(Anthropic)이 의료 분야 특화 AI 제품 '클로드 포 헬스케어(Claude for Healthcare)'를 12일(현지 시각) 공식 출시했다. 앤트로픽에 따르면 이번 제품은 HIPAA(미국 건강보험 양도 및 책임에 관한 법) 준수 환경을 갖춰 의료 제공자와 보험사, 소비자 모두 안전하게 의료 목적으로 클로드를 쓸 수 있다. 주요 기능은 메디케어·메디케이드 서비스 센터(CMS) 보장 데이터베이스와 국제질병분류(ICD-10), 국가 의료제공자 식별 레지스트리 등 의료 표준 시스템과 연결되는 것이다. 클로드는 이를 통해 보장 요구사항을 확인하고 환자 기록과 대조해 사전 승인 결정안을 제안한다. 기존에 몇 시간씩 걸리던 사전 승인 요청 검토 시간을 크게 줄이는 게 목표다. 생명과학 분야에서는 메디데이타(Medidata)와 ClinicalTrials.gov, ChEMBL 등 임상시험 및 신약 개발 플랫폼 연결 기능을 추가했다. 클로드는 FDA와 NIH 요구사항을 반영한 임상시험 프로토콜 초안을 작성하고, 시험 진행 상황을 모니터링하며, 규제 제출을 준비하는 작업을 돕는다. 개인 사용자용 기능도 강화됐다. 미국의 클로드 프로(Claude Pro) 및 맥스 플랜(Max plan) 가입자는 HealthEx와 Function, 애플 헬스(Apple Health), 안드로이드 헬스 커넥트(Android Health Connect)를 통해 개인 건강 데이터를 클로드에 연결할 수 있다. 회사 측은 사용자가 공유할 정보를 직접 선택하고 언제든 권한을 해제할 수 있으며, 건강 데이터를 모델 학습에 쓰지 않는다고 밝혔다. 이번 출시는 최신 모델인 클로드 오퍼스 4.5(Claude Opus 4.5)의 성능 향상을 바탕으로 한다. 의료 계산 정확도를 평가하는 MedCalc와 스탠퍼드대학의 MedAgentBench에서 이전 모델보다 크게 개선된 결과를 보였고, 사실 환각 문제도 줄었다. 새로운 커넥터와 에이전트 스킬은 클로드 프로와 맥스, 팀스(Teams), 엔터프라이즈 등 모든 구독자에게 제공된다. 앤트로픽은 아마존 베드락(Amazon Bedrock)과 구글 클라우드 버텍스 AI(Google Cloud's Vertex AI), 마이크로소프트 파운드리(Microsoft Foundry) 등 주요 클라우드 서비스와 파트너십을 맺고 서비스를 확대할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:21AI 에디터

챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 'jobs' 테스트 중

오픈AI가 챗GPT에 구직 활동을 지원하는 새로운 기능을 개발하고 있는 것으로 나타났다. 최근 챗GPT 웹 애플리케이션 코드 분석 결과, '잡스(Jobs)'라는 이름의 새로운 탭이 추가될 예정인 것으로 확인됐다. 소프트웨어 개발자인 티보르 블라호(Tibor Blaho)는 자신의 X 계정을 통해 챗GPT 웹앱의 최근 변경 사항을 공개했다. 블라호에 따르면, 헬스(Health, 코드명 '포션(Potion)') 기능에 이어 챗GPT의 다음 자체 프로젝트가 잡스가 될 것으로 보인다. 새로운 잡스 기능에는 "역할 탐색, 이력서 개선, 다음 단계 계획에 도움을 제공한다"는 설명과 함께 "이력서 개선 및 포지셔닝 지원을 받고, 자신에게 맞는 역할을 명확히 하고 돋보이는 방법을 찾으며, 목표에 맞는 기회를 검색하고 비교할 수 있다"고 소개됐다. 블라호는 이 기능이 현재 개발 중이지만 최근 빌드에서 눈에 띄는 진전이 있다고 밝혔다. 또한 헬스 기능과 마찬가지로 잡스 전용 메모리(Jobs memories)와 새로운 커넥터(connectors)가 별도로 제공될 것으로 보인다고 설명했다. 이번 잡스 기능 추가는 오픈AI가 특정 분야에 특화된 서비스를 확대하는 전략의 일환으로 해석된다. 앞서 오픈AI는 챗GPT 헬스와 의료진을 위한 오픈AI 헬스케어(OpenAI Healthcare)를 공개한 바 있다. 한 사용자는 "먼저 챗GPT 헬스, 그다음 의사를 위한 오픈AI 헬스케어, 그리고 이제 챗GPT 잡스라니. 흥미로운 락인(lock-in) 전략"이라고 평가했다. 다만 일부 사용자들은 챗GPT 사이드바에 계속 추가되는 항목들에 대해 우려를 표했다. 한 사용자는 "사람들이 사용하지 않는 사이드바 항목들을 제거할 수 있는 설정이 함께 제공되면 좋겠다. 잡동사니 서랍이 되어가고 있다"고 지적했다. 한편 구글은 이미 '커리어 드리머(Career Dreamer)'라는 AI 기반 진로 탐색 도구를 제공하고 있다. 이 도구는 사용자의 꿈의 직업을 발견하고 경력 잠재력을 발굴하며 기술을 분석해 새로운 진로를 제안한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:13AI 에디터

남성은 쓰고 여성은 망설인다...AI 격차가 만들 새로운 '성별 격차'

옥스퍼드대학교 인터넷연구소가 약 8,000명의 영국 성인을 대상으로 조사한 결과, 여성이 남성보다 생성형 AI를 덜 사용하는 이유는 기술에 대한 이해 부족이 아니라 AI가 사회에 미칠 부정적 영향에 대한 우려 때문인 것으로 나타났다. 연구진은 이런 차이가 계속되면 과거 인터넷 기술 격차가 남녀 임금 격차를 벌렸던 것처럼, AI 시대에도 새로운 경제적 불평등이 생길 수 있다고 경고했다. 정신건강 걱정하는 여성, AI 사용률 무려 45%p 낮아 해당 논문에 따르면, 영국에서 일주일에 한 번 이상 개인적으로 생성형 AI를 쓰는 사람은 여성이 14.7%, 남성이 20.0%였다. 전체적으로는 5.3%p 차이지만, 특정 집단에서는 이 격차가 훨씬 커졌다. AI가 정신건강에 해롭다고 생각하는 사람 중에서는 여성 14.1%, 남성 31.0%가 AI를 자주 써서 16.8%p나 벌어졌다. 가장 큰 차이는 'AI가 정신건강에 좋다'고 생각하면서도 디지털 기술은 잘 아는 집단에서 나타났다. 이 경우 개인적으로 쓸 때는 45.3%p, 업무에서 쓸 때도 29.4%p 차이가 났다. 즉, 여성들은 AI를 쓸 줄 아는데도 사회적 영향이 걱정돼서 안 쓰는 것이다. 기후변화·개인정보·일자리 걱정, 여성이 AI 안 쓰는 이유 연구진은 정신건강, 기후변화, 개인정보 보호, 일자리 영향이라는 네 가지 걱정을 합쳐서 '사회적 위험 인식 지수'를 만들었다. 분석 결과 이 지수는 누가 생성형 AI를 쓰고 안 쓸지를 예측하는 요인 중 9~18%를 설명했다. 모든 연령대 여성에게 가장 중요한 예측 요인 중 하나였다. 특히 젊은 여성(18~35세)에게는 디지털 능력이나 학력보다 이 지수가 더 중요했다. 기후 영향을 걱정하는 사람 중에서는 여성 18.2%, 남성 27.5%가 AI를 자주 써서 9.3%p 차이가 났다. 개인정보 오용을 걱정하는 집단에서는 여성 12.5%, 남성 19.9%로 7.4%p 차이를 보였다. 흥미로운 점은 이런 격차가 남성이 더 많이 쓰게 돼서가 아니라, 여성이 덜 쓰게 되면서 벌어졌다는 것이다. 여성의 걱정이 실제 행동으로 이어진 셈이다. 젊은 여성, 기술 잘 알아도 사회적 걱정 때문에 안 써 연령대별로 나눠 분석한 결과는 더 놀랍다. 젊은 여성(18~35세)에게 'AI 위험 인식'은 생성형 AI 사용을 예측하는 두 번째로 중요한 요인이었다. 하지만 같은 나이 남성에게는 여섯 번째에 불과했다. 나이가 많을수록 이 경향은 더 뚜렷해져서, 중장년층과 노년층 여성에게는 첫 번째, 남성에게는 두 번째로 중요한 요인이 됐다. 연구진은 여성이 '나한테 위험한가'보다 '사회에 어떤 영향을 미칠까'를 더 걱정한다고 설명했다. 이는 여성이 평균적으로 사회적 공감 능력이 높고, 도덕적 문제에 더 민감하며, 공정성을 중시한다는 기존 연구와 같은 맥락이다. 실제로 교육 분야 연구를 보면, 여성은 과제에 AI를 쓰는 것을 부정행위나 표절로 볼 가능성이 더 높다. 기술 교육보다 'AI 긍정적 인식' 바꾸는 게 격차 줄이는 데 효과적 연구진은 2023년과 2024년 두 차례 설문 데이터를 활용해 인식 변화가 실제 행동에 어떤 영향을 주는지 추적했다. 나이, 성별, 학력, 직업이 같은 사람들을 짝지어 비교하면서 두 가지를 살폈다. 하나는 디지털 능력이 좋아진 경우, 다른 하나는 AI의 사회적 영향을 긍정적으로 보게 된 경우였다. 젊은 층(18~35세)에서 디지털 능력이 좋아지면 여성의 AI 사용률은 17%에서 29%로 올랐지만 통계적으로 의미 있는 변화는 아니었다. 반면 남성은 19%에서 43%로 크게 늘었다. 하지만 AI의 사회적 영향을 긍정적으로 보게 되면 여성은 13%에서 33%로 확 올랐고, 이는 통계적으로도 의미 있는 변화였다. 남성은 21%에서 35%로 소폭 늘었을 뿐이다. 전체 연령대(18~50세 이상)에서도 긍정적 인식이 생기면 여성은 8%에서 20%로, 남성은 12%에서 25%로 늘어 격차가 줄었다. 결국 일반적인 디지털 교육은 전체적으로 AI 사용을 늘리지만 젊은 여성에게는 별 효과가 없었다. 반대로 AI에 대한 부정적 생각을 바꾸는 것은 여성의 사용을 크게 늘리고 남녀 격차를 줄이는 데 효과적이었다. 생산성 차이가 임금 차이로... AI 시대 새로운 불평등 경고 연구진은 이번 발견이 단순히 기술 사용 차이가 아니라 심각한 경제 문제라고 강조했다. 생성형 AI는 일의 생산성과 효율을 높이고, 창의적 만족도도 올려준다는 게 이미 증명됐다. 만약 AI 사용 방식과 기대, 능력이 만들어지는 지금 이 초기 단계에서 남성이 훨씬 많이 쓴다면, 이런 초기 이점이 시간이 지나면서 눈덩이처럼 불어나 생산성, 기술 습득, 경력에 영향을 줄 수 있다. 과거 인터넷 기술 격차가 여성의 노동시장 진입과 경력에 나쁜 영향을 미쳤고, 전체 남녀 임금 격차를 설명하는 중요한 요인이었던 것과 같다. 연구진은 여성의 환경·사회·윤리 문제에 대한 높은 민감도가 틀린 게 아니라고 지적했다. 지금 생성형 AI는 실제로 엄청난 전력을 쓰고, 불공정한 노동 관행이 있으며, 편향과 가짜 정보 위험도 크기 때문이다. 그래서 남녀 격차를 줄이려면 단순히 사람들의 생각만 바꿀 게 아니라 기술 자체를 개선해야 한다. 탄소를 덜 배출하는 AI 개발을 장려하고, 편향과 정신건강 피해를 막는 안전장치를 강화하며, 공급망과 학습 데이터에 대한 투명성을 높이는 정책이 필요하다. 그래야 여성의 위험 인식이 AI 사용을 가로막는 장애물이 아니라 기술을 더 좋게 만드는 원동력이 될 수 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 생성형 AI 사용에서 남녀 격차가 왜 문제인가요? A. 생성형 AI는 일의 생산성과 창의성을 높여주는 도구입니다. 이걸 쓰는 사람과 안 쓰는 사람 사이에 경력 발전과 소득 차이가 생길 수 있습니다. 과거 인터넷 기술 격차가 남녀 임금 차이를 벌렸던 것처럼, AI 격차도 새로운 경제적 불평등을 만들 수 있습니다. 게다가 남성이 압도적으로 많이 쓰면 AI가 남성의 관점과 질문 방식만 학습해서 편향이 더 심해질 수 있습니다. Q2. 여성이 AI를 덜 쓰는 이유가 기술을 몰라서가 아니라는 건가요? A. 맞습니다. 이번 연구는 디지털 기술을 잘 아는 여성조차 AI의 정신건강, 환경, 개인정보, 일자리 영향이 걱정돼서 안 쓴다는 걸 보여줍니다. 실제로 AI를 잘 이해하면서도 정신건강을 걱정하는 여성과 남성의 사용률 차이는 무려 45%p나 됐습니다. 여성의 걱정은 '나한테 위험한가'보다는 'AI가 사회 전체에 어떤 영향을 미칠까'에 대한 것입니다. Q3. 남녀 격차를 줄이려면 어떻게 해야 하나요? A. 단순히 AI 사용법만 가르치는 건 효과가 별로 없습니다. 연구를 보면 디지털 교육은 남성의 사용률만 더 높였지만, AI에 대한 긍정적 인식을 심어주니까 여성의 사용률이 13%에서 33%로 크게 올랐습니다. 실제로 AI의 전력 소비를 줄이고, 편향을 막는 안전장치를 강화하고, 투명성을 높이는 등 기술을 개선하면서 동시에 이런 개선 사실을 알리는 게 중요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 19:31AI 에디터

저소득 국가, AI 시대 낙오 위기...OECD "생산성 격차 2배로 벌어질 것"

경제협력개발기구(OECD)가 지난달 발표한 보고서를 통해 인공지능이 선진국의 생산성을 크게 높일 것으로 전망하면서도, 저소득 국가와 중하위소득 국가에서는 오히려 글로벌 생산성 격차를 심화시킬 위험이 있다고 경고했다. 이 보고서는 AI가 모든 국가에 균등한 혜택을 가져다주지 않을 것이며, 특히 개발도상국들이 AI 채택에서 상당한 장벽에 직면해 있다는 점을 강조한다. 선진국은 생산성 급증, 개발도상국은 절반 수준에 그칠 전망 OECD의 분석에 따르면 AI는 향후 10년간 선진국 경제의 주요 생산성 성장 동력이 될 것으로 예상되지만, 국가 간 편차가 매우 클 것으로 나타났다. 골드만삭스는 생성형 AI가 미국의 연간 노동생산성을 1.5%포인트 높일 것으로 전망했으며, 학술 연구들은 0%에서 1%포인트 사이의 기여도를 예측했다. 이는 1995~2005년 ICT 붐 시기 미국에서 정보통신기술이 연간 노동생산성에 기여한 1~1.5%포인트와 비슷한 수준이다. 그러나 다른 선진국들의 경우 미국보다 낮은 수준의 AI 생산성 효과가 예상된다. OECD의 최근 연구는 일관된 방법론을 사용해 주요 7개국(G7) 경제에서 AI로 인한 생산성 향상을 추정했는데, 이탈리아와 일본의 경우 AI로 인한 노동생산성 혜택이 미국의 절반 수준에 그칠 것으로 나타났다. 국제통화기금(IMF)의 추정에 따르면 저소득 국가에서 AI가 생산성 성장에 기여하는 정도는 선진국의 약 절반에 불과할 것으로 예상된다. 실제로 챗GPT와 같은 생성형 AI 도구의 초기 사용 데이터를 보면, 저소득 국가에서의 채택률은 고소득 국가 대비 10분의 1 수준으로 나타났다. 고소득 및 중상위소득 국가에서는 빠르게 증가하고 있지만, 대부분의 중하위소득 국가에서는 여전히 낮은 수준을 유지하고 있으며 저소득 국가에서는 사실상 전무한 실정이다. 교육 수준과 디지털 인프라 부족이 AI 채택의 최대 걸림돌 보고서는 저소득 및 중하위소득 국가들이 AI 채택에서 직면한 주요 장벽들을 구체적으로 분석했다. 가장 큰 문제는 노동력의 교육 수준이다. 전 세계적으로 생성형 AI 챗봇 사용자 중 정규 교육을 받지 않은 사람은 거의 없는 것으로 나타났다. 하지만 저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 정규 교육을 받지 못한 상태다. 또한 저소득 국가의 문해율은 63%에 불과하며, 중하위소득 국가는 78%에 그친다. 이는 대규모 언어모델(LLM) 챗봇을 글로 사용하는 것이 불가능한 인구 비율이 상당하다는 의미다. 게다가 챗봇 사용자의 절반 이상이 최소한 대학 학위를 보유하고 있지만, 중하위소득 국가의 대졸자 비율은 고소득 국가의 3분의 1에도 미치지 못하며, 저소득 국가에서는 6분의 1 수준이다. 디지털 인프라의 부족도 심각한 문제다. 2023년 기준 저소득 국가에서 휴대전화를 소유한 인구는 58%에 불과하고, 중하위소득 국가는 74%다. 이는 고소득 국가의 95%와 큰 차이를 보인다. 고정 광대역 보급률은 더욱 낮아서, 2024년 기준 중하위소득 국가는 100명당 4.8건, 저소득 국가는 0.5건에 불과했다. 기업 수준에서 보면 저소득 국가 기업의 32%, 중하위소득 국가 기업의 41%만이 웹사이트를 보유하고 있어, 고소득 국가의 거의 절반 수준이다. 전력 접근성도 중요한 제약 요인이다. 2023년 기준 저소득 국가 인구의 47%만이 전기를 이용할 수 있으며, 중하위소득 국가는 91%다. 복잡한 AI 애플리케이션을 유지하기 위한 적절한 전력망과 생산 인프라는 저소득 및 중하위소득 국가에서 심각하게 준비되지 않은 상태다. AI 비용 부담, 저소득 국가에선 연간 소득의 25%에 달해 AI 도구의 높은 비용도 채택을 가로막는 주요 장벽이다. 챗GPT 플러스의 중간 강도 사용 구독료는 월 20달러로, 저소득 국가의 평균 연간 소득의 약 25%, 중하위소득 국가의 10%에 해당한다. 더 저렴한 대안 모델들도 존재하지만, 중간 수준의 품질을 제공하는 모델을 사용해 복잡한 작업을 수행하는 데 드는 비용도 저소득 및 중하위소득 국가의 구매력 대비 상당한 부담이다. 기업 차원에서 체계적인 AI 채택은 훈련, 생산 재조직, 보완적 기술과 무형자산 투자 등 큰 고정비용을 수반한다. 이러한 비용은 고소득 국가에서도 AI 채택을 저해하는 요인으로 작용하는데, 일반적으로 기업 규모가 작고 신용 제약이 심한 중하위소득 및 저소득 국가에서는 더욱 심각한 장벽이 될 수 있다. 보고서는 또한 저소득 및 중하위소득 국가들의 산업 구조가 AI 노출도가 낮다는 점도 지적했다. AI 노출도는 미국 기준으로 추정했을 때 금융, IT 서비스 및 전문직과 같은 지식집약적 서비스에 집중되어 있다. 하지만 서비스업은 저소득 및 중하위소득 국가의 GDP에서 고소득 국가보다 훨씬 작은 비중을 차지한다. 반대로 이들 국가는 농업과 같은 저기술 부문의 비중이 높은데, 이 부문의 AI 노출도는 서비스업의 약 3분의 1 수준이다. 젊은 노동력은 장점, 하지만 구조적 약점이 압도 보고서는 저소득 및 중하위소득 국가가 가진 몇 가지 잠재적 이점도 언급했다. 가장 주목할 만한 것은 젊은 노동력이다. 최근 증거에 따르면 젊은 근로자들이 새로운 기술을 더 빠르고 효과적으로 채택하는 경향이 있다. 미국에서는 40세 미만 근로자가 40세 이상보다 AI를 사용할 가능성이 약 1.5배 높았다. 저소득 국가에서는 노동력의 약 75%가 40세 미만이며, 중하위소득 국가에서는 69%다. 이는 고소득 국가의 연령 구조를 가졌을 때보다 AI 채택률이 5~10% 높을 수 있음을 시사한다. 보고서는 이러한 젊은 연령 구조가 채택에 긍정적인 영향을 미칠 수 있다고 평가했다. 그러나 전반적으로 저소득 및 중하위소득 국가가 직면한 도전 과제들이 이러한 장점을 크게 압도한다. 교육 부족(저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 대부분의 AI 도구에서 배제될 위험), 에너지 및 디지털 인프라 장벽(저소득 국가의 53%가 전기에 접근할 수 없고, 약 4분의 1이 적절한 인터넷 커버리지가 없음) 등이 대규모 인구 집단을 AI 기술 사용에서 제한할 수 있다. 또한 AI 노출도 측면에서, 지식집약적 서비스의 작은 역할로 인해 저소득 국가에서는 고소득 국가 대비 약 40% 낮은 생산성, 중하위소득 국가에서는 약 25% 낮은 생산성이 예상된다. 이러한 AI의 특성—지식집약적 부문 의존성, 기본 인지 능력과의 시너지, 디지털 인프라 의존성—은 새로운 기술 격차를 더욱 어렵게 만든다. AI 격차 해소를 위한 정책 방향: 인프라·교육·금융 접근성 개선 필요 보고서는 저소득 및 중하위소득 국가에서 AI 생산성 격차를 방지하기 위한 구체적인 정책 방향을 제시했다. 단기적으로는 AI 채택 역량을 강화하는 데 초점을 맞춰야 하며, 네 가지 핵심 영역이 확인되었다. 첫째, 에너지 및 디지털 연결 인프라에 대한 투자가 필수적이다. 안정적인 전력 접근은 기본 전제조건이며, 에너지망 확장 및 현대화, 에너지원 믹스 다변화 등이 필요하다. 디지털 연결성 측면에서는 건전한 제도 및 규제 프레임워크, 국가 광대역 목표 및 전략 설정, 광대역 매핑 및 데이터 개선 등이 권장된다. 특히 외딴 지역과 서비스가 부족한 지역에서 연결성 문제가 중요하다. 둘째, 교육과 노동력 기술이 AI 채택의 필수 보완 요소로 부각된다. 최근 연구에 따르면 저소득 및 중하위소득 국가에서 기술 개발은 부문별 인력 훈련을 통해 제공될 때 특히 효과적이다. 타겟팅이 중요하며, 이들 국가의 경제 구조를 고려할 때 농업을 포함하고 중소기업과 특히 기술이 부족한 취약 계층에 초점을 맞춰야 한다. AI 기술의 특성상 디지털 리터러시와 ICT 기술, 영어 능력에 특별한 강조를 둘 수 있다. 셋째, 금융 접근성이 중요한 역할을 한다. AI 채택 비용은 심각한 신용 제약 하에서 금지적으로 변할 수 있다. 저소득 및 중하위소득 국가에서 효율적인 자본 시장을 지원하는 정책들이 더 디지털화되고 경쟁력 있는 금융 부문을 강화할 수 있다. AI 서비스 구매나 휴대전화 및 컴퓨터 같은 보완 하드웨어를 위한 표적 금융 지원이 기업들의 채택 비용 관리를 도울 수 있다. 넷째, AI 규제 준비성과 집행이 관련성이 있다. 기관들은 불필요한 규제 부담을 최소화하는 것과 신뢰할 수 있는 AI를 위한 강력한 프레임워크를 구축하는 것 사이에서 균형을 맞춰야 한다. OECD AI 원칙은 AI 시스템의 공정성, 투명성, 견고성 및 책임성을 보장하는 데 있어 핵심 참고 자료가 된다. 장기적으로는 AI 경제에서의 기회를 포착하는 것이 중요하다. 보고서는 저소득 및 중하위소득 국가가 건강과 교육 같은 장기 성장의 핵심 동력 영역에서 AI 채택과 실험을 지원해야 한다고 강조했다. 또한 AI가 무역과 지식 파급효과를 촉진할 수 있으므로, 무역 개방성과 국제 협력을 촉진하는 것이 필수적이다. 데이터 시스템의 상호 운용성 확보와 오픈소스 플랫폼을 통한 최첨단 AI 모델에 대한 접근 보장이 이러한 혜택을 극대화하는 데 필수적이다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 왜 개발도상국에서는 AI 채택이 어려운가요? A1. 개발도상국에서 AI 채택이 어려운 주요 이유는 세 가지입니다. 첫째, 인구의 상당수가 정규 교육을 받지 못했고 문해율이 낮아 AI 도구를 사용할 기본 능력이 부족합니다. 둘째, 인터넷과 전력 같은 기본 인프라가 부족합니다. 셋째, AI 도구 비용이 이들 국가의 소득 대비 너무 높아 경제적으로 부담이 됩니다. Q2. AI가 모든 국가에 똑같은 혜택을 주지 않는 이유는 무엇인가요? A2. AI의 혜택은 국가의 경제 구조와 준비 상태에 따라 크게 다릅니다. 선진국은 AI가 가장 효과적인 금융, IT 등 지식집약적 서비스업 비중이 높지만, 개발도상국은 농업과 제조업 비중이 높아 AI 활용도가 낮습니다. 또한 선진국은 디지털 인프라와 고학력 인력을 갖추고 있어 AI를 빠르게 채택할 수 있습니다. Q3. 개발도상국이 AI 격차를 줄이려면 어떤 정책이 필요한가요? A3. 개발도상국은 네 가지 핵심 영역에 집중해야 합니다. 첫째, 전력과 인터넷 같은 기본 인프라 구축이 최우선입니다. 둘째, 국민의 디지털 리터러시와 기술 교육을 강화해야 합니다. 셋째, 중소기업이 AI를 도입할 수 있도록 금융 지원을 제공해야 합니다. 넷째, AI를 안전하고 공정하게 사용할 수 있는 규제 체계를 마련해야 합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 14:04AI 에디터

잠만 자도 질병 예측 가능…스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다

미국 스탠퍼드 대학 연구팀이 단 하룻밤 잠을 자는 동안의 데이터만으로 향후 걸릴 수 있는 질병을 예측하는 인공지능 'SleepFM'을 개발했다. 해당 연구 논문에 따르면, 이 AI는 약 6만 5,000명이 자는 동안 측정한 58만 5,000시간 이상의 데이터로 학습했으며, 사망 위험, 치매, 심근경색 등 130가지 질병을 75% 이상의 정확도로 예측할 수 있다. 의학 분야 최고 권위 학술지 '네이처 메디슨'에 실린 이 연구는 수면이 단순히 쉬는 시간이 아니라 우리 몸의 건강 상태를 보여주는 중요한 신호임을 입증했다. 잠자는 동안 뇌파·심장박동·호흡 모두 분석 SleepFM은 병원에서 하는 '수면다원검사'라는 정밀 검사 데이터를 활용한다. 수면다원검사는 잠자는 동안 머리에 센서를 붙여 뇌파를 측정하고, 가슴에 전극을 붙여 심장박동을 기록하며, 코와 입 주변에 센서를 달아 호흡 패턴을 관찰하는 검사다. 근육 움직임도 함께 측정한다. 연구팀은 스탠퍼드 수면 클리닉, 바이오세레니티, 다민족죽상동맥경화증 연구, 남성 노인 수면장애 결과 연구 등 4곳에서 모은 데이터를 사용했다. 스탠퍼드 수면 클리닉에서만 3만 5,052명의 데이터가 모였고, 나머지 기관들도 수천 명씩 데이터를 제공했다. 이는 기존 수면 분석 AI가 사용한 데이터(2,500~1만 5,913건)보다 훨씬 많은 양이다. 중요한 점은 병원마다 검사 방식이 조금씩 다르다는 것이다. 어떤 병원은 뇌파를 6군데에서 측정하고, 다른 병원은 10군데에서 측정한다. 이런 차이를 AI가 자동으로 처리할 수 있도록 '채널 독립적;설계'를 적용했다. 마치 여러 나라 언어를 동시에 이해하는 번역기처럼, 서로 다른 형태의 검사 데이터를 모두 이해할 수 있다. 6년 후 걸릴 병까지 미리 알아낸다 연구팀은 스탠퍼드 수면 클리닉에서 검사받은 환자들의 병원 진료 기록을 추적했다. 환자가 검사 후 어떤 병에 걸렸는지, 언제 진단받았는지를 확인한 것이다. 총 1,041개 질병을 분석했고, 그중 130개 질병에서 정확도 75% 이상을 달성했다. 특히 눈에 띄는 것은 사망 위험 예측이다. 환자가 향후 사망할 가능성을 84%의 정확도로 맞췄다. 치매는 85%, 심근경색은 81%, 심부전은 80% 정확도를 보였다. 이 수치는 '콘코던스 지수'라는 측정 방식으로 계산했는데, 100명 중 84명의 위험도 순서를 정확하게 맞춘다는 뜻이다. 연구팀은 6년이라는 기간을 기준으로 삼았다. 예를 들어 2020년에 수면 검사를 받은 사람이 2026년까지 심장병에 걸렸다면 AI의 예측이 맞은 것으로 본다. 1년 후부터 6년 후까지 다양한 기간으로 테스트했는데, 대체로 비슷한 정확도를 유지했다. 질병 종류도 다양하다. 암 중에서는 전립선암(90%), 유방암(90%), 피부암(83%)을 잘 예측했다. 뇌 관련 질환에서는 파킨슨병을 93% 정확도로 찾아냈다. 심혈관 질환에서는 고혈압성 심장병(88%), 뇌출혈(82%)의 위험을 정확하게 예측했다. 다른 병원 데이터로도 정확하게 작동 AI 모델이 실제로 쓰기 위해서는 다른 병원에서도 잘 작동해야 한다. 연구팀은 이를 확인하기 위해 '수면 심장 건강 연구'라는 별도의 데이터로 테스트했다. 이 데이터는 40세 이상 성인 6,441명의 정보를 담고 있으며, 테스트 결과는 인상적이었다. 뇌졸중 예측 정확도 82%, 울혈성 심부전 85%, 심혈관 질환 사망 88%를 기록했다. 이 데이터에는 협심증 환자 704명, 울혈성 심부전 환자 190명, 뇌졸중 환자 95명 등이 포함됐다. 처음 보는 데이터임에도 높은 정확도를 유지한 것이다. 하지만 시간이 지나도 정확할까? 이를 연구하기 위해, 연구팀은 2020년 이후 환자 데이터로도 별도 테스트를 진행했다. AI는 2020년 이전 데이터로만 학습했기 때문에 최신 데이터는 처음 보는 셈이다. 그럼에도 사망 위험 83%, 심부전 80%, 치매 83%의 정확도를 유지했다. 이는 의료 환경이 바뀌고 환자 특성이 달라져도 AI가 안정적으로 작동한다는 증거다. 나이·성별만 아는 것보다 훨씬 정확 일반적으로 병원에서는 환자의 나이, 성별, 체중 같은 기본 정보로 질병 위험을 추정한다. 예를 들어 나이가 많으면 암 위험이 높다는 식이다. 연구팀은 이런 방식과 비교하기 위해 나이, 성별, 체질량지수, 인종 정보만으로 예측하는 단순 모델을 만들었다. 결과는 명확했다. SleepFM은 질병 종류에 따라 5~17% 더 정확했다. 특히 뇌 질환에서 차이가 컸다. 노인성 치매의 경우 SleepFM은 정확도 99%를 기록한 반면, 기본 정보만 쓴 모델은 87%에 그쳤다. 근육 신경 장애는 81% 대 42%, 발달 지연은 80% 대 58%로 큰 격차를 보였다. 심혈관 질환에서도 마찬가지다. 동맥경화증은 92% 대 74%, 급성 폐성 심장병은 80% 대 74%였다. 당뇨병 합병증도 87% 대 79%로 SleepFM이 앞섰다. 흥미로운 점은 적은 데이터로도 잘 작동한다는 것이다. 연구팀이 데이터의 10%만으로 SleepFM을 학습시켰더니, 5배 많은 데이터로 학습한 단순 모델보다 오히려 정확했다. 심혈관 질환 사망, 울혈성 심부전, 심근경색, 뇌졸중 등 4개 질환에서 이런 결과가 나왔다. 이는 기본 학습이 잘된 AI는 적은 데이터로도 효율적으로 작동한다는 의미다. 뇌파는 치매, 호흡은 대사 질환 예측에 효과적 연구팀은 어떤 신호가 어떤 질병 예측에 중요한지 세밀하게 분석했다. 뇌파는 정신 질환과 신경 질환을 예측하는 데 가장 효과적이었다. 호흡 패턴은 호흡기 질환과 대사 질환을, 심전도는 심혈관 질환을 잘 예측했다. 수면 단계별로도 차이가 있었다. 얕은 수면(1/2단계)과 꿈꾸는 수면(렘수면)이 심혈관 질환과 뇌 퇴행성 질환 예측에 더 유용했다. 하지만 전체적으로는 모든 신호를 함께 분석할 때 가장 정확했다. 이는 수면이 여러 신체 시스템의 복합적인 상호작용이라는 것을 보여준다. 실제로 연구팀이 각 신호별로 별도의 AI를 만들어 비교했더니, 모든 신호를 결합한 모델이 최고 성능을 냈다. 뇌파만 보거나 심전도만 봐서는 전체 건강 상태를 파악하기 어렵다는 뜻이다. 잠이 미래 건강을 말해주는 이유 왜 수면만으로 이렇게 많은 질병을 예측할 수 있을까? 연구팀은 수면 문제가 많은 질병의 초기 신호라고 설명한다. 실제로 정신 질환, 뇌 퇴행성 질환, 심혈관 질환 등은 본격적인 증상이 나타나기 전에 수면 장애가 먼저 발생하는 경우가 많다. 알츠하이머병의 경우 초기에 깊은 수면이 줄어들고, 꿈꾸는 수면에 문제가 생기며, 특정 뇌파 활동이 감소한다. SleepFM은 이런 패턴을 정확도 91%로 포착했다. 파킨슨병은 종종 꿈꾸는 수면 중 이상 행동이 먼저 나타나는데, AI는 이를 89% 정확도로 찾아냈다. 심혈관 질환 예측에서도 수면 데이터가 유용했다. 10년 후 심혈관 질환 사망 위험을 88% 정확도로 예측했는데, 이는 이전 연구(84%)보다 높은 수치다. 심방세동은 81% 정확도를 기록했다. 연구팀의 분석에 따르면 심전도와 호흡 신호가 함께 작용해 심혈관 질환을 예측하는 것으로 나타났다. 수면 무호흡과 심장 활동 정보가 통합되는 것이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 일반인도 이 검사를 받을 수 있나요? A. 이 연구는 병원에서 시행하는 수면다원검사 데이터를 활용했습니다. 수면다원검사는 수면 장애가 의심될 때 병원에서 받을 수 있는 검사로, 하룻밤 병원에 입원해 여러 센서를 몸에 부착하고 잠을 잡니다. 현재 SleepFM은 연구 단계이며, 실제 임상에서 사용되려면 추가 검증이 필요합니다. Q2. 웨어러블 기기로도 이런 예측이 가능한가요? A. 이 연구는 병원급 정밀 장비로 측정한 뇌파, 심전도, 근전도, 호흡 신호를 모두 사용했습니다. 현재 시중의 웨어러블 기기는 심박수나 움직임 정도만 측정하므로 동일한 수준의 예측은 어렵습니다. 다만 연구팀은 웨어러블 수면 기술이 발전하면 향후 이런 모델이 실시간 건강 모니터링에 활용될 가능성을 언급했습니다. Q3. 왜 수면만으로 이렇게 많은 질병을 예측할 수 있나요? A. 수면은 뇌, 심장, 호흡, 근육 등 여러 신체 시스템이 동시에 작용하는 복잡한 과정입니다. 많은 질병들이 본격적인 증상을 보이기 전에 수면 패턴에 먼저 영향을 미칩니다. 예를 들어 알츠하이머병은 초기에 깊은 수면과 특정 뇌파가 감소하고, 파킨슨병은 꿈꾸는 수면 중 이상 행동이 나타나며, 심혈관 질환은 호흡 패턴과 심박수에 변화를 일으킵니다. SleepFM은 이런 미세한 패턴을 포착해 미래 질병 위험을 예측합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 21:18AI 에디터

음식에 파리 있다면 환불 요구…알고 보니 AI 합성?

인공지능이 점점 더 정교한 사기에 활용되면서, 이제 음식 배달 서비스까지 그 표적이 되고 있다. 더 타임스(The times)가 1일(현지 시각) 보도한 내용에 따르면, 우버이츠(Uber Eats), 도어대시(DoorDash) 등 배달앱 이용자들이 생성형 AI를 악용해 주문한 음식 사진을 조작한 뒤 환불을 받아내는 사례가 급증하고 있다고 밝혔다. 사람들은 AI를 이용해 멀쩡한 음식을 덜 익은 것처럼 보이게 하거나, 케이크가 녹아내린 것처럼 만들고, 심지어 음식에 파리를 합성하는 등 다양한 방법으로 사진을 조작하고 있다. AI의 사진 재현 능력이 발전하면서 육안으로는 구분하기 어려운 수준의 가짜 증거물을 만들어내는 것이 가능해졌다. 게다가, 범행을 저지른 이용자들은 자신들의 행위를 SNS에 공공연히 자랑하기까지 했다. 한 이용자는 X(구 트위터)에 "도어대시에서 환불받기 위해 사진을 편집했다"며 디지털 조작으로 햄버거를 덜 익은 것처럼 만든 사진을 자랑스럽게 게시했다. 또 다른 이용자는 스레드(Threads)에 포토샵으로 치킨 다리를 덜 익은 것처럼 보이게 만든 과정을 상세히 공개했다. 해당 이용자는 배달앱 고객지원팀으로부터 "불편을 끼쳐 죄송하다"는 사과와 함께 26.60달러(한화 약 3만 8,000원)를 환불받았다고 밝혔다. 한 사기꾼은 자신이 주문한 디저트 위에 디지털로 파리를 합성하기도 했다. 이 같은 게시물에 대해 많은 누리꾼이 강한 비판을 쏟아냈다. "전혀 웃기지 않는다"는 반응과 함께 "당신과 다른 사기꾼들이 다 감옥에 가길 바란다", "20달러도 못 내는 주제에 그렇게까지 노력할 필요가 있나"라는 부정적인 댓글이 달렸다. 한 누리꾼은 "이런 행위는 도어대시가 아니라 주문받은 식당에 피해를 준다"고 지적했다. 실제로 배달 플랫폼들은 환불 요청이 들어오면 별다른 조사 없이 환불을 처리하는 경우가 많으며, 이 경우 손실은 대부분 식당이 떠안게 된다. 이러한 AI 환불 사기는 고객만의 전유물이 아니다. 지난달에는 도어대시 배달원이 고객에게 음식을 제대로 전달했다는 증거로 AI로 생성한 음식 사진을 보낸 사례도 있었다. 해당 고객은 사기를 눈치챘지만, 향후 AI로 만든 이미지와 실제 음식을 구분하는 것이 사실상 불가능해질 수 있다는 우려가 나온다. 이 같은 AI를 활용한 음식 사진 조작 환불 사기는 미국과 영국에서 불법이지만, 배달 플랫폼들의 허술한 환불 정책으로 인해 계속 발생하고 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 15:06AI 에디터

AI, 일본 변호사 됐다...96점으로 시험 합격

인공지능(AI)이 복잡한 법률 시험에서 합격선을 넘은 것은 이번이 처음이다. 일본 게이오대학교 연구팀은 오픈AI의 GPT-4.1을 일본 변호사 시험에 맞게 학습시키고 스스로 답을 검증하는 방법을 적용해 객관식 부분을 통과했다고 발표했다. 이 연구는 AI가 단순히 법률 지식을 외우는 수준을 넘어, 여러 문제를 동시에 판단하고 정해진 형식에 맞춰 답할 수 있음을 보여준다. 문제 쪼개지 않고 원본 그대로 학습해 96점 획득 연구팀이 GPT-4.1을 학습시킨 결과, 2024년 일본 변호사 시험에서 96점을 받았다. 합격 기준인 93점을 넘긴 것이다. 가장 중요한 점은 시험 문제를 쉽게 바꾸지 않고 원본 형태 그대로 학습시켰다는 것이다. 일본 변호사 시험 객관식 문제는 특이한 방식으로 출제된다. 여러 개의 문장이 맞는지 틀렸는지 판단한 뒤, 그 결과를 조합해서 답해야 한다. 예를 들어 "112"처럼 각 문장의 정답 번호를 이어 붙여 제출해야 하는데, 하나라도 틀리면 전체가 오답 처리된다. 기존 연구들은 이런 복잡한 문제를 개별 O/X 퀴즈로 쪼개서 AI를 학습시켰다. 대표적으로 일본 변호사 시험 질의응답 데이터셋(JBE-QA)은 하나의 시험 문제를 여러 개의 독립된 질문으로 나눴다. 이 방식으로는 2,770개의 많은 문제로 학습할 수 있었다. 연구팀이 GPT-4.1을 JBE-QA로 학습시켜 실제 시험 형식으로 평가했을 때 64점밖에 받지 못했다. 반면 원본 형식을 유지한 460개 문제(2019-2023년 과거 시험)로 학습시킨 GPT-4.1은 92.3점을 기록했다. AI가 스스로 답을 재검토해 정답률 49%까지 향상 연구팀은 '자체 검증'이라는 방법을 추가로 적용했다. 이는 학습된 GPT-4.1이 답을 낸 후, 같은 모델이 스스로 그 답이 문제 조건에 맞는지 다시 확인하는 것이다. 중요한 것은 별도의 AI를 추가하는 게 아니라, 같은 GPT-4.1 모델에 다른 질문 방식(프롬프트)을 적용해 자기 답을 점검하게 만든다는 점이다. 이 과정은 한 번의 추가 계산만 필요하다. 자체 검증을 적용한 결과, 정답률은 46.8%에서 49.4%로 올랐고, 시험 점수는 92.3점에서 94.7점으로 증가했다. 이는 모델이 법률 지식이 부족해서가 아니라, 여러 문장을 함께 판단할 때 일관성을 유지하지 못해서 틀리는 경우가 많다는 것을 보여준다. 자체 검증은 이런 논리적 모순을 효과적으로 고쳐준다. 흥미로운 점은 이 방법이 학습하지 않은 기본 GPT-4.1에도 적용 가능하다는 것이다. 추가 학습 없는 기본 GPT-4.1 모델은 자체 검증으로 68.3점에서 76.3점으로, JBE-QA로 학습한 GPT-4.1은 64점에서 80.7점으로 성적이 올랐다. 이는 자체 검증이 특정 학습 방식에만 효과적인 게 아니라 범용적으로 사용할 수 있는 기법임을 보여준다. 여러 AI 협력보다 혼자 푸는 게 더 효과적 연구팀은 여러 AI가 협력하는 방식도 실험했다. 정보를 찾는 AI, 검증하는 AI, 지식을 추출하는 AI, 최종 답을 내는 AI로 구성된 시스템을 만들었다. 법률 분야에서 여러 AI가 협력하면 좋다는 기존 연구들과 달리, 이번 실험에서는 오히려 성적이 떨어졌다. 같은 학습된 모델을 여러 역할로 나눠 사용한 시스템은 75.7점, 역할마다 따로 학습한 모델들을 사용한 시스템은 71.0점에 그쳤다. 이는 단일 모델의 94.7점에 비해 훨씬 낮은 점수다. 연구팀은 엄격한 형식 규칙이 있는 시험에서는 AI들 사이에서 오류가 전달되고 쌓이는 문제가 생긴다고 분석했다. 특히 따로 학습된 모델들은 서로 다른 방식으로 생각해서 결과를 합치기 어려웠다. 원본 형식 유지가 법률 AI 성능의 핵심 이번 연구는 법률 AI 평가에서 중요한 교훈을 준다. 쉬운 테스트에서 높은 점수를 받는다고 해서 실제 시험을 통과할 수 있는 건 아니라는 것이다. JBE-QA로 학습한 GPT-4.1은 2,770개의 많은 문제로 법률 지식을 배웠지만, 여러 문장을 함께 판단하는 능력은 배우지 못했다. 그 결과 개별 문장 정답률이 50%가 넘어도 전체 답안에서는 0점을 받는 경우가 자주 발생했다. 연구팀은 원본 형식을 지키는 것이 법률 AI 학습의 핵심이라고 강조한다. 원본 시험 형식을 유지한 학습 문제가 비록 460개로 적더라도, GPT-4.1 안에 이미 있는 숨겨진 지식을 효과적으로 끌어낸다는 것이다. 자체 검증은 이 효과를 더욱 키워서, 모델이 자신의 답을 다시 평가하고 정리하도록 만든다. 시험 과목별로는 헌법, 민법, 형법 중 민법에서 42.3점으로 가장 높은 점수를 받았다. 일본 변호사 시험은 각 과목에서 40% 이상의 점수를 받아야 하는데, 연구팀이 학습시킨 GPT-4.1은 이 조건도 충족했다. 다만 이번 연구는 객관식 부분만 다뤘으며, 논술형 문제는 포함하지 않았다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 자체 검증이란 무엇이며 어떻게 작동하나요? A. 자체 검증은 AI가 답을 낸 후 스스로 그 답이 맞는지 다시 확인하는 방법입니다. 같은 모델(GPT-4.1)에 다른 방식의 질문(프롬프트)을 주어 자기 답을 문제와 대조하며, 명백히 틀렸을 때만 수정합니다. 추가 학습 없이 한 번의 계산만으로 가능하며, 여러 문장을 함께 판단할 때 생기는 모순을 효과적으로 고쳐줍니다. Q. 왜 문제를 쪼개지 않고 원본 형식으로 학습했나요? A. 일본 변호사 시험은 여러 문장을 동시에 판단해 정해진 형식으로 답해야 합니다. 문제를 개별 O/X로 쪼개면 각 문장은 잘 판단할 수 있지만, 실제 시험에서 요구하는 종합 판단 능력은 배울 수 없습니다. 실제로 개별 정답률이 50%가 넘어도 전체 답안 형식에서는 0점을 받는 경우가 많았습니다. Q. 이 AI가 실제 변호사 일을 할 수 있나요? A. 아니요. 이번 연구는 객관식 시험 통과만을 다뤘으며, 실제 법률 상담이나 논술형 법률 논증 능력은 평가하지 않았습니다. 시험 합격이 실무 능력이나 윤리적 판단력을 의미하지는 않으므로, 법률 분야에서 AI를 활용할 때는 반드시 전문가의 감독이 필요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 14:17AI 에디터

챗GPT 전체 대화 5%가 건강 상담...오픈AI, 챗GPT 의료 활용 보고서 공개

오픈AI가 발표한 보고서에 따르면, 미국인들이 복잡한 의료 시스템을 헤쳐나가는 데 챗GPT를 적극 활용하고 있다. 전 세계 챗GPT 대화 중 5% 이상이 건강 관련 질문이며, 8억 명이 넘는 정기 사용자 중 4명 중 1명은 매주 건강 질문을 하고, 4천만 명 이상은 매일 챗GPT에 건강 질문을 던진다. 매주 160만~190만 건, "보험 어떻게 골라야 하나요?" 해당 보고서에 따르면, 사용자들은 매주 150만~190만 건의 건강보험 관련 질문을 한다. 보험 플랜 비교, 가격 이해, 청구 및 빌링 처리, 자격 요건 및 등록, 보장 범위 및 비용 분담 세부 사항 등을 파악하기 위해 챗GPT를 사용한다. 오픈AI 조사에 따르면 미국 성인 5명 중 3명이 최근 3개월 동안 건강이나 의료 문제로 AI 도구를 사용했다. 이들은 증상을 확인하거나 탐색하기 위해(55%), 언제든지 질문하기 위해(52%), 의료 용어나 지시 사항을 이해하기 위해(48%), 치료 옵션에 대해 알아보기 위해(44%) AI를 활용한다. 몸이 아플 때 처음 정보를 얻거나, 병원 가기 전 준비, 의사의 지시 사항 이해, 병원비 청구와 보험 거부 결정 등의 행정 업무 처리에 AI를 사용한다. 밤 10시에 아이 열나면? 의료 대화 10건 중 7건이 병원 문 닫은 시간에 발생 오픈AI가 익명화된 사용자 데이터를 분석한 결과, 미국 내 건강 관련 대화 대부분이 일반적인 병원 진료 시간 밖에서 일어났다. 미국에서는 약 5명 중 1명이 농촌 지역에 살며, 2010년 이후 매년 평균 10개의 농촌 병원이 폐쇄되거나 입원 병상을 없애고 있다. 거의 절반(46%)의 농촌 병원이 적자 운영 중이며, 38개 주에 걸쳐 400개 이상의 병원이 폐쇄 위험에 처해 있다. 오픈AI는 차로 30분 이상 가야 병원이 있는 지역을 '병원 사막'으로 정의하고 데이터를 연구했다. 2025년 말 4주 동안, 미국 전역 병원 사막 지역에서 챗GPT는 매주 평균 58만 건 이상의 건강 관련 대화를 처리했다. 인구가 가장 적은 와이오밍주가 병원 사막 건강 대화 비율 1위(4.15%)를 기록했고, 오리건(3.4%), 몬태나(3.2%)가 뒤를 이었다. 한 달 대화 건수로는 오리건이 54,660건으로 1위, 텍사스(43,337건), 버지니아(39,886건), 뉴욕(39,083건)이 상위권을 차지했다. 몬태나주 마일스시티(인구 8,400명)의 가정의 마기 알버스 박사는 오픈AI 모델을 사용하는 오라클 임상 어시스트로 진료 기록을 자동 작성해 시간을 절약하고, 먼 거리를 이동해 온 환자들의 진료와 사후 관리에 집중한다. 의사 3명 중 2명 "AI 쓴다"... 간호사 절반도 매주 활용 미국의사협회에 따르면, 미국 의사의 66%가 2024년에 적어도 하나의 사례에 AI를 사용했다. 이는 2023년 38%에서 급증한 수치다. 의사의 21%가 환자 방문 시 청구 코드, 의료 차트, 메모 문서화에 AI를 사용했고, 12%가 환자 진단 보조에 활용했다. 행정 담당자, 의학 사서, 간호사, 약사를 포함한 미국 의료 종사자 5명 중 2명 이상이 직장에서 생성형 AI를 적어도 주 1회 사용한다. 월터스 클루워와 입소스가 312명의 의료 전문가를 대상으로 실시한 조사(2025년 2월 26일~3월 24일)에 따르면, 의학 사서가 주간 AI 사용 비율이 가장 높았고(53%), 간호사(46%), 행정 담당자(43%), 약사(41%), 의사(38%)가 뒤를 이었다. 이에 비해, 물리치료사, 영양사, 응급구조사 등 관련 보건 종사자는 26%만 주 1회 이상 AI를 사용했다. 의사 4명 중 3명이 AI 도구가 업무 효율성에 도움이 된다고 답했고, 72%는 진단 능력에 도움이 된다고 답했다. 2023년에서 2024년 사이 가장 큰 증가를 보인 분야는 스트레스 관리와 개인화된 진료 제공 능력이었다. AI 의료기기 규제 명확히 해야... 오픈AI, 정책 제안 오픈AI는 의료 분야 AI 사용을 안전하게 확대하기 위한 정책을 제안했다. 주요 내용은 과학적 발견 가속화를 위한 전 세계 의료 데이터의 개방과 안전한 연결, 의료 문제 해결을 위한 인프라 구축, AI로 창출될 의료 직종으로의 근로자 전환 지원, 소비자용 AI 의료기기 규제 경로 명확화, 의사 지원 AI 서비스 규제 범위 명확화 등이다. 특히 현재 미국 식품의약국의 의료기기 규제 프레임워크는 AI를 위해 설계되지 않았다. FDA의 전통적인 질병별 평가 방식은 AI 의료기기가 모든 질병에 대해 성능을 입증하라고 요구할 수 있는데, 이는 실현 가능하지도 필요하지도 않다. 오픈AI는 FDA가 업계와 협력해 안전하고 효과적인 AI 의료기기 혁신을 촉진할 명확한 규제 정책을 만들 것을 촉구했다. 오픈AI는 2026년 초에 의료 분야 AI에 대한 전체 정책 청사진을 발표할 예정이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT로 건강 상담받는 게 안전한가요? A1. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q2. 병원이 멀리 있는 곳에서 AI가 의료 문제를 해결할 수 있나요? A2. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q3. 의사 선생님들도 AI를 쓰나요? A3. 2024년 미국 의사의 66%가 AI를 사용했으며, 주로 진료 기록 작성, 청구 코드 문서화, 진단 보조에 활용합니다. 의사 4명 중 3명은 AI가 업무 효율성에 도움이 된다고 답했습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 21:21AI 에디터

"답변 40% 작성 시점에 오답 예측"… AI 오류 검증하는 기술 등장

AI가 스스로 "이 답변은 틀릴 것 같아요"라고 판단할 수 있을까? 캐나다 앨버타대학교 연구팀이 AI가 외부 도움 없이 자신의 오류를 예측하는 기술을 개발했다. '노시스(Gnosis)'라는 이름의 이 기술은 매우 적은 용량으로도 훨씬 큰 검증 시스템보다 뛰어난 성능을 보여준다. 연구팀은 이를 AI의 '자기 인식 능력'이라고 부른다. 외부 검증자 없이 AI 내부 신호만으로 오류 포착 해당 연구 논문에 따르면, 노시스는 AI가 답변을 만들어내는 과정에서 나타나는 내부 신호를 분석한다. 사람이 말을 할 때 표정이나 목소리 톤으로 확신의 정도를 알 수 있듯이, AI도 답변을 생성할 때 내부적으로 특정한 패턴을 보인다. 노시스는 바로 이 패턴을 읽어낸다. 기존 방법들은 대부분 외부의 도움이 필요했다. 여러 번 답변을 만들어 비교하거나, 별도의 큰 AI 모델을 동원해 답변이 맞는지 검증했다. 하지만 노시스는 AI가 답변을 만드는 바로 그 순간의 내부 작동 방식만 관찰한다. 연구팀은 이를 "AI의 뇌파를 읽는 것"에 비유한다. 노시스가 주목하는 것은 두 가지다. 첫째는 AI 내부의 '은닉 상태'라는 것인데, 이는 AI가 정보를 처리하면서 만들어내는 중간 결과물이다. 둘째는 '어텐션 패턴'으로, AI가 문제를 풀 때 어떤 정보에 집중하는지를 보여주는 지도 같은 것이다. 노시스는 이 두 가지를 압축해서 분석하며, 답변이 길어져도 분석 시간이 늘어나지 않는다는 장점이 있다. 용량은 500만, 성능은 80억급... 압도적 효율성 입증 노시스의 성능은 실험 결과로 입증됐다. 수학 문제 풀이, 상식 퀴즈, 전문 지식 질문 등 세 가지 테스트에서 노시스는 80억 개 용량의 스카이워크(Skywork) 검증 모델과 구글의 제미나이 2.5 프로를 모두 능가했다. 예를 들어 수학 문제에서 노시스는 정확도 지표에서 스카이워크와 제미나이보다 높은 수치를 기록했다. 더 놀라운 것은 효율성이다. 노시스의 용량은 약 500만에 불과하다. 이는 비교 대상인 80억 용량 모델의 1,000분의 1 수준이다. 마치 경차가 대형 트럭보다 빠르고 정확하게 목적지에 도착하는 셈이다. 속도 면에서도 노시스는 탁월하다. 1만 2,000단어 분량의 답변을 검증할 때 노시스는 0.025초가 걸렸고, 이는 80억 용량 모델보다 37배 빠른 속도다. 답변이 2만 4,000단어로 늘어나면 속도 차이는 99배까지 벌어진다. 일반 검증 모델은 답변이 길어질수록 검증 시간도 늘어나지만, 노시스는 답변 길이와 관계없이 항상 같은 시간이 걸린다. 개발 비용도 매우 저렴하다. 가장 큰 200억 용량 모델에 노시스를 적용하는 데 걸린 시간은 고성능 컴퓨터 2대로 약 12시간, 비용은 단돈 25달러였다. 기존의 대형 검증 모델들이 수백만 건의 데이터와 전문가의 평가를 필요로 하는 것과 비교하면 놀라운 차이다. 답변의 40%만 작성해도 결과 예측 가능 노시스의 또 다른 특징은 답변이 완성되기 전에도 결과를 예측할 수 있다는 점이다. 연구팀은 노시스가 완성된 답변으로만 학습했는데도, 답변의 40%만 작성된 시점에서 이미 최종 예측과 비슷한 정확도를 보인다는 사실을 발견했다. 추가 훈련 없이 나타난 능력이다. 이는 실용적으로 매우 유용하다. AI가 답변을 만들다가 "이건 틀린 것 같아"라고 조기에 판단하면, 즉시 작성을 멈추고 다른 방법을 시도할 수 있다. 불필요한 계산을 하지 않아도 되니 비용과 시간이 절약된다. 또는 현재 AI로는 답하기 어렵다고 판단되면 자동으로 더 강력한 AI에게 질문을 넘길 수도 있다. 실험에서 노시스는 수학 문제와 상식 퀴즈 모두에서 40% 지점에 이미 다른 검증 방법들이 전체 답변을 본 후에야 도달하는 수준의 성능을 보였다. 연구팀은 이를 "AI가 자신의 추론 과정 초반에 이미 성공 여부를 감지한다"고 설명했다. 작은 AI가 큰 AI를 검증하는 시대 노시스는 '형제 모델 검증'이라는 독특한 능력도 보여줬다. 17억 용량 모델로 훈련한 노시스를 40억, 80억 용량 모델에 그대로 적용해도 높은 성능을 유지했다. 수학 문제 테스트에서 17억 기반 노시스는 80억 모델을 검증할 때 정확도 0.93을 기록했는데, 이는 80억 모델 전용으로 훈련한 노시스의 0.96에 근접한 수치다. 더 흥미로운 점은 이렇게 전이된 작은 노시스가 여전히 80억 용량의 스카이워크 검증 모델보다 뛰어나다는 것이다. 연구팀은 AI의 오류가 모델 크기와 상관없이 비슷한 패턴으로 나타나며, 따라서 작은 검증 시스템 하나로 여러 크기의 AI를 감독할 수 있다고 설명했다. 다만 이 능력은 비슷한 방식으로 작동하는 AI끼리에서 가장 효과적이며, 작동 방식이 크게 다른 AI 간에는 한계가 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 노시스는 어떻게 AI의 오류를 미리 알 수 있나요? A: 노시스는 AI가 답변을 만들 때 나타나는 내부 신호를 읽습니다. 마치 의사가 심전도나 혈압 같은 생체 신호로 환자의 건강 상태를 판단하듯이, 노시스는 AI의 '내부 작동 신호'를 분석해 답변이 맞을지 틀릴지 예측합니다. 다른 AI의 도움이나 추가 계산 없이 AI 스스로의 추론 과정만으로 오류를 감지합니다. Q2. 노시스의 가장 큰 장점은 무엇인가요? A: 매우 작은 용량으로 큰 검증 시스템보다 뛰어난 성능을 낸다는 점입니다. 노시스는 500만 용량으로 80억 용량 모델을 능가하며, 답변이 길어져도 검증 시간이 늘어나지 않습니다. 개발 비용도 25달러에 불과하고, 답변의 40%만 작성된 시점에서 이미 오류를 정확히 예측해 불필요한 작업을 줄일 수 있습니다. Q3. 노시스를 실제로 어떻게 활용할 수 있나요? A: AI 서비스에서 잘못된 답변을 미리 차단하는 데 활용할 수 있습니다. 예를 들어 챗봇이 복잡한 질문에 답할 때, 초기 단계에서 "이건 틀릴 것 같다"고 판단되면 즉시 더 강력한 AI로 전환하거나 답변을 중단할 수 있습니다. 이렇게 하면 계산 비용을 아끼면서도 더 정확한 서비스를 제공할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 15:20AI 에디터

챗GPT 독주 끝났나…제미나이에 밀려 트래픽 22% 급락

인도의 IT 매체 digit이 6일(현지 시각) 보도한 내용에 따르면, 오픈AI 의 챗GPT가 구글이 제미나이 3 프로 모델을 선보인 이후 AI 경쟁에서 압박을 받고 있다. 최근 웹 트래픽 데이터는 지난 며칠간 사용자 방문이 급격히 감소했음을 시사했다. 분석 기업 시밀러웹(SimilarWeb)의 수치에 따르면, 챗GPT의 7일 평균 트래픽은 지난 6주 동안 약 22% 감소한 것으로 나타났다. 미국의 벤처 캐피털 회사 멘로 벤처스(Menlo Ventures)의 디디 다스(Deedy Das)가 자신의 X에 공개한 데이터를 보면, 챗GPT의 평균 방문자 수는 이 기간 동안 약 2억 300만 명에서 거의 1억 5,800만 명으로 줄어들었다. 이러한 감소는 온라인 활동이 둔화하는 시기인 연휴 기간과 겹쳤지만, 경쟁 플랫폼들이 비슷한 감소세를 보이지 않았기 때문에 주목을 받았다. 다스는 또한 현재 챗GPT의 가장 큰 소비자 대상 경쟁자인 구글 제미나이가 같은 기간 동안 안정적인 트래픽을 유지했으며, 현재 챗GPT 사용자 규모의 거의 40%에 달하는 청중을 확보하고 있다고 밝혔다. 이러한 대조는 생성형 AI 경쟁이 가열되면서 사용자들이 적극적으로 대안을 테스트하고 있을 수 있다는 추측을 불러일으켰다. 시밀러웹의 데이터는 더 많은 경쟁자들이 가시성을 확보하면서 지난 1년간 챗GPT의 지배력이 점진적으로 약화되고 있음을 보여준다. 제미나이와 xAI의 그록(Grok) 같은 플랫폼들이 꾸준히 사용자 기반을 확대했으며, 새로운 진입자들과 오픈소스 모델들이 관심을 더욱 분산시켰다. 이는 샘 알트먼 오픈AI CEO가 직원들에게 보낸 내부 메모에서 비상 상황을 선언한 이유일 수 있다. 내부 메모에서 그는 여러 프로젝트를 중단하고 팀들에게 제품 개선에 집중할 것을 요청했다. 오픈AI와 구글 모두 최신 트래픽 데이터에 대해 공개적으로 논평하지 않았다. 하지만 짧은 기간에 여러 주요 AI 출시가 집중되면서 사용자 참여 수치는 계속 변동성을 보일 것으로 예상된다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 14:37AI 에디터

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

삼성전자, SK하이닉스와 메모리 수익성 좁혔다

[AI 기본법 시행②] "준비만이 살 길"…대기업·스타트업·협단체 대응 총력

[비욘드IT] "오픈소스 위기, 韓 기업엔 기회"…생태계 기여로 글로벌 인지도 확보

스테이블코인에 쏠린 시선...법인계좌·디지털자산 ETF 논의 '잠잠'

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.