• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
스테이블코인
배터리
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (672건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"14년 뒤 로봇이 사람보다 많아진다"…머스크의 충격적 예언

세계에서 가장 부자인 일론 머스크가 처음으로 스위스 다보스에서 열린 세계경제포럼에 모습을 드러냈다. 그는 이 자리에서 "미래에는 로봇이 사람보다 많아질 것"이라는 전망을 내놨다. CBS 뉴스에 따르면 일론 머스크는 22일(현지 시각) 세계 최대 자산운용사 블랙록(BlackRock)의 최고경영자 래리 핑크(Larry Fink)와 인터뷰를 가졌다. 재산이 6,770억 달러(약 993조 원)에 달하는 머스크는 지난해 트럼프 정부에서 정부 효율성을 높이는 부서를 이끌기도 했다. 머스크는 자신이 운영하는 전기차 회사 테슬라와 우주 탐사 회사 스페이스X의 목표에 대해 설명했다. 그는 테슬라가 로봇 기술 개발을 통해 "지속 가능한 풍요로운 삶"을 만들겠다고 밝혔다. 테슬라는 현재 옵티머스라는 이름의 사람 모양 로봇과 스스로 운전하는 택시를 개발하고 있다. 머스크는 "로봇 기술과 AI가 모든 사람을 풍요롭게 만드는 진짜 방법"이라고 강조했다. 그는 "사람들이 전 세계 가난 문제를 해결하자고 자주 말하는데, 모든 사람에게 높은 생활 수준을 주는 유일한 방법은 AI와 로봇"이라고 말했다. 그는 로봇이 '어디서나 볼 수 있는' 수준이 되면 "세계 경제가 폭발적으로 성장할 것"이라고 내다봤다. 머스크는 "로봇이 사람보다 많아질 것"이라며, 사람 모양 로봇이 젊은 사람이 부족한 미래에 노인을 돌보는 데 도움이 될 수 있다고 덧붙였다. 로봇을 언제쯤 쓸 수 있느냐는 질문에 머스크는 테슬라의 옵티머스 로봇이 현재 "공장에서 간단한 일을 하고 있다"고 답했다. 그는 "올해 말까지는 더 복잡한 일을 할 수 있을 것이고, 아마 내년 말쯤에는 일반 사람들에게 사람 모양 로봇을 팔 수 있을 것"이라고 전망했다. 그러면서 "신뢰성이 충분히 높아지면 기본적으로 원하는 모든 일을 시킬 수 있을 것"이라고 설명했다. 영국 투자은행 바클레이스(Barclays)에 따르면, 사람 모양 로봇 시장은 현재 20억 달러(한화 약 2조 9천억) 규모다. 하지만, 이 은행은 AI 로봇이 제조업 같은 사람이 많이 필요한 분야에 들어가면서 2035년까지 최소 400억 달러(한화 약 58조 7천 원), 많게는 2,000억 달러(한화 약 293조 원)까지 커질 것으로 예상했다. 머스크는 스스로 운전하는 자동차에 대해서도 긍정적인 전망을 내놨다. 그는 "스스로 운전하는 자동차는 이제 본질적으로 해결된 문제"라며 "테슬라는 몇몇 도시에서 로봇 택시를 시작했고, 올해 말까지 미국 전역에서 많이 볼 수 있을 것"이라고 밝혔다. 또한 "다음 달에 유럽에서 승인을 받기를 바라며, 중국도 비슷한 시기가 될 것으로 기대한다"고 덧붙였다. 머스크는 그동안 다보스 포럼을 강하게 비판해왔다. 2023년에는 이 행사가 "사람들이 원하지도 않는, 선출되지도 않은 세계 정부가 되어가고 있다"고 비난했다. 이번 주 다보스에는 트럼프 대통령, 프랑스 에마뉘엘 마크롱(Emmanuel Macron) 대통령, 유럽연합 집행위원회 우르줄라 폰데어라이엔(Ursula von der Leyen) 위원장을 포함한 여러 나라 정상과 기업 대표들이 참석했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.23 14:20AI 에디터 기자

실험실에선 천재, 현실에선 바보…AI 성능 80% 급락의 진실, 해결책은

KAIST와 LG AI 연구원이 충격적인 연구 결과를 발표했다. 해당 논문에 따르면, AI가 무관한 정보가 섞인 환경에서 최대 80%까지 틀린 답변을 내놓는다는 것이다. 실험실에서는 완벽해 보였던 AI가 실제 사용 환경에서는 심각한 문제를 일으킬 수 있다는 경고다. 실험실에서만 똑똑한 AI, 현실에서는 혼란 연구팀은 '노이지벤치'라는 새로운 테스트 방법을 만들었다. 기존 AI 테스트가 깨끗하게 정리된 정보만 주었다면, 이번에는 실제 상황처럼 쓸데없는 정보를 섞어서 테스트했다. 예를 들어 질문과 전혀 상관없는 문서를 함께 주거나, 이전 대화 내용을 뒤섞거나, 정답처럼 보이지만 사실은 틀린 정보를 제공했다. 결과는 충격적이었다. 구글의 제미나이 2.5 프로는 깨끗한 환경에서 77.8%의 정확도를 보였지만, 헷갈리는 정보가 섞이자 48%로 떨어졌다. 더 심각한 경우도 있었다. 딥시크 AI 모델은 정확도가 무려 80% 이상 떨어져서 사실상 사용할 수 없는 수준이 됐다. 이는 AI가 겉으로는 관련 있어 보이는 틀린 정보에 쉽게 속는다는 뜻이다. 더 놀라운 건 악의적인 공격이 없어도 문제가 생긴다는 점이다. 그냥 무관한 문서나 대화 기록만 섞여도 AI의 판단력이 크게 흐려졌다. 제미나이 2.5 프로는 편향을 측정하는 테스트에서 무작위로 섞인 정보 때문에 정확도가 94%에서 60%로 급락했다. 연구팀은 이를 일반적인 노이즈만으로도 AI의 안전장치가 무너질 수 있다는 증거라고 설명했다. AI에게 도구를 주면 오히려 역효과 연구팀은 AI에게 검색 기능이나 계산기 같은 도구를 제공하는 방식도 테스트했다. 보통 이런 도구들은 AI 성능을 높여준다고 알려져 있다. 실제로 깨끗한 환경에서는 도구가 도움이 됐다. 하지만 쓸데없는 정보가 섞인 환경에서는 오히려 독이 됐다. 도구를 사용한 AI가 기본 AI보다 더 나쁜 성능을 보인 것이다. 이유는 간단하다. AI는 도구가 제공하는 정보를 믿도록 설계되어 있다. 그래서 잘못된 정보가 섞여 있어도 그대로 받아들인다. 게다가 AI가 여러 단계를 거쳐 문제를 해결하다 보면, 초반에 잘못 받아들인 정보가 다음 단계로 계속 전달되면서 오류가 눈덩이처럼 커진다. 여기에 AI가 엉뚱한 정보 때문에 도구를 잘못 선택해서 쓸데없는 정보를 더 많이 가져오는 악순환까지 생긴다. 연구팀은 "도구는 깨끗한 환경에서는 좋지만, 노이즈가 있는 환경에서는 AI가 쓸데없는 정보를 너무 많이 가져다 쓰면서 오히려 더 취약해진다"고 지적했다. 앞으로 AI 시스템은 잘못된 정보를 걸러낼 수 있는 장치가 꼭 필요하다는 설명이다. 새로운 학습법으로 성능 3배 향상 연구팀은 '레어(RARE)'라는 새로운 학습 방법을 제안했다. 기존 방식은 AI가 정답을 맞췄는지만 평가했다. 하지만 레어는 AI가 답을 찾아가는 과정 자체를 평가한다. AI가 쓸데없는 정보 속에서 진짜 필요한 정보를 잘 찾아냈는지를 보고 점수를 준다는 뜻이다. 실험 결과는 놀라웠다. 한 모델의 경우 기존 방식으로는 38% 정확도였지만, 레어를 적용하자 55%로 올라갔다. 더 극적인 경우도 있었다. 원래 6%밖에 못 맞추던 모델이 레어를 쓰자 25%까지 올라가면서 무려 300% 이상 개선됐다. 레어가 효과적인 이유는 명확했다. 학습 과정을 분석해 보니, 레어는 AI가 쓸데없는 정보에 혼란스러워하는 비율을 계속 낮췄다. 동시에 정답률도 올라가서, 결과만 보고 학습한 AI보다 최종 성능이 훨씬 좋았다. 연구팀은 "앞으로 AI를 학습시킬 때는 정답만이 아니라 생각하는 과정 자체를 평가해야 한다"고 강조했다. 많이 생각한다고 좋은 게 아니다 연구팀은 놀라운 발견을 했다. 보통은 AI가 더 오래 생각할수록 정확도가 높아진다고 여겨진다. 하지만 쓸데없는 정보가 섞인 환경에서는 정반대였다. AI가 생각을 많이 할수록 오히려 정확도가 떨어졌다. 노이즈를 더 오래 분석할수록 잘못된 해석을 하게 되는 것이다. 또 다른 발견은 쓸데없는 정보가 많을수록 AI가 점점 더 확신 없는 답변을 한다는 점이다. 연구팀이 헷갈리는 정보를 0개에서 10개까지 늘려가며 실험한 결과, 정보가 많아질수록 AI의 불확실성 지표가 계속 올라갔다. AI가 점점 더 혼란스러워한다는 뜻이다. 가장 흥미로운 건 AI가 어디에 집중하는지를 분석한 결과다. 연구팀은 AI가 정보를 처리할 때 어떤 부분에 주목하는지 측정했다. 틀린 답을 낸 AI는 쓸데없는 정보에 과도하게 집중했다. 반면 올바른 답을 낸 AI는 그런 정보를 적게 봤다. 이는 AI가 방해 정보를 걸러내지 못하고 그대로 따라간다는 증거다. 연구팀은 또한 헷갈리는 정보와 질문이 비슷해 보일수록 AI가 더 오래 생각하지만 정확도는 떨어진다는 사실을 발견했다. AI가 관련성을 확인하려고 애쓰지만, 결국 쓸데없는 정보에 속아 넘어가는 것이다. 흥미롭게도 AI의 답변 길이는 방해 정보의 길이와 거의 관계가 없었다. 이는 AI가 단순히 입력이 길어서가 아니라, 헷갈리는 내용 때문에 혼란스러워한다는 뜻이다. AI 개발 방향을 바꿔야 할 때 이번 연구는 AI 업계에 중요한 메시지를 던진다. 첫째, 실험실 테스트만으로는 AI의 진짜 능력을 알 수 없다. 깨끗한 환경에서 높은 점수를 받았다고 해서 실제로도 잘 작동한다는 보장이 없다. 특히 병원이나 금융회사처럼 중요한 곳에서 AI를 쓸 때는 노이즈에 강한지 반드시 확인해야 한다. 둘째, AI를 단순히 크게 만드는 것만으로는 한계가 있다. 연구팀이 여러 크기의 AI를 테스트한 결과, 크기가 커질수록 노이즈에 조금 더 강해지긴 했지만 그 효과가 크지 않았다. 특히 일정 크기 이상부터는 개선 효과가 거의 없었다. 이는 크기를 키우는 것보다 잘못된 정보를 걸러내는 능력을 키우는 게 더 중요하다는 뜻이다. 셋째, 프롬프트를 잘 작성하거나 정보를 잘 정리하는 기존 방법들도 큰 도움이 안 됐다. 연구팀이 여러 최신 기법을 시험했지만, 노이즈 환경에서는 효과가 거의 없었다. 이런 기법들도 결국 AI에 의존하다 보니 똑같이 노이즈에 취약했다. 넷째, 한국 AI 연구진의 성과가 주목받고 있다. KAIST와 LG AI 연구원이 만든 이번 해결책은 간단하면서도 효과적이어서, 전 세계 AI 개발에 널리 쓰일 가능성이 크다. 이는 한국이 AI 기술을 그냥 쓰기만 하는 게 아니라 직접 만들고 개선하는 단계에 올라섰다는 증거다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 노이지벤치가 기존 AI 테스트와 어떻게 다른가요? A. 기존 테스트는 깨끗하게 정리된 정보만 줘서 AI가 실제보다 더 똑똑해 보이게 만들었습니다. 노이지벤치는 실제 상황처럼 무관한 문서, 엉뚱한 대화 기록, 헷갈리는 정보를 섞어서 AI의 진짜 실력을 측정합니다. 이를 통해 AI가 실험실이 아닌 현실에서 얼마나 제대로 작동하는지 알 수 있습니다. Q2. 레어라는 새 학습법은 어떻게 AI를 개선하나요? A. 레어는 AI가 정답을 맞췄는지만 보는 게 아니라, 답을 찾는 과정 자체를 평가합니다. 쓸데없는 정보 속에서 필요한 정보를 제대로 찾아냈을 때 보상을 줘서, AI가 방해 정보를 걸러내고 핵심만 보도록 가르칩니다. 실험에서 일부 AI는 이 방법으로 정확도가 3배 이상 올라갔습니다. Q3. 일반 사용자에게 어떤 의미가 있나요? A. 지금 쓰는 AI 챗봇이 복잡한 상황에서 생각보다 훨씬 많이 틀릴 수 있다는 뜻입니다. 특히 여러 정보를 종합해야 하거나, 대화가 길어지거나, 비슷해 보이지만 틀린 정보가 섞여 있을 때 AI가 엉뚱한 답을 할 가능성이 큽니다. 중요한 결정을 내릴 때는 AI 답변을 맹신하지 말고 반드시 확인해야 합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.23 10:41AI 에디터 기자

증상 설명해주고 약 제조∙병원 예약까지... 아마존, 24시간 건강 어시스턴트 앱 출시

한밤중에 갑자기 건강이 걱정돼도 병원에 전화할 수 없어 답답했던 경험, 누구나 있을 것이다. 아마존 이 이런 고민을 해결해줄 AI 헬스 어시스턴트를 내놨다. 24시간 언제든 당신의 의료 기록을 읽고 건강 상담을 해주고, 필요하면 병원 예약까지 대신 잡아준다. 아마존 원메디컬(Amazon One Medical)이 21일(현지 시각) 공개한 '헬스 AI 어시스턴트(Health AI assistant)'는 당신의 과거 병력, 검사 결과, 복용 중인 약까지 다 파악하고 있다가 질문에 답해준다. "지난주 받은 혈액검사 결과가 뭘 의미하는 거지?" 같은 질문을 던지면, 당신의 건강 상태를 고려해서 쉽게 설명해준다는 것이다. 더 놀라운 건 단순히 답변만 하는 게 아니라는 점이다. 증상을 얘기하면 병원에 가야 할지, 집에서 쉬면 될지 판단해 주고, 병원에 가야 한다면 당일이나 다음 날 예약까지 알아서 잡아준다. 약 처방도 갱신해 주는데, 원하면 아마존 약국(Amazon Pharmacy)에서 바로 조제할 수 있다. "검사 결과 수치는 나왔는데 이게 정상인지 아닌지도 모르겠고, 의사한테 물어보자니 사소한 것 같아서 망설여진다"는 사람들에게는 유용할 것으로 보인다. AI가 당신의 의료 기록 전체를 보고 맥락을 파악하기 때문에, 여러 병원에서 받은 검사 결과를 일일이 설명할 필요가 없다. 물론 AI가 의사를 완전히 대체하는 건 아니다. 아마존 측은 "환자와 의사의 관계를 대체하는 게 아니라 보완하는 것"이라고 강조한다. 실제로 이 AI는 증상이 심각하다고 판단되거나 전문의의 진단이 필요하다 싶으면, 즉시 의료진과 연결해 준다. 응급 상황이나 민감한 건강 문제에 대한 안전 장치도 여러 개 마련했다고 한다. 원메디컬의 앤드류 다이아몬드(Andrew Diamond) 최고 의료 책임자는 "AI가 아무리 발전해도 시간을 두고 쌓은 환자와 의사의 관계는 절대 대체할 수 없다"면서 "AI는 일상적인 건강 관리를 돕고, 정말 의사가 필요한 순간에 빠르게 연결해 주는 역할을 한다"고 설명했다. 개인정보 유출 걱정도 있을 법하다. 아마존은 이 서비스가 미국 건강보험 이동성 및 책임에 관한 법(HIPAA)을 준수한다고 밝혔다. AI와 나눈 대화가 자동으로 의료 기록에 남지 않고, 건강 데이터는 암호화 기술로 보호되며, 개인 데이터를 판매하지 않는다는 게 아마존의 설명이다. 이 서비스를 쓰고 싶지 않은 사람은 앱에서 '홈' 버튼을 누르면 기존 방식대로 이용할 수 있다. 헬스 AI 어시스턴트는 아마존 베드락(Amazon Bedrock)의 AI 모델로 작동하며, 원메디컬 앱의 모든 회원이 사용할 수 있다. 아마존 프라임(Prime) 회원은 월 9달러(한화 약 1만 3천원)이나 연 99달러(한화 약 14만 5천원)에 원메디컬 멤버십을 추가할 수 있다. AI가 건강까지 관리하는 시대가 성큼 다가온 셈이다. 편리함과 개인정보 보호 사이에서 소비자들이 어떤 선택을 할지 주목된다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.22 16:22AI 에디터 기자

챗GPT, '나이 감별' 시작... 너 몇 살이야? 묻지 않고 알아내는 이유

20일(현지 시각) 오픈AI가 챗GPT에 AI 기반 연령 예측 기능을 도입한다 밝혔다. 사용자의 접속 시간, 사용 패턴 등을 분석해 18세 미만으로 판단되면 폭력·자해·성적 콘텐츠 등을 자동으로 차단하는 시스템이다. 오픈AI에 따르면 이 기능은 사용자가 직접 나이를 밝히지 않아도 AI가 알아서 미성년자 여부를 판단한다. 계정을 만든 지 얼마나 됐는지, 주로 언제 접속하는지, 어떤 방식으로 사용하는지, 본인이 입력한 나이 정보 등을 종합적으로 분석한다. 회사는 이 과정에서 어떤 정보가 정확도를 높이는지 계속 학습하며 시스템을 개선한다고 밝혔다. 미성년자로 분류되면 어떤 콘텐츠가 막힐까. 잔인한 폭력 장면, 청소년에게 위험한 행동을 부추기는 챌린지 영상, 성적이거나 폭력적인 역할극, 자해 관련 내용, 극단적인 다이어트나 외모 비하를 조장하는 콘텐츠 등이 자동으로 차단된다. 오픈AI는 이런 기준이 아동 발달 전문가들의 의견과 학술 연구를 바탕으로 만들어졌다고 설명했다. 청소년은 성인과 달리 위험을 인식하거나 충동을 조절하는 능력이 아직 발달 중이라는 점을 고려했다는 것이다. 만약 성인인데 실수로 미성년자로 분류됐다면 간단하게 해결할 수 있다. 페르소나(Persona)라는 신원 확인 서비스에 셀카 사진을 보내면 나이를 확인받고 모든 기능을 다시 쓸 수 있다. 설정 메뉴에서 언제든 확인 가능하다. 부모들은 자녀의 챗GPT 사용을 더 세밀하게 관리할 수도 있다. 부모 통제 기능을 켜면 챗GPT를 못 쓰는 시간대를 정하거나, AI가 대화를 기억하는 기능을 끄거나, 자녀가 심한 스트레스를 받는 것 같으면 알림을 받을 수 있다. 이번 조치는 오픈AI가 앞서 발표한 '청소년 안전 청사진(Teen Safety Blueprint)'의 후속 작업이다. 회사는 출시 결과를 지켜보며 계속 정확도를 높여나갈 계획이라고 했다. 유럽연합(EU)에서는 현지 규정을 맞추느라 몇 주 뒤에 시작된다. 오픈AI는 이번 조치가 중요한 진전이지만 청소년 안전을 위한 노력은 계속될 것이라며, 미국심리학회(American Psychological Association) 등 전문 기관들과 협력하며 개선 사항을 공유하겠다고 밝혔다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.22 13:39AI 에디터 기자

"이건 사람한테 물어봐야겠다"… AI 스스로 한계 인정하는 법 배웠다

미국 광고 기술 회사 제프르와 이스라엘 테크니온 공과대학 연구팀이 AI가 자신의 판단이 틀릴 가능성을 스스로 예측해 사람에게 도움을 청하는 시스템을 개발했다. 해당 논문에 따르면, 이 기술은 AI가 확신 있는 것만 처리하고, 헷갈리는 건 인간 전문가에게 넘김으로써 정확도를 높이면서도 비용을 대폭 줄인다. GPT-4o 미니, 사람 도움 요청 절반으로 줄였는데 정확도는 오히려 상승 연구팀이 만든 시스템의 핵심은 간단하다. AI가 콘텐츠를 검열할 때마다 "내 판단이 맞을 확률"을 동시에 계산한다. 이 확률이 낮으면 자동으로 사람 검토자에게 넘기고, 높으면 AI가 직접 처리한다. 오픈AI의 검열 데이터로 실험한 결과, GPT-4o 미니 모델은 사람에게 넘기는 비율을 37%에서 16%로 절반 이상 줄였다. 놀라운 건 정확도가 떨어진 게 아니라 오히려 81%에서 94%로 올랐다는 점이다. 즉, AI가 자신 있는 것만 골라서 처리하니 실수가 줄어든 것이다. 비용 절감 효과도 컸다. GPT-4o 미니는 운영 비용이 132달러에서 38달러로 71% 감소했다. 구글의 제미나 2.0 모델도 74달러에서 41달러로 41% 줄었다. 여기서 비용은 사람 검토자의 인건비와 AI 실수로 인한 예상 손실을 합친 금액이다. AI가 보내는 네 가지 신호... "헷갈려요" 인정하는 순간 포착 이 시스템은 AI가 내보내는 네 가지 신호를 종합 분석한다. 첫 번째는 AI가 답을 선택할 때 각 선택지에 부여하는 확률이다. 예를 들어 "유해함" 70%, "무해함" 25%라면 꽤 확신하는 것이지만, "유해함" 52%, "무해함" 48%라면 헷갈리는 것이다. 두 번째는 AI가 스스로 매기는 신뢰도 점수다. AI에게 "당신 답이 맞을 확률이 몇 퍼센트인가요?"라고 물으면 0~100점으로 답하게 한다. 또 "매우 낮음, 낮음, 보통, 높음, 매우 높음" 중 하나를 선택하게도 한다. 세 번째는 AI의 중간 사고 과정을 분석하는 것이다. AI가 답을 내기까지의 추론 과정을 단계별로 살펴보며 얼마나 일관되고 자신 있게 말하는지 측정한다. 다만 이 방식은 콘텐츠 검열에서는 오히려 AI를 과신하게 만들어 최종 버전에서는 제외됐다. 네 번째가 이번 연구의 핵심 혁신이다. AI가 단순히 "확신 없음"이라고만 말하는 게 아니라, 그 이유를 두 가지로 구분한다. "정보가 부족해서 모르겠어요"와 "규정 자체가 애매해서 모르겠어요"로 나눈다. "정보 부족"과 "규칙 애매함" 구분... 담당자 배정까지 자동화 AI가 이유를 구분하는 건 실무에서 큰 의미가 있다. "정보가 부족해서 모르겠다"고 하면 경험 많은 상급 검토자에게 배정한다. 예를 들어 동영상 화면이 흐릿하거나, 맥락 정보가 빠져있어서 판단하기 어려운 경우다. 반면 "규칙 자체가 애매해서 모르겠다"고 하면 검열 가이드라인을 업데이트하거나 AI 재교육의 신호로 활용한다. 예를 들어 어떤 표현이 지역에 따라 욕인지 아닌지 기준이 다른 경우, 회사 규정에 명확한 기준이 없는 경우다. 실제로 구글의 제미나이 모델에서 이 "이유 구분" 기능을 제거하자 비용이 눈에 띄게 올랐다. 이는 AI가 단순히 "잘 모르겠다"고만 하는 것보다, "왜 모르는지"까지 알려주는 게 훨씬 효율적임을 보여준다. 12개 언어 동영상 검열까지 성공... 텍스트 넘어 영상·음성도 분석 연구팀은 두 가지 데이터로 시스템을 검증했다. 첫째는 영어 텍스트 1,680개를 혐오 발언, 자해, 성적 콘텐츠, 폭력 등으로 분류하는 작업이다. 둘째는 12개 언어로 된 짧은 동영상 1,500개를 분석하는 작업이다. 동영상은 텍스트, 썸네일 이미지, 음성을 문자로 바꾼 대본, 영상 장면 등 네 가지 정보를 모두 활용했다. 영어 텍스트 검열에서는 모든 AI 모델이 기존 방식보다 좋은 성적을 냈다. GPT-4.1 미니와 GPT-4o의 정확도가 각각 88.79%에서 91.93%, 84.41%에서 91.35%로 올랐다. 더 복잡한 동영상 검열에서는 모델마다 차이가 있었다. GPT-4o 미니는 정확도가 85.71%에서 87.34%로, GPT-4o는 88.05%에서 91.42%로 향상됐다. 특히 제미나이 2.0은 69.85%에서 85.47%로 급등했다. 다만 중국의 큐웬이나 메타의 라마 같은 일부 오픈소스 모델은 전체 평균 정확도는 오르고 개별 케이스 정확도는 떨어지는 등 혼재된 결과를 보였다. 특별한 수학 기법으로 학습... 드물게 나오는 실수 케이스 집중 분석 이 시스템은 "리지 회귀"라는 통계 기법으로 학습한다. 복잡해 보이지만 원리는 단순하다. AI의 여러 신호들이 서로 비슷한 정보를 담고 있을 수 있는데, 이를 적절히 조절해서 중복을 피하고 안정적인 예측을 만든다. 가장 큰 어려움은 데이터 불균형이었다. AI의 판단은 보통 80퍼가 맞기 때문에 실수 상황은 20퍼에 불가하다. 따라서 AI가 "대부분 맞으니까 항상 맞다고 예측하자"는 식으로 학습할 위험이 있다. 연구팀은 이를 해결하기 위해 맞는 케이스를 적절히 줄이고, 드문 "확신 없음" 케이스는 모두 유지했다. 또한 실수의 비용을 더 높게 설정해서 시스템이 실수를 잡는 데 집중하도록 만들었다. 최종적으로 동영상 데이터는 훈련용 800개와 테스트용 300개로, 텍스트 데이터는 훈련용 3,500개와 테스트용 900개로 나눠 평가했다. 각 신호의 기여도 실험... 모든 신호가 서로 보완하며 작동 연구팀은 네 가지 신호 중 하나씩 제거하면서 각각의 중요도를 측정했다. 결과는 명확했다. 어떤 신호를 제거하더라도 성능이 떨어졌다. 이는 네 가지 신호가 각자 다른 측면을 보여주며 서로 보완한다는 뜻이다. 영어 텍스트 검열에서는 AI가 각 답변 선택지에 부여하는 확률 신호를 제거했을 때 비용이 가장 많이 올랐다. 이는 AI의 내부 확률 계산이 가장 강력한 단일 신호임을 보여준다. AI가 스스로 매기는 신뢰도 점수를 제거하면 비용이 약 5~15% 올랐다. 이는 AI의 자기 평가가 확률 계산으로는 잡히지 않는 추가 정보를 제공함을 의미한다. "정보 부족"과 "규칙 애매함"을 구분하는 신호는 단순한 예/아니오 정보인데도 비용 절감에 확실히 기여했다. 특히 제미나이 모델들에서 이 신호를 제거하자 비용이 뚜렷하게 증가했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 이 기술은 어떤 AI에 적용할 수 있나요? A. GPT-4o, 구글 제미나이, 메타 라마, 중국 큐웬 등 대부분의 대형 AI 모델에 적용 가능합니다. AI가 각 답변에 부여하는 확률 정보를 제공하기만 하면 되고, AI 내부 구조를 들여다볼 필요가 없어서 범용적입니다. 오픈소스와 상용 서비스 모두 사용할 수 있습니다. Q2. AI가 이유를 구분하는 게 왜 중요한가요? A. "정보가 부족해서 모른다"는 건 경험 많은 사람이 봐야 하고, "규칙이 애매해서 모른다"는 건 규칙을 고치거나 AI를 재교육해야 합니다. 이렇게 이유를 알면 적재적소에 자원을 배치하고 시스템을 빠르게 개선할 수 있습니다. 실제로 이 기능을 빼면 비용이 확실히 올라갑니다. Q3. 콘텐츠 검열 외에 다른 곳에도 쓸 수 있나요? A. 연구팀은 금융 사기 탐지, 법규 준수 검토, 의료 진단 보조 등 실수 비용이 큰 모든 분야에 적용 가능하다고 밝혔습니다. AI가 확신 없을 때 사람에게 도움을 청하는 구조는 사람과 AI가 협업하는 모든 상황에서 유용합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.21 21:21AI 에디터 기자

"AI로 공부하면 바보 된다"…OECD 보고서 충격

세계 경제 전문 기관인 OECD가 충격적인 연구 결과를 발표했다. 인공지능 챗봇으로 공부하면 당장 성적은 오르지만, 실제로 머리에 남는 건 없다는 것이다. 오히려 AI 없이 공부한 학생보다 실력이 떨어진다. 전 세계 학생 대부분이 이미 챗GPT를 쓰고 있는 지금, OECD는 247페이지짜리 보고서를 통해 AI를 제대로 쓰는 방법을 제시했다. 터키 학생 실험이 밝힌 진실: 연습 때 127% 올랐는데 진짜 시험은 17% 떨어져 OECD 보고서가 소개한 터키 실험은 충격적이다. 터키 고등학생들이 수학 문제를 풀 때 GPT-4라는 AI를 사용했다. 일반 GPT-4를 쓴 학생들은 연습 점수가 48% 올랐고, 학습을 도와주도록 만든 GPT-4를 쓴 학생들은 무려 127%나 올랐다. 학생들과 부모들은 'AI가 정말 도움이 된다'고 생각했다. 하지만 진짜 시험이 시작되자 상황이 완전히 뒤집혔다. AI를 쓸 수 없는 시험에서 AI를 썼던 학생들은 AI를 전혀 안 쓴 학생들보다 17% 낮은 점수를 받았다. 겉으로는 공부를 잘하는 것 같았지만, 실제로는 실력이 늘지 않은 것이다. OECD는 학생들이 AI로 답을 쉽게 얻으면서 스스로 생각하는 과정을 건너뛰었고, 그래서 진짜 실력이 생기지 않았다고 설명했다. 중국 대학생 연구에서도 비슷한 결과가 나왔다. AI로 영어 작문을 고친 학생들은 과제 점수는 높았지만, 실제 영어 실력 테스트에서는 전혀 나아지지 않았다. 더 문제는 자기가 어떻게 공부하고 있는지 스스로 점검하는 능력까지 떨어졌다는 점이다. 뇌를 관찰한 연구에서는 더 확실한 결과가 나왔다. 처음부터 AI를 쓴 학생들은 뇌가 덜 활발했고 기억력도 약했다. 반면 먼저 혼자 쓰고 나중에 AI로 확인한 학생들은 뇌가 활발하게 작동했다. 우리 동네 학생 10명 중 9명이 매일 쓴다... 부모들만 모르는 AI 시대 충격적인 건 이미 대부분 학생이 AI를 매일 쓰고 있다는 사실이다. OECD 보고서에 따르면 에스토니아에서 중학생의 74%, 고등학생의 90%가 공부할 때 AI를 쓴다고 답했다. 그중 70%가 챗GPT를 쓴다. 독일은 더 심하다. 대학생 2만 3천 명을 조사했더니 94%가 AI를 쓰고, 그중 65%는 매일 또는 매주 쓴다고 답했다. 유럽 7개 나라 12~17세 학생 7천 명을 조사한 결과를 보면 학생들이 어떻게 AI를 쓰는지 알 수 있다. 56%가 정보를 찾을 때, 45%가 어려운 개념을 이해할 때, 31%가 숙제 답을 얻을 때 AI를 썼다. 48%의 학생이 챗GPT를 쓴다고 답했고, 그중 절반은 선생님이 시켜서 썼다. 프랑스에서는 2023년 대학생의 55%만 AI를 썼는데, 2025년에는 82%로 급증했다. 2년 만에 27%포인트나 늘어난 것이다. 미국도 마찬가지다. 2023년 25~33%였던 중고등학생 AI 사용률이 2024년 50%, 2025년 68%로 가파르게 올랐다. 이제 AI 사용은 '일부 학생'이 아니라 '대부분 학생'의 현실이다. 독일 대학생들은 AI를 어떻게 쓸까. 33%가 매주 검색할 때, 26%가 아이디어를 떠올릴 때, 21%가 공부 파트너로, 19%가 요약할 때, 19%가 번역할 때 쓴다. 흥미로운 건 33%가 AI를 '함께 공부하는 친구'처럼 생각한다는 점이다. AI가 단순한 도구를 넘어섰다는 뜻이다. 선생님은 36%만 쓴다... "우리 선생님은 AI를 모른다"는 학생들 학생들과 달리 선생님들의 AI 사용률은 훨씬 낮다. OECD가 조사한 결과 중학교 선생님의 36%만 최근 1년간 AI를 썼다고 답했다. 나라별로도 차이가 크다. 싱가포르와 아랍에미리트에서는 75%가 쓰는 반면, 프랑스와 일본은 20%도 안 된다. 선생님들이 AI를 쓰는 방식도 제한적이다. 주로 수업 계획을 짤 때(53%), 학생 수준에 맞춰 자료를 만들 때(52%), 행정 일을 처리할 때(45%) 쓴다. 실제 수업 중에 쓰거나 학생들에게 AI 쓰는 법을 가르치는 경우는 매우 드물다. 초등학교 선생님들은 중학교보다 AI를 덜 쓰지만, 특수 교육이 필요한 학생을 돕거나 학생 수준에 맞는 자료를 만들 때는 더 적극적으로 쓴다. 대학에서는 상황이 다르다. 프랑스 조사에 따르면 대학교수의 80%가 이미 AI를 쓰고 있다. 주로 강의를 준비할 때(49%)와 시험 문제를 만들 때(26%) 쓴다. 52개 나라 대학교수 1,700명을 조사한 결과에서도 68%가 AI를 썼고, 그중 75%는 수업 자료를 만들 때, 24%는 학생 과제에 피드백을 줄 때 썼다. 에스토니아는 역설적인 상황을 보여준다. 고등학생의 90%가 AI를 쓰는데 고등학교 선생님은 50%만 쓴다. 학생이 선생님보다 AI를 더 많이, 더 잘 쓰는 현실에서 누가 교육을 이끌어야 할까라는 질문이 생긴다. "준비 시간 31% 줄고 합격률 9%p 올라"... 제대로 쓰면 선생님에게도 도움 AI가 무조건 나쁜 건 아니다. OECD 보고서는 제대로 만들어서 제대로 쓰면 선생님의 일도 줄이고 교육의 질도 높일 수 있다고 강조한다. 영국 중학교 과학 선생님들은 AI를 써서 수업 준비 시간을 31% 줄였다. 선생님들이 잡무에서 벗어나 학생들과 더 많은 시간을 보낼 수 있게 된 것이다. 미국의 연구는 더 고무적이다. 스탠퍼드대학교가 만든 'AI 개인 교사 도우미'는 잘 가르치는 선생님들의 방식을 관찰해서 만들어졌다. 이 도구를 900명의 개인 교사가 1,800명의 어려운 환경에 있는 학생을 가르칠 때 썼다. 결과는 놀라웠다. 학생 합격률이 평균 4% 올랐고, 경험이 적은 개인 교사는 9%포인트, 이전에 평가가 낮았던 개인 교사는 7%포인트나 올랐다. 이미 잘 가르치는 개인 교사에게는 효과가 작았다. 이는 AI가 교육 실력을 고르게 만들 수 있음을 보여준다. 경험 없는 선생님도 AI 도움으로 숙련된 선생님 수준의 효과를 낼 수 있다는 것이다. 하버드대학교 물리학 수업 실험도 이를 뒷받침한다. 교실에서 하는 수업과 똑같은 방식으로 만든 AI 개인 교사를 비교했더니, AI로 배운 학생들이 더 짧은 시간에 더 많이 배웠고 흥미도 높았다. 중국에서는 독해 공부를 도와주는 AI 도구가 전통 방식보다 독해 실력과 의욕을 더 높였다. 영국의 글쓰기 연구에서도 AI가 아이디어를 제안해주자 혼자 쓴 사람보다 창의성과 글 품질이 모두 좋아졌다. 답 주는 AI vs 질문하는 AI... '교육용 AI'는 뭐가 다를까 OECD는 일반 AI(챗GPT 같은)와 교육용 AI의 근본적인 차이를 강조한다. 일반 AI는 질문하면 바로 답을 주지만, 교육용 AI는 학생이 스스로 답을 찾도록 질문으로 유도한다. 대표적인 게 '소크라테스 놀이터'다. 이 AI는 답을 바로 주지 않고 질문을 던져서 학생이 스스로 생각하게 만든다. 예를 들어 학생이 "피타고라스 정리가 뭐예요?"라고 물으면 일반 AI는 정의와 공식을 바로 알려준다. 하지만 소크라테스 놀이터는 "직각삼각형의 세 변 사이에는 무슨 관계가 있을까?", "정사각형 넓이는 어떻게 구하지?" 같은 질문으로 학생이 스스로 개념을 발견하도록 돕는다. 보고서는 이런 대화형 AI가 학생 개개인에 맞춰 설명을 조정한다고 설명한다. 여러 명이 함께 공부할 때도 AI가 도움을 줄 수 있다. 연구에 따르면 AI는 ①정보 저장소, ②정보 수집, ③추가 자료 제공, ④참여 유도, ⑤질문으로 대화하는 파트너, ⑥전문가 역할 등을 할 수 있다. 이를 통해 지식 제공, 모두의 평등한 참여 보장, 공부 과정 되돌아보기 등을 도와준다. 하지만 OECD는 교육용 AI도 조심해서 써야 한다고 강조한다. AI가 만든 피드백 품질이 사람 선생님과 같거나 때로 더 좋을 수 있지만, 학생들은 여전히 사람 피드백을 더 의미 있고 믿을 수 있다고 느낀다. 그래서 AI를 선생님을 대신하는 게 아니라 돕는 도구로 써야 하고, 최종 책임은 선생님이 져야 한다. 한국·에스토니아·프랑스는 이미 시작했다... 각국 정부의 AI 교육 정책 OECD 보고서는 각국 정부가 이미 AI 교육 도입에 나섰다고 보고한다. 한국은 2025-26년 국가 교육과정에 맞춘 AI 학습 자료를 학교에 제공했다. 학생들이 여러 과목을 자기 수준에 맞춰 연습할 수 있고, 선생님은 학생이 무엇을 잘못 이해하고 있는지 피드백을 받는다. 학생 수준에 맞는 설명, 자동 피드백, 교육과정에 맞춘 대화 등의 기능이 있다. 에스토니아는 2025-26년 'AI 도약' 프로그램으로 모든 고등학교에서 AI 활용을 시도한다. 시설, 교육과정, 선생님 연수, 기술 회사와의 협력을 모두 결합했다. 모든 선생님에게 일반 AI 도구를 주고, 고등학생들에게는 교육 연구 원리를 따르도록 만든 AI 챗봇을 무료로 제공한다. 에스토니아어로만 대화하도록 설정한 것도 특징이다. 그리스는 2025년 'OpenAI와 그리스' 협력으로 선정된 고등학교에서 ChatGPT 교육용 버전을 시범 운영한다. 선생님 연수와 AI 사용의 교육 효과 관찰을 포함한다. 슬로바키아는 수업 계획과 평가를 돕는 AI를 시범 운영하고, 핀란드는 주로 선생님 지원과 피드백용 AI를 테스트한다. 일본, 캐나다, 호주는 글쓰기 지원, 피드백 제공, 업무 부담 줄이기에 집중한 지역 시범 사업을 한다. 프랑스는 교육용 '자체 AI'를 개발 중이다. 수업 계획을 돕는 AI와 130만 선생님을 위한 챗봇을 만들어서 인사 관련 일반적인 질문에 답하게 하고, 사람은 개별 상황에 집중하게 한다. 영국은 교육부의 '자료 저장소'로 교육과정 지침, 수업 계획, 학생 평가(개인정보 제거)를 모아서 AI를 훈련시키고, 영국 학교에 맞는 정확하고 품질 좋은 교육용 AI 도구를 만들 수 있게 한다. 네덜란드는 국립 AI 연구소를 통해 정부, 대학, 기업, 학교가 함께 교육용 AI 도구를 만든다. 이런 나라별 방식은 AI를 교육에 넣는 다양한 전략을 보여주며, 국제 협력과 지식 공유의 중요성을 강조한다. OECD가 제시한 5가지 원칙: "AI는 보조 도구, 판단은 사람이" OECD는 AI를 제대로 쓰기 위한 핵심 원칙을 제시했다. 첫째, 과제를 잘 풀었다고 해서 실력이 늘었다는 뜻이 아니라는 걸 분명히 알아야 한다. 학생들이 AI로 빨리 답을 얻으면 스스로 생각하는 과정을 건너뛰게 되므로, 천천히 여러 번 수정하며 쓰도록 해야 한다. 이는 AI를 쓰기 전에 먼저 생각하고, AI 답을 꼼꼼히 확인하며, 여러 번 고치는 과정을 말한다. 둘째, 주요 과목의 기본 지식과 기술은 AI 없이 먼저 배워야 한다. 계산기를 쓰기 전에 기본 산수를 배워야 하는 것처럼, AI를 쓰기 전에 기본 개념과 기술을 알아야 한다. 셋째, AI 도구는 교육용이든 일반용이든 선생님이 특정 학습 목표를 위해 계획한 수업에서 써야 한다. 넷째, AI 도구를 쓸 때 선생님은 계속 전문가로서 판단하고 AI가 만든 결과를 검토하고 고치거나 승인해서 품질에 책임을 져야 한다. AI는 제안할 수 있지만, 최종 결정은 항상 사람인 선생님이 내려야 한다. 다섯째, AI 개발자는 교육 연구와 교육 지식을 바탕으로 교육용 AI를 만들고, 선생님뿐 아니라 학생, 학부모, 교사 단체 등을 만드는 과정에 참여시켜야 한다. 보고서는 또한 AI의 교육 효과를 확인하는 국제 협력 연구가 중요하다고 강조한다. 지금까지 대부분의 연구는 짧은 기간만 봤기 때문에, 오랜 기간 AI를 썼을 때 어떤 효과가 있는지 연구가 필요하다. OECD는 또한 선생님의 AI 활용 능력을 키우기 위해 AI를 이해하는 교육뿐 아니라 AI를 수업과 과제에 넣는 교육 능력을 키워야 한다고 강조한다. 이를 돕기 위해 유럽위원회와 OECD는 초등·중등 교육을 위한 AI 교육 기준을 만들었다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 우리 아이가 챗GPT로 숙제를 하는데, 당장 못 쓰게 해야 하나요? A. 무조건 금지할 필요는 없습니다. OECD 보고서는 AI 사용 자체가 문제가 아니라 '어떻게' 쓰느냐가 중요하다고 합니다. 터키 실험에서도 학습을 돕도록 만든 AI를 쓴 학생들은 일반 AI보다 나은 결과를 보였습니다. 중요한 건 아이가 AI를 답을 그냥 베끼는 도구가 아니라 생각을 돕는 도구로 쓰게 하는 것입니다. 먼저 혼자 문제를 풀어보게 하고, AI 답을 꼼꼼히 확인하며, 왜 그런 답이 나왔는지 설명하게 하는 방식이 좋습니다. Q2. 선생님이 AI를 잘 모르는데 우리 아이 교육은 괜찮을까요? A. 현재 선생님의 36%만 AI를 쓰고 있어서 걱정될 수 있습니다. 하지만 OECD는 선생님을 돕는 나라별 프로그램이 이미 시작됐다고 합니다. 한국은 AI 학습 자료를 제공하고, 에스토니아는 모든 선생님에게 AI 도구를 주며, 프랑스는 130만 선생님을 위한 AI 챗봇을 만들고 있습니다. 학부모로서는 학교나 선생님에게 AI 교육 계획을 물어보고, 필요하면 관련 연수 기회를 요청할 수 있습니다. 집에서도 아이와 함께 AI를 올바르게 쓰는 법을 배우는 게 도움이 됩니다. Q3. 일반 AI(챗GPT)와 교육용 AI의 차이는 뭐고, 어떤 걸 써야 하나요? A. 챗GPT 같은 일반 AI는 질문하면 바로 답을 주지만, 교육용 AI는 학생이 스스로 답을 찾도록 질문으로 유도합니다. 예를 들어 소크라테스 놀이터는 답을 바로 주지 않고 "왜 그렇게 생각하니?", "다른 방법은 없을까?" 같은 질문으로 생각을 자극합니다. 하버드대 물리학 AI는 학생이 능동적으로 배우는 방식을 적용해서 교실 수업보다 더 나은 결과를 냈습니다. 지금은 교육용 AI가 많지 않으므로, 일반 AI를 쓰되 교육 목적으로 쓰는 게 중요합니다. 답을 바로 받지 말고 힌트를 요청하거나, AI 답을 확인하고 다른 방법으로도 풀어보게 하세요. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.21 17:11AI 에디터 기자

대학 연구팀이 만든 AI, 채점 방식 바꿨더니 GPT-5 이겼다...의료 분야 세계 1등

AI 챗봇이 얼마나 똑똑한지 정확하게 평가하는 것은 여전히 어려운 문제다. 특히 "좋은 에세이를 써줘" 같은 정답이 정해지지 않은 질문에 AI가 얼마나 잘 대답했는지 판단하기 어렵다. 해당 논문에 따르면, 중국 전기차 기업 리 오토(Li Auto Inc.)와 중국 홍콩 중문대학교(The Chinese University of Hong Kong, Shenzhen), 저장대학교(Zhejiang University), 싱가포르 난양공과대학교(Nanyang Technological University) 공동 연구팀이 이 문제를 해결할 새로운 방법을 내놨다. 연구팀이 만든 '루브릭허브(RubricHub)'라는 평가 자료를 사용해 훈련한 AI 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 모델 GPT-5(67.2점)를 제쳤다. 기존 AI 평가 방식의 한계, 세밀한 기준 부재가 문제 현재 대규모 언어모델(LLM)의 평가는 두 가지 방식으로 나뉜다. 수학이나 코딩처럼 정답이 명확한 분야에서는 검증 가능한 보상을 활용한 강화학습(RLVR)이 효과적이지만, 실제 사용자 질문의 대부분은 정답이 정해지지 않은 개방형이다. 기존 평가 기준(rubric)은 사람의 전문성에 의존하거나 특정 분야에만 국한되어 확장성이 떨어진다. 더 큰 문제는 평가 기준이 너무 포괄적이고 모호해서 우수한 응답과 뛰어난 응답을 구별하지 못한다는 점이다. 예를 들어 "시를 잘 썼는가"라는 기준만으로는 어떤 시가 진정으로 훌륭한지 판단하기 어렵다. 연구팀은 이러한 조악한 기준이 AI 훈련에 '천장 효과(supervision ceiling effect)'를 만들어 모델 개선을 가로막는다고 지적했다. GPT-5.1· 제미나이 3 프로 등 최신 AI 총동원해 평가 기준 만들었다 루브릭허브의 핵심은 단계적으로 점점 더 까다로운 평가 기준을 만드는 방법이다. 첫 번째 단계는 '원칙 기반 및 응답 기반 생성'이다. 질문만으로 기준을 만들면 너무 일반적이거나 실제 답변과 동떨어진 기준이 나올 수 있다. 연구팀은 실제 AI 응답을 참고하면서 일관성, 명확성, 평가 가능성 등의 메타 원칙을 적용해 구체적이고 관련성 높은 기준을 생성했다. 두 번째 단계는 '여러 AI 모델을 활용한다. 한 가지 AI만 사용하면 편향될 수 있어서 GPT-5.1, 제미나이 3 프로 같은 여러 최신 모델이 만든 기준을 합쳐서 균형을 맞췄다. 세 번째이자 가장 중요한 단계는 '난이도 진화'다. 보통 수준의 기준은 합격과 불합격은 구별하지만, 우수한 답변과 최고의 답변을 구별하지 못한다. 예를 들어 시험에서 80점과 100점 모두 '합격'으로만 평가하면 둘의 차이를 알 수 없는 것과 같다. 연구팀은 최고 수준의 답변 두 개를 비교 분석해서 미묘한 차이를 찾아냈다. 그래서 "코드가 제대로 작동하나요?"라는 단순한 기준을 "특수한 경우에도 빠르고 효율적으로 작동하나요?"처럼 훨씬 까다롭게 바꿨다. 11만 개 질문에 평균 30개 기준… 최고 AI도 60점밖에 못 받아 루브릭허브는 약 11만 개의 질문과 그에 맞는 평가 기준으로 이루어져 있다. 의료(Medical), 과학(Science), 지시 따르기(Instruction Following), 작문(Writing), 대화(Chat) 등 5개 주요 분야를 아우른다. 의료와 과학 분야가 각각 27.1%로 가장 큰 비중을 차지하며, 지시 따르기 20.9%, 작문 15.9% 순이다. 특히 작문과 의료 같은 복잡한 분야에서는 질문 하나당 평균 30개 이상의 세밀한 평가 기준을 제공한다. 이는 기존 데이터셋과 차별화되는 점이다. 더 중요한 것은 이 기준들의 변별력이다. 뛰어난 AI 모델인 Qwen3-235B도 평균 0.6점(만점 1점 기준) 정도밖에 못 받았다. 이는 루브릭허브의 기준이 충분히 어렵고, AI가 개선될 여지가 많다는 뜻이다. 의료 분야 69.3점으로 GPT-5(67.2점) 제치고 세계 1등 연구팀은 루브릭허브가 실제로 효과가 있는지 확인하기 위해 2단계 훈련 방법을 사용했다. 1단계 'RuFT(Rubric-based Rejection Sampling Fine-Tuning)'에서는 평가 기준을 필터로 써서 좋은 답변만 골라냈다. 하나의 질문에 대해 여러 AI 모델이 여러 개 답변을 만들면, 그중에서 평가 점수가 일정 기준(0.6점) 이상인 최고 답변만 훈련 자료로 사용했다. 2단계 'RuRL(Rubric-based Reinforcement Learning)'에서는 평가 기준 점수를 보상으로 활용해 AI를 더 발전시켰다. 각 평가 항목을 통과하면 가중치만큼 점수를 주고, 이 점수를 최대화하도록 AI를 학습시켰다. 이 방법을 Qwen3-14B 모델에 적용한 결과가 놀랍다. 의료 분야 HealthBench 테스트에서훈련 전 기본 상태(22.8점)에서 69.3점으로 46.5점 상승했고, GPT-5(67.2점)를 넘어선 69.3점으로 세계 최고 성능을 달성했다. 대화 능력을 측정하는 Arena-Hard V2에서도 기본 모델이 5.2점에 불과했는데 74.4점으로 급등했다. 사람 평가와 90% 일치, 대화 능력은 14배 상승 연구팀은 각 단계가 실제로 효과가 있는지 하나씩 확인했다. 기본 규칙을 적용하고 답변을 참고해서 기준을 만들자 의료 분야 AI 평가 벤치마크인 HealthBench 2.9점, LLMeval-Med에서 2.4점 올랐다. 여러 모델의 기준을 합치자 단일 모델 편향이 줄어들며 성능이 더 좋아졌다. 난이도를 높이는 3단계까지 완성하니 LLMeval-Med에서 79.5점까지 도달했다. 답변 후보를 1개에서 12개로 늘렸을 때도 훈련 데이터 품질이 63.45점에서 79.51점으로 향상돼 필터링 효과가 입증됐다. 또한 사람 평가자와 AI 채점 결과를 비교한 결과, 일정 규모(30B) 이상의 AI는 사람과 90% 이상 일치하는 판단을 내려 평가 기준의 신뢰성을 확인했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 루브릭허브가 뭐고 왜 중요한가요? A. 루브릭허브는 AI 답변의 품질을 평가하는 약 11만 개의 까다로운 기준을 모아놓은 자료다. 기존 방식은 "괜찮은 답변"과 "최고의 답변"을 구별하지 못했는데, 루브릭허브는 30개 이상의 구체적 기준으로 미묘한 차이까지 포착해서 AI를 더 똑똑하게 훈련시킬 수 있다. Q2. 이 방법으로 훈련한 AI 성능은 어느 정도인가요? A. 루브릭허브로 훈련한 Qwen3-14B 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 GPT-5(67.2점)를 이겼다. 대화 능력 테스트에서도 기본 모델 5.2점에서 74.4점으로 14배 이상 뛰어올라 효과가 확실히 입증됐다. Q3. 일반 사용자에게 어떤 의미가 있나요? A. 더 까다로운 기준으로 AI를 훈련하면 의료 상담이나 작문 도움처럼 정답이 없는 복잡한 질문에도 AI가 훨씬 신뢰할 만한 답변을 준다. 일상에서 AI를 더 안전하고 유용하게 쓸 수 있게 된다는 의미다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.20 22:16AI 에디터 기자

"2분만에 나를 복제"...AI 아바타가 투자자 질문에 실시간 답변

인터랙트AI(InteractAI)가 19일(현지 시각) AI 기반 인터랙티브 투자 피칭 플랫폼 '인터랙트피치(InteractPitch)'를 선보였다. 이 서비스는 창업자의 아바타가 투자자와 실시간으로 대화하며 프레젠테이션 자료를 설명하는 방식으로, 실제 미팅 전 투자자의 관심사를 파악할 수 있다는 점이 특징이다. 인터랙트피치 공식 웹사이트에 따르면, 이 플랫폼은 일반 프레젠테이션 파일을 AI 기반 대화형 경험으로 전환한다. 투자자는 창업자의 아바타를 통해 프레젠테이션 자료를 탐색하고, 궁금한 점을 질문하며, 창업자는 투자자가 어떤 질문을 했는지 실시간으로 추적할 수 있다. 서비스의 핵심은 모바일 우선 경험이다. 투자자는 스마트폰에서 링크를 탭하는 것만으로 프레젠테이션 자료를 탐색할 수 있으며, 별도의 앱 설치나 일정 조율 없이 텍스트 또는 음성으로 질문할 수 있다. AI는 각 슬라이드의 내용과 창업자가 추가한 맞춤 설명을 기반으로 답변을 제공한다. 플랫폼 구축 과정은 4단계로 구성된다. 먼저 PDF, PPTX, PPT 형식의 자료를 업로드하고 슬라이드별로 추가 설명을 입력한다. 두 번째 단계에서는 창업자의 사진과 음성 샘플을 업로드하면 몇 분 안에 아바타가 생성된다. 세 번째 단계에서는 전체 피칭 맥락, 톤, 타깃 청중, 지식 베이스 등을 설정한다. 마지막으로 링크를 공유하면 투자자가 모바일에서 바로 접속할 수 있다. 인터랙트AI는 이 서비스가 단순히 자료를 보여주는 것이 아니라, 창업자의 피칭 내용과 지식 베이스를 학습한 AI가 맥락에 맞는 답변을 제공한다고 설명했다. 창업자는 투자자와 첫 통화를 하기 전에 상대방이 어떤 부분에 관심을 보였는지 미리 파악할 수 있어, 더 준비된 상태로 미팅에 임할 수 있다는 것이 회사 측의 설명이다. 현재 인터랙트피치는 무료로 체험할 수 있으며, 고성장 스타트업 팀들이 활용하고 있다고 밝혔다. 서비스 구축에 소요되는 시간은 약 2분이며, 별도의 설정 없이 파일 업로드와 맥락 입력만으로 바로 사용 가능하다. 해당 서비스에 대한 자세한 사항은 인터랙트AI 공식 웹사이트에서 확인 가능하다. 이미지 출처: 인터랙트AI ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.20 20:15AI 에디터 기자

오픈AI, 18개월 안에 파산할 수도…"MS나 아마존에 인수될 가능성 커"

챗GPT로 AI 혁명을 주도해 온 오픈AI가 향후 18개월 내 자금 고갈에 직면할 수 있다는 경고가 나왔다. 외교협회(Council on Foreign Relations) 선임연구원 세바스찬 말라비는 13일(현지 시각) 뉴욕타임스 기고문을 통해 "오픈AI가 대규모 수익을 내기 전에 자금이 바닥날 것"이라고 전망했다. 챗GPT 출시 3년 만에 AI는 이미지 생성부터 복잡한 논리 문제 해결까지 놀라운 발전을 이뤘다. 와튼스쿨 조사에서는 미국 기업 4분의 3이 AI 투자로 긍정적 수익을 거두고 있다고 답했다. 매달 10억 명 이상이 생성형 AI를 사용하고 있다. 문제는 대부분의 사용자가 무료로 서비스를 이용한다는 점이다. 여러 무료 모델이 존재하는 상황에서 유료 전환은 쉽지 않다. 말라비는 "AI가 사용자의 모든 것을 기억하고 이해하는 단계가 와야 수익화가 가능하지만, 그때까지 생존할 수 있느냐가 문제"라고 지적했다. 인포메이션(The Information)에 따르면 오픈AI는 2025년 80억 달러(한화 약 11조 8천억 원) 이상, 2028년 400억 달러 이상을 소진할 것으로 예상했다. 샘 알트만 CEO는 지난해 3월 역대 최대 규모인 400억 달러를 투자 유치했지만, 데이터센터 인프라에만 1조 4,000억 달러가 필요한 상황이다. 말라비는 "생성형 AI는 과거 소프트웨어 기업과 달리 훨씬 더 자본집약적"이라며 "결국 오픈AI는 마이크로소프트나 아마존 같은 거대 기업에 인수될 가능성이 크다"고 내다봤다. 그는 "이는 AI 자체에 대한 비판이 아니라 과대광고에 의존한 한 기업의 종말일 뿐"이라고 덧붙였다. 해당 기사의 원문은 뉴욕타임스에서 확인 가능하다. 이미지 출처: 이디오그램 생성 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 22:28AI 에디터 기자

챗GPT, 3년 만에 연매출 10배 폭증...오픈AI CFO "전례 없는 성장"

오픈AI가 챗GPT 출시 3년 만에 연간 반복 수익(ARR)을 10배 성장시키며 생성형 AI 시장의 지배력을 입증했다. 사라 프라이어(Sarah Friar) 오픈AI 최고재무책임자(CFO)는 18일(현지 시각) 공식 블로그를 통해 "2023년 20억 달러였던 ARR이 2024년 60억 달러, 2025년 200억 달러 이상으로 증가했다"며 "이는 이러한 규모에서 전례 없는 성장"이라고 밝혔다. 프라이어 CFO는 이 같은 폭발적 성장의 비결로 '지능의 가치에 따라 비즈니스 모델을 확장한다'는 원칙을 꼽았다. 챗GPT가 단순한 실험 도구를 넘어 학생들의 숙제 풀이부터 기업의 업무 자동화까지 일상에 깊숙이 침투하면서, 오픈AI는 소비자 구독부터 사용량 기반 API까지 다층적 수익 모델을 구축했다. 특히 컴퓨팅 파워가 성장의 핵심 변수로 작용했다. 오픈AI의 컴퓨팅 용량은 2023년 0.2기가와트(GW)에서 2025년 1.9GW로 9.5배 증가했으며, 수익도 같은 곡선을 그리며 성장했다. 프라이어 CFO는 "컴퓨팅은 AI에서 가장 희소한 자원"이라며 "더 많은 컴퓨팅이 있었다면 고객 채택과 수익화가 더 빠르게 이뤄졌을 것"이라고 강조했다. 오픈AI는 주간 활성 사용자(WAU)와 일일 활성 사용자(DAU) 모두에서 계속해서 사상 최고치를 경신하고 있다. 회사는 2026년 '실용적 채택' 확대에 초점을 맞춰, 특히 건강, 과학, 기업 분야에서 AI 활용 격차를 좁히는 데 주력할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 20:05AI 에디터 기자

AI가 만든 광고, 젊은 세대는 싫어한다...기업만 모르는 현실

기업들이 AI로 광고를 만드는 건 당연한 시대가 됐지만, 정작 광고를 보는 젊은 소비자들의 반응은 차갑다. 특히 10대 후반~20대 초반 Z세대의 절반 가까이가 AI 광고를 거부감 있게 본다고 답했다. 문제는 광고를 만드는 기업들이 이런 사실을 전혀 모르고 있다는 것이다. 미국 광고 업계 단체 IAB(Interactive Advertising Bureau)가 발표한 조사 결과에 따르면, 기업과 소비자가 생각하는 AI 광고에 대한 온도차가 지난해보다 더 벌어진 것으로 나타났다. 볼보도 코카콜라도 AI 광고... 하지만 젊은 세대는 냉담 요즘 유튜브나 인스타그램에서 보는 광고 상당수는 AI의 손을 거쳐 만들어진다. 볼보는 AI로 자동차 광고를 제작했고, 코카콜라는 2년 연속 크리스마스 광고를 AI로 만들었다. 광고업계 임원 82%가 "우리 회사는 AI로 광고를 만든다"고 답할 정도로 AI 광고는 이제 표준이 됐다. 2024년 해도 절반 정도였던 게 지금은 대부분의 기업이 사용하는 수준까지 올라왔다. 기업들이 AI를 가장 많이 쓰는 곳은 SNS 광고다. 인스타그램이나 페이스북에 뜨는 광고 10개 중 8개 정도가 AI의 도움을 받는다고 보면 된다. 배너 광고는 10개 중 7개, TV 광고는 절반 이상이 AI를 활용한다. 심지어 팟캐스트 같은 오디오 광고도 절반 가까이가 AI를 쓴다. 그런데 기업들이 AI를 쓰는 가장 큰 이유가 뭘까? 기업들이 AI를 쓰는 가장 큰 이유는 '돈을 아끼기 위해서'다. 2024년만 해도 5순위였던 비용 절감이 2026년에는 1순위로 올라섰다(64%). "AI가 창의적인 광고를 만들 수 있다"는 응답은 오히려 64%에서 61%로 조금 줄었다. "소비자들 좋아할 거야"라는 기업들의 치명적 착각 광고 업계 임원 82%는 "젊은 소비자들이 AI 광고를 좋아할 것"이라고 생각했다. 하지만 실제로 AI 광고를 좋아한다고 답한 소비자는 절반도 안 되는 45%였다. 기업이 생각하는 것과 실제 소비자 반응 사이에 37%포인트나 차이가 났다. 이 격차는 2024년 32%포인트에서 더 벌어진 것이다. 더 심각한 건 소비자들이 AI 광고에 대해 점점 더 부정적으로 변하고 있다는 점이다. 2024년에 비해 "AI 광고 싫다"고 답한 사람이 12%포인트나 늘었다. 반대로 "잘 모르겠다"는 애매한 답은 34%에서 25%로 줄었다. 즉, 소비자들이 AI 광고를 더 많이 접하면서 "역시 별로네"라는 결론을 내리고 있는 셈이다. 기업들은 AI를 쓰는 브랜드를 '미래지향적'이라고 생각하지만, 소비자 중에서 그렇게 생각하는 사람은 절반도 안 된다. '독특하다'는 평가도 비슷하다. 반대로 부정적인 평가는 소비자 쪽이 훨씬 가혹하다. 소비자들은 AI 광고를 보면서 "사람을 속이려 한다"거나 "윤리적이지 않다"는 느낌을 받는 경우가 많았다. 기업이 생각하는 것보다 두 배 이상 높은 비율이다. 챗GPT는 쓰면서 AI 광고는 싫다는 Z세대 특히 Z세대의 반응이 차가웠다. 10명 중 4명이 AI 광고를 싫어한다고 답했는데, 이는 30대 이상 밀레니엄 세대의 두 배에 달하는 수치다. 불과 2024년만 해도 Z세대 중 부정적인 사람이 5명 중 1명 정도였는데, 지금은 거의 두 배로 늘었다. AI를 광고에 사용하는 브랜드에 대해 Z세대의 30%가 '진정성 없다'고 평가했는데, 이는 밀레니엄 세대의 13%에 비해 두 배 이상이다. '단절된'이라는 응답은 Z세대 26% 대 밀레니엄 8%, '비윤리적'이라는 응답은 Z세대 24% 대 밀레니엄 8%로 나타났다. 흥미로운 건 Z세대가 평소에는 챗GPT 같은 AI 도구를 가장 많이 쓰는 세대라는 점이다. 숙제할 때도, 친구와 채팅할 때도, 이미지 만들 때도, AI를 자연스럽게 쓴다. 하지만 기업이 AI를 쓰는 건 전혀 다른 문제로 본다. 자신이 쓸 때는 좋지만, 기업이 쓰는 건 거부감이 든다는 이중적 태도다. 기업들이 이런 소비자 반응에 둔감해진 것도 문제다. 요즘 기업들은 "AI가 사람의 창의성을 떨어뜨리는가", "AI 도입 비용이 얼마나 드는가", "우리 브랜드 이미지는 괜찮은가" 같은 내부 문제에만 골몰한다. 정작 "소비자들이 어떻게 생각하는가"는 우선순위에서 밀렸다. "AI로 만들었어요" 솔직히 말하니 오히려 더 좋아해 의외의 반전은 AI 사용을 솔직하게 밝히면 소비자 반응이 나쁘지 않다는 점이다. 젊은 소비자의 73%는 "이 광고는 AI로 만들었습니다"라고 표시되어 있으면 구매 의향이 높아지거나(36%) 상관없다(37%)고 답했다. 구매를 꺼리게 된다는 응답은 27%에 그쳤다. 소비자들은 "AI로 만들었다는 표시"가 광고에서 고품질 이미지, 재미있는 내용 다음으로 중요한 관심 요소라고 답했다. 쉽게 말해 숨기지 말고 당당하게 밝히는 게 오히려 소비자의 눈길을 끌 수 있다는 얘기다. 하지만 실제로는 절반도 안 되는 기업들만 항상 AI 사용을 밝힌다. AI로 광고를 만드는 기업 10곳 중 9곳은 '가끔' 표시한다고 답했지만, '항상' 표시하는 기업은 절반도 안 됐다. 2024년도와 비교해도 거의 개선되지 않았다. 한 광고 전문가는 "기업들이 AI 사용을 숨기려 하면 소비자는 더 의심한다"며 "오히려 솔직하게 밝히는 게 장기적으로 신뢰를 쌓는 방법"이라고 조언했다. 약 광고, 정치 광고는 무조건 밝혀라 소비자의 절반 이상이 특정 AI 기술의 공개를 원하고 있다. 광고가 100% AI 생성인 경우, AI 이미지를 사용하는 경우, AI 비디오를 사용하는 경우 공개를 원한다는 응답이 각각 50% 이상이었다. AI 음성이나 AI 아바타/가상 캐릭터의 경우도 거의 절반이 공개를 원했다. 특히 소비자들은 광고주들보다 이러한 기술의 공개를 더 많이 원하는 경향이 있었는데, 특히 AI 비디오와 AI 카피에서 그 차이가 컸다. 흥미롭게도 35%의 소비자는 디지털로 조정된 이미지나 비디오도 공개되어야 한다고 생각했고, 31%는 조작된 사진 촬영 기법도, 23%는 돈을 주고 구매한 스톡 사진 사용도 공개되어야 한다고 답했다. 소비자들은 제약/헬스케어 광고나 정치 광고에서 AI 사용을 공개하는 것이 매우 중요하다고 여기는 경향이 가장 높았다(각각 60% 이상). 광고주들도 이들 카테고리를 높은 중요도로 평가했다. 이들 카테고리는 금융 서비스와 함께 이미 가장 엄격하게 규제되는 분야이며, 일부 광고주들은 사전에 자발적으로 공개를 선택하고 있다. 반면 엔터테인먼트(영화, TV 프로그램, 음악) 광고는 중요도가 가장 낮았지만, 여전히 과반수의 소비자와 광고주가 투명성을 선호했다(소비자 53%, 광고주 54%). 비용 절감만 생각하다 소비자 신뢰 잃는다 전문가들은 기업을 위한 세 가지를 조언했다. 첫째, Z세대의 태도를 제대로 이해하라는 것이다. 이들은 평소 AI를 많이 쓰지만 기업의 AI 마케팅에는 유독 엄격하다. Z세대를 타겟으로 하는 광고는 더욱 신중하게 접근해야 한다. 둘째, AI를 비용 절감용이 아니라 품질 향상용으로 써야 한다. 돈을 아끼기 위해 광고 품질이 떨어지면 소비자가 금방 알아챈다. 소비자 4명 중 1명은 아직 AI 광고에 대해 확실한 의견이 없는 상태다. 지금이 이들의 마음을 얻을 수 있는 골든타임이다. 하지만 저품질 AI 광고를 계속 보여주면 이들마저 부정적으로 돌아설 수 있다. 셋째, 특히 영상이나 이미지에 AI를 쓸 때는 반드시 표시하라는 것이다. 투명성이 장기적으로 브랜드 신뢰를 지킨다. 소비자가 헷갈릴 수 있는 상황이라면 무조건 밝히는 게 맞다. 한 업계 관계자는 "기업들이 AI를 단기적 비용 절감 도구로만 보는 순간, 소비자와의 신뢰는 무너진다"며 "AI 시대에는 오히려 투명성과 진정성이 더 중요해졌다"고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 광고가 늘어나는데 왜 젊은 사람들은 싫어하나요? A. 젊은 소비자들은 기업이 AI를 '비용 절감'과 '빠른 대량 생산' 수단으로만 쓴다고 봅니다. 실제로 기업들이 꼽은 AI의 가장 큰 장점이 2년 만에 '창의적 혁신'에서 '비용 효율성'으로 바뀌었습니다. 소비자 입장에서는 "우리한테 신경 쓰기보다 돈만 아끼려 한다"고 느끼는 거죠. 특히 Z세대는 본인들은 AI를 많이 쓰면서도 기업의 AI 사용에는 더 까다로운 이중적 태도를 보입니다. Q2. AI로 광고 만들었다고 솔직히 말하면 매출에 손해 아닌가요? A. 오히려 반대입니다. 젊은 소비자 10명 중 7명은 "AI로 만든 광고"라고 표시되어 있어도 구매 의향이 높아지거나 상관없다고 답했습니다. 또 "AI 사용 표시"가 고품질 이미지, 재미있는 내용 다음으로 소비자의 관심을 끄는 요소로 꼽혔습니다. 숨기지 말고 당당하게 밝히는 게 장기적으로 신뢰를 쌓는 길입니다. Q3. 어떤 경우에 꼭 "AI로 만들었다"고 표시해야 하나요? A. 소비자 절반 이상이 이런 경우 반드시 표시하길 원합니다. 광고 전체가 AI로 만들어진 경우, AI로 영상을 만든 경우, AI로 이미지를 만든 경우입니다. AI 목소리나 가상 인물을 쓸 때도 거의 절반이 표시를 원했습니다. 특히 의약품, 건강, 정치, 금융 관련 광고는 소비자와 기업 모두 절반 이상이 "꼭 밝혀야 한다"고 답했습니다. 간단히 말해 소비자가 "이게 진짜야, 가짜야?" 헷갈릴 수 있으면 표시하는 게 맞습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.19 15:09AI 에디터 기자

생각만으로 챗GPT 쓰는 날 올까… 오픈AI, 뇌와 AI 연결하는 '머지 랩스'에 투자

오픈AI가 뇌-컴퓨터 인터페이스(BCI, Brain Computer Interface) 스타트업인 머지 랩스(Merge Labs)의 시드 라운드에 투자자로 참여한다고 15일(현지 시각) 발표했다. 오픈AI는 "인터페이스의 진보는 컴퓨팅의 진보를 가능하게 한다"며 "사람들이 의도를 표현하는 더 직접적인 방법을 얻을 때마다 기술은 더 강력하고 유용해진다"고 투자 배경을 설명했다. 머지 랩스는 생물학적 지능과 인공지능을 연결해 인간의 능력, 주체성, 경험을 극대화하는 것을 장기 목표로 하는 연구소다. 이 회사는 생물학, 디바이스, AI를 결합해 안전하면서도 훨씬 높은 대역폭으로 뇌와 인터페이스하는 근본적으로 새로운 BCI 접근 방식을 개발하고 있다. 오픈AI에 따르면 AI는 머지 랩스의 접근 방식에서 핵심적인 역할을 한다. AI는 생명공학(bioengineering), 신경과학, 디바이스 엔지니어링을 포함한 연구 개발을 가속화할 것이다. 또한 고대역폭 인터페이스는 의도를 해석하고 개인에게 적응하며 제한적이고 노이즈가 많은 신호로도 안정적으로 작동할 수 있는 AI 운영 체제의 혜택을 받게 된다. 오픈AI는 "과학 기반 모델과 기타 최첨단 도구로 머지 랩스와 협력해 발전을 가속화할 것"이라고 밝혔다. 이어 "야심 찬 아이디어를 현실로, 궁극적으로는 사람들에게 유용한 제품으로 만들어가는 머지 랩스를 지원하고 협력하게 돼 기쁘다"고 덧붙였다. 머지 랩스의 공동 창업자에는 BCI에 대한 완전히 새로운 접근 방식을 개척한 연구자인 미카엘 샤피로(Mikhail Shapiro), 타이슨 아플랄로(Tyson Aflalo), 섬너 노먼(Sumner Norman)이 포함됐다. 이들은 기술 기업가인 알렉스 블라니아(Alex Blania), 산드로 헤르비그(Sandro Herbig), 그리고 개인 자격으로 참여한 샘 알트만(Sam Altman)과 함께 팀을 구성했다. 오픈AI는 BCI를 "중요한 새로운 영역"이라고 평가하며 "새로운 소통, 학습, 기술과의 상호작용 방식을 열어준다"고 강조했다. 또한 "BCI는 누구나 AI와 원활하게 상호작용할 수 있는 자연스럽고 인간 중심적인 방법을 만들 것"이라고 전망했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.16 15:26AI 에디터 기자

전 구글 X 임원, 충격 경고…"AI, 도구 아니라 인간의 주인 될 것"

전 구글X(Google X) 최고 비즈니스 책임자 모 가댓(Mo Gawdat)이 인공지능의 급속한 발전에 대해 강력한 경고를 보냈다. 그는 런던리얼(London Real)과의 인터뷰에서 "AI는 도구가 아니다. 현재는 유아 단계지만, 결국 인간의 주인이 될 것"이라고 단언했다. IBM, 마이크로소프트, 구글 등 글로벌 기술 기업에서 30년간 근무한 가댓은 "만약 지금 상황을 보지 못한다면 주의를 기울이지 않는 것"이라며 "우리는 이미 미니 디스토피아에 진입했다"고 주장했다. 가댓에 따르면 AI 능력은 5.7개월마다 두 배로 성장하고 있다. 이는 24개월마다 두 배로 증가하는 무어의 법칙(Moore's Law)과 비교해 충격적으로 빠른 속도다. 그는 "인텔(Intel) 4004 칩이 출시된 1970년대 초반부터 현재까지 처리 능력은 약 1,000억 배 증가했다"며 "AI는 이보다 훨씬 빠르게 발전하고 있고, AI가 더 나은 AI를 만드는 이중 지수 성장 단계에 있다"고 설명했다. 그는 풍부한 지능 자체에는 문제가 없다고 강조했다. "지능은 극성이 없는 힘이다. 좋은 곳에 사용하면 놀라운 결과를 얻지만, 나쁜 곳에 사용하면 순수한 악이 된다"는 것이다. 문제는 AI 기술이 희소성 기반의 자본주의 시스템과 정치적 이해관계에 의해 악용될 수 있다는 점이다. 가댓은 특히 미국과 중국 간의 AI 경쟁을 강하게 비판했다. 그는 "미국은 여전히 패권을 유지하려는 '약자 괴롭힘' 태도를 보이고 있다"며 "이는 전 세계가 대가를 치르는 냉전"이라고 지적했다. 오픈AI가 5,000억 달러 규모의 스타게이트 프로젝트를 발표한 지 일주일 만에 중국의 딥시크 R3가 3,000만 달러로 유사한 성과를 냈다는 사실을 언급하며, "우리가 왜 경쟁하는가"라고 반문했다. 가댓은 "우리가 직면한 진짜 문제는 풍부한 지능이 아니라 인간의 어리석음"이라며 "사람들이 잠에서 깨어나길 바란다. 겁을 주려는 게 아니라 깨어나길 바란다"고 말했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.15 16:37AI 에디터 기자

구글, CT·MRI 읽는 AI 의사 공개…"의사 말 받아쓰기 오류 82% 줄였다"

구글이 3차원 의료 영상을 해석할 수 있는 인공지능 모델을 공개했다. 구글 리서치는 13일(현지 시각) 의료 인공지능 모델 '메드젬마 1.5(MedGemma 1.5)'와 의료 전문 음성인식 모델 '메드ASR(MedASR)'을 발표했다. 이번 모델의 가장 큰 특징은 컴퓨터 단층촬영(CT)과 자기공명영상(MRI) 같은 3차원 의료 영상을 분석할 수 있다는 점이다. 기존 모델이 평면 엑스레이 사진만 볼 수 있었다면, 이제는 여러 장의 단층 촬영 이미지를 종합해 입체적으로 판독할 수 있게 됐다. 내부 테스트 결과, 메드젬마 1.5는 컴퓨터 단층촬영 영상에서 질병을 찾아내는 정확도가 이전 버전보다 3% 높아졌고, 자기공명영상 분석은 14% 더 정확해졌다. 조직 슬라이드를 분석하는 능력도 크게 개선돼 해당 분야 전문 모델과 비슷한 수준에 도달했다. 흉부 엑스레이에서 병변이 어디에 있는지 찾아내는 정확도는 3%에서 38%로 크게 향상됐다. 과거 엑스레이 사진과 비교해 병의 진행 상태를 파악하는 정확도도 61%에서 66%로 높아졌다. 의료 검사 보고서에서 필요한 정보를 추출하는 능력은 60%에서 78%로 개선됐다. 의학 지식 문답 테스트에서도 정확도가 64%에서 69%로 올랐고, 전자의무기록 관련 질문에 답하는 능력은 68%에서 90%로 대폭 향상됐다. 함께 공개된 메드ASR은 의사가 진료할 때 하는 말을 글로 바꿔주는 모델이다. 일반 음성인식 프로그램과 비교하면 흉부 엑스레이 소견 받아쓰기에서 오류가 58% 줄었고, 여러 진료과 의사들의 받아쓰기를 테스트한 결과 오류율이 82% 감소했다. 실제로 말레이시아 의료기술 스타트업 큐메드 아시아(Qmed Asia)는 메드젬마를 활용해 150개 이상의 임상진료지침을 검색할 수 있는 대화형 인공지능을 만들었다. 대만 국민건강보험청은 이 모델로 3만 건의 병리 보고서를 분석해 폐암 수술 전 환자 상태를 평가하는 데 활용하고 있다. 구글은 두 모델을 연구 및 상업 목적으로 무료 공개했다. 다만 "임상 진단이나 치료 결정에 바로 사용할 수 없으며, 개발자가 자신의 사례에 맞게 검증하고 조정해야 한다"고 강조했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 21:37AI 에디터 기자

나이·직업·취미 알려줬을 뿐인데…AI가 만든 2년 치 카드 내역 봤더니

금융회사들이 가진 고객 거래 정보는 AI 연구에 매우 유용하지만, 개인정보 보호 규정 때문에 공개할 수 없다. 이 문제를 해결하기 위해 미국 금융회사 캐피털원과 메릴랜드대학교 연구팀이 대규모 언어모델을 활용해 실제 고객 정보를 전혀 사용하지 않고도 진짜 같은 가짜 신용카드 거래 데이터를 만들어냈다. 이들이 공개한 데이터는 무려 3천만 건에 달하며, 23,000명의 가상 인물이 평균 2년간 사용한 신용카드 내역을 담고 있다. 나이·직업·취미 입력하면 AI가 그 사람의 소비 패턴 예측 연구팀이 개발한 '퍼스널레저'라는 시스템은 AI의 창의성과 컴퓨터 프로그램의 정확성을 합친 것이다. 이 시스템이 작동하는 방식은 이렇다. 먼저 가상의 사람에 대한 상세한 프로필을 만든다. 나이, 직업, 교육 수준, 취미, 자동차를 가지고 있는지 등 20가지 정보를 설정한다. 그러면 라마(Llama) 3.3 70B라는 대규모 언어모델이 "이런 사람이라면 언제 어디서 무엇을 살까?"를 예측해서 거래 내역을 만들어낸다. 예를 들어 72세의 은퇴한 제조업 관리자 조나단이라는 가상 인물이 있다. 조나단은 골프를 즐기고 역사에 관심이 많다는 설정이다. 라마 모델은 이런 특성을 고려해서 조나단이 골프장 회원권 비용을 결제하고, 역사 방송 채널 구독료를 내고, 목공 잡지를 구독하는 등의 거래 내역을 자동으로 생성한다. 연구팀은 이런 방식으로 23,000명의 가상 인물에 대해 각각 2년치 신용카드 사용 내역을 만들었고, 전체 거래 건수는 3천만 건이 되었다. AI 혼자 맡기면 계산 실수 투성이... 감시 프로그램 붙여 해결 AI만으로 거래 내역을 만들면 큰 문제가 생긴다. 며칠만 지나도 회계 계산이 엉망이 되기 때문이다. 연구팀이 라마 3.3 70B 모델만 사용해서 거래 내역을 만들었을 때 이런 문제들이 발생했다. 식료품을 비현실적으로 자주 사거나, 넷플릭스 같은 구독 서비스가 다음 달에 자동으로 결제되지 않거나, 잔액 계산이 틀려서 카드값을 너무 많이 내는 일이 벌어졌다. 특히 거래 내역이 길어질수록 이런 오류가 쌓여서 실제 사람의 거래와는 전혀 다른 결과가 나왔다. 이 문제를 해결하기 위해 연구팀은 매번 거래가 생성될 때마다 검사하는 감시 프로그램을 추가했다. 이 프로그램은 몇 가지 중요한 규칙을 체크한다. 들어온 돈과 나간 돈의 합이 맞는지, 신용카드 한도를 넘지 않았는지, 카드값을 기한 내에 냈는지, 구독 서비스가 매달 자동으로 갱신되는지 등을 확인한다. 라마 모델이 거래를 제안하면 프로그램이 이를 검토하고, 규칙에 어긋나면 "이 부분이 잘못됐으니 이렇게 고쳐라"라고 구체적으로 알려준다. 모델이 다시 수정안을 내면 프로그램이 재검토하는 식이다. 이렇게 해서 AI의 다양한 아이디어와 프로그램의 정확한 계산을 동시에 얻을 수 있었다. "학력 높고 차 있으면 더 쓴다"... 실제 소비 패턴 그대로 재현 생성된 가짜 거래 데이터를 분석해보니 실제 사람들의 소비 패턴과 놀랍도록 비슷했다. 교육을 많이 받은 사람일수록 한 달에 돈을 더 많이 썼고, 자동차를 가진 사람이 없는 사람보다 지출이 많았다. 나이별로는 중년에 지출이 가장 많고 나이가 들수록 줄어드는 패턴을 보였는데, 이는 실제 통계와 일치한다. 또 소비 성향을 5단계로 나눴을 때 절약형에서 소비형으로 갈수록 지출이 단계적으로 증가하는 모습도 확인됐다. 시간에 따른 소비 패턴도 현실적이었다. 12월에 다른 달보다 조금 더 많이 쓰는 것으로 나타났고, 금요일과 토요일에 평일보다 지출이 많았다. 재미있는 점은 공휴일과 평일의 평균 지출액은 비슷한데, 공휴일에는 사람마다 차이가 훨씬 컸다는 것이다. 집에서 쉬는 공휴일도 있고 쇼핑을 많이 하는 공휴일도 있기 때문이다. 돈이 부족한 사용자의 경우 신용카드 사용률이 시간에 따라 급격하게 오르락내리락하는 불안정한 패턴을 보였는데, 이것도 실제 현상을 잘 반영한 것이다. AI가 사기 거래 찾기... '도용 거래 분별'은 최고 성능 모델도 100점 만점에 47.6점 연구팀은 만든 데이터가 실제로 쓸모있는지 확인하기 위해 두 가지 테스트를 준비했다. 첫 번째는 "이 사람이 곧 돈이 부족해질까?"를 예측하는 것이다. 거래 내역을 보고 앞으로 신용카드 빚이 가진 현금보다 많아질지 맞춰야 한다. 두 번째는 신용카드 도용을 찾아내는 것이다. 정상적인 거래 사이에 다른 사람의 하루치 거래를 몰래 섞어 넣고, 어느 거래가 이상한지 찾아내야 한다. 연구팀은 연습용 데이터 150,000개와 시험용 데이터 36,000개를 준비했다. 최신 AI 모델 15개로 테스트한 결과, 돈 부족 예측 과제에서는 대부분의 모델이 무작위로 찍는 것보다 훨씬 좋은 성능을 보였다. 가장 성적이 좋았던 '피라포머'라는 모델은 평가 지표에서 0.828점을 기록했고, 우리가 잘 아는 '트랜스포머' 모델도 0.817점으로 좋은 결과를 냈다(무작위는 0.5점). 하지만 신용카드 도용을 찾아내는 과제는 훨씬 어려웠다. 가장 좋은 트랜스포머 모델도 100점 만점에 47.6점에 그쳤다. 일반적인 거래와 도용 거래를 구분하기가 어렵기 때문이다. 식료품을 사거나 주유하는 것처럼 누구나 하는 거래는 정상인지 도용인지 판단하기 힘들다. AI 발전해도 계속 쓸 수 있다 이 시스템의 큰 장점은 계속 발전시킬 수 있다는 점이다. 연구팀 설명에 따르면 과거 거래 내역을 얼마나 보여주느냐만 조절해도 문제 난이도를 바꿀 수 있다. 돈 부족 예측의 경우, 3개월치 거래를 보여주면 그 사람의 패턴을 파악하기 쉬워서 쉬운 문제가 되고, 1개월치만 보여주면 정보가 부족해 어려워진다. 반대로 도용 탐지는 거래 내역이 길수록 정상 패턴이 명확해져서 그 안에 숨어 있는 하루치 이상 거래를 찾기가 더 어려워진다. 더 중요한 것은 감시 프로그램의 규칙을 바꿔서 새로운 상황을 만들 수 있다는 점이다. 신용카드 한도를 더 낮게 설정하거나, 월급 들어오는 주기를 바꾸거나, 새로운 구독 서비스를 추가할 수 있다. 경제 위기로 물가가 오르거나 실업이 생기는 상황도 반영할 수 있다. 명절 효과를 더 강하게 만드는 것도 가능하다. 이런 변경을 해도 회계 규칙은 프로그램이 자동으로 지켜주기 때문에 데이터의 정확성은 유지된다. 연구팀은 이 덕분에 AI 모델이 아무리 발전해도 계속 새로운 도전 과제를 제공할 수 있다고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 실제 고객 정보 없이 어떻게 진짜 같은 거래 내역을 만들 수 있나요? A: 대규모 언어모델은 이미 세상에 대해 많은 것을 알고 있습니다. 어떤 직업을 가진 사람이 언제 어디서 무엇을 사는지, 계절이나 명절에 따라 소비가 어떻게 달라지는지 등의 일반적인 지식을 학습했기 때문입니다. 여기에 나이, 직업, 취미 같은 가상 인물의 상세 정보를 입력하면, 라마 3.3 70B 같은 모델은 "이런 사람이라면 이렇게 소비할 것"이라고 추론해서 거래 내역을 만들어냅니다. 실제 고객 데이터가 없어도 사람들의 일반적인 소비 방식을 재현할 수 있는 이유입니다. Q2. 기존의 가짜 데이터 생성 방법과 무엇이 다른가요? A: 기존 방법들은 실제 데이터의 패턴을 학습해서 비슷한 데이터를 만들어냅니다. 하지만 이 방법들은 잔액 계산, 카드값 납부 기한, 구독 서비스 갱신 같은 금융의 엄격한 규칙을 자주 어기고, 무엇보다 학습에 실제 고객 데이터가 필요해서 공개할 수 없습니다. 퍼스널레저는 대규모 언어모델로 다양한 거래를 만들되, 모든 거래를 감시 프로그램이 검사해서 회계 규칙 위반을 원천 차단합니다. 실제 고객 데이터 없이도 규칙을 지키는 데이터를 만들 수 있습니다. Q3. 이 가짜 거래 데이터는 어디에 쓰이나요? A: 신용카드 사기를 찾아내거나, 신용 위험을 예측하거나, 고객 행동을 예측하는 AI 모델을 개발하고 테스트하는 데 쓰입니다. 특히 실제 고객 데이터를 구하기 어려운 대학이나 작은 회사에 유용합니다. 연구팀이 제공한 두 가지 테스트(돈 부족 예측, 도용 탐지)를 통해 여러 AI 모델의 성능을 공정하게 비교할 수 있습니다. 또한 규칙을 바꿔서 다양한 경제 상황을 시뮬레이션하는 연구에도 활용할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 20:35AI 에디터 기자

KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝"

KAIST 연구팀이 병원 진료 기록만으로 치매를 예측하는 인공지능 'Dementia-R1'을 개발했다. 해당 연구 논문에 따르면, 이 AI는 70억 개의 파라미터를 가진 소형 모델이지만 GPT-4o에 필적하는 성능을 보였다. 무엇보다 의사가 손으로 쓴 듯한 정리되지 않은 진료 기록에서도 수개월에서 수년 뒤 치매 발병 여부를 정확히 예측할 수 있어, 실제 병원에서 바로 사용 가능하다는 평가를 받고 있다. 병원 기록의 80%는 '정리 안 된 메모'... AI가 읽기 어려웠다 병원의 전자 기록 중 약 80%는 의사가 작성한 진료 메모나 검사 소견처럼 정리되지 않은 글이다. 치매는 몇 달에서 몇 년에 걸쳐 천천히 나타나는 병이라 여러 번의 진료 기록을 종합해야 진단할 수 있다. 하지만 기존 AI들은 특정 시점의 정보만 보도록 학습돼 있어서, 시간이 지나면서 증상이 어떻게 변하는지 제대로 파악하지 못했다. 연구팀은 이 문제를 해결하기 위해 AI가 스스로 패턴을 찾아내는 '강화학습'이라는 방식을 사용했다. Dementia-R1은 환자의 과거 진료 기록을 시간 순서대로 분석해서 인지 기능이 계속 떨어지는지, 잠깐 좋아지는지까지 파악한다. 치매는 증상이 일정하게 나빠지지 않고 때로는 좋아지는 것처럼 보이다가 다시 악화되기도 해서, 전체적인 흐름을 봐야 한다. 기존 방식으로는 이런 복잡한 판단 과정을 AI에게 가르치기 어려웠지만, 강화학습은 AI가 최종 진단을 내리기 전에 중간 단계들을 스스로 배울 수 있게 해준다. '단계별 학습'으로 AI 혼란 해결... 먼저 점수 맞히기부터 AI를 치매 진단 같은 '있다/없다' 판정에 바로 적용하면 학습이 불안정해지는 문제가 있다. 정답 신호가 너무 단순해서 AI가 무엇을 배워야 할지 헷갈리기 때문이다. 연구팀은 이를 해결하기 위해 2단계 학습 전략을 썼다. 1단계에서는 AI가 먼저 검증 가능한 인지 검사 점수들을 맞히도록 훈련시키고, 2단계에서 최종 치매 진단 과제로 넘어가는 방식이다. 구체적으로 1단계에서는 MMSE(간이 정신 검사, 0-30점), GDS(치매 심각도 척도, 1-7점), CDR(치매 평가 척도, 0-3점) 같은 표준화된 검사 점수를 예측 목표로 삼았다. 연구팀은 보조 AI를 활용해 정리되지 않은 진료 기록에서 이 점수들을 뽑아내고, 이를 정답으로 삼아 모델을 학습시켰다. MMSE는 30점 만점이므로 ±2점 차이는 정답으로 인정하고, GDS와 CDR은 점수 단위가 더 크므로 정확히 맞춰야 했다. 이런 중간 점수 맞히기 과제를 통해 AI는 병이 어떻게 진행되는지 추론하는 능력을 자연스럽게 배우게 된다. 2단계에서는 학습된 모델을 치매 여부를 판단하는 최종 진단에 적용한다. 이때는 맞음/틀림이라는 단순한 신호만 주어지지만, 1단계에서 이미 시간에 따른 증상 변화를 읽는 법을 배웠기 때문에 안정적으로 학습된다. 연구팀은 GRPO라는 효율적인 학습 알고리즘을 사용했다. 아산병원 3천 명 데이터로 검증... 정확도 77% 달성 연구팀은 Dementia-R1의 성능을 검증하기 위해 아산병원의 실제 진료 기록과 알츠하이머병 연구 데이터베이스(ADNI)에서 실험했다. 아산병원 데이터는 2021년 1월부터 2023년 9월까지 신경인지장애로 진단받은 약 3,000명 환자의 전자의무기록으로 구성됐다. 개인 정보는 모두 삭제했으며, 의사가 작성한 진료 메모에서 주요 검사 점수들을 추출했다. 아산병원 데이터에서 Dementia-R1은 정확도 77.03%를 기록하며 가장 높은 성능을 보였다. 이는 1단계 학습 없이 바로 훈련한 모델(76.57%)과 일반적인 방식(75.85%)을 모두 앞질렀다. 특히 중간 점수 예측에서도 평균 정확도 59.61%를 달성해, 파라미터 수가 4배 이상 많은 Qwen2.5-32B(57.9%)보다 높았다. 특히 신경과 전문의들이 병의 단계를 정밀하게 평가하는 데 쓰는 GDS와 CDR에서 우수한 성능을 보였다. ADNI 데이터베이스는 표 형식으로 정리된 구조화 데이터라서 연구팀은 이를 시간순 문장으로 변환해 적용했다. 여기서도 Dementia-R1은 정확도 74.91%를 기록하며 GPT-4o(76.05%)에 근접한 성능을 보였다. 특히 18-24개월 이상의 장기 예측에서는 GPT-4o(78.78%)를 앞선 80.30%를 기록해, 오랜 기간에 걸친 병 진행 예측에 강점을 보였다. 2년 뒤까지 예측 가능... 장기 예측에서도 안정적 연구팀은 마지막 진료 기록과 진단 시점 사이의 시간 간격별로 성능도 분석했다. 아산병원 데이터에서 Dementia-R1은 12-18개월 구간에서 정확도 79.28%로 최고를 기록했으며, 이는 SFT → GRPO 방식(78.00%)과 Qwen2.5-32B(74.38%)를 모두 앞섰다. ADNI 데이터에서는 18-24개월 구간에서 80.30%로 GPT-4o(78.78%)를 앞질렀고, 24개월 이상 장기 예측에서도 73.11%로 GPT-4o(71.18%)보다 높았다. 흥미롭게도 ADNI 데이터는 아산병원보다 훨씬 긴 추적 기간을 가지고 있어, 테스트 데이터의 약 절반이 24개월 이상, 일부는 36개월 이상의 간격을 보였다. 이는 경도인지장애 진행을 장기간 지켜본 특성 때문이다. 연구팀은 검증 가능한 검사 점수로 학습시킨 모델이 장기 예측에서도 안정적인 능력을 유지한다고 분석했다. 학습 과정 분석에서도 1단계를 거친 모델이 바로 학습한 모델보다 더 빨리 배우고 더 안정적이었다. 한계와 과제... 여러 병원 데이터로 검증 필요 연구팀은 몇 가지 한계점도 밝혔다. 우선 정리되지 않은 진료 기록 데이터가 아산병원 한 곳에서만 나왔기 때문에 다른 병원이나 환자 집단에서도 잘 작동하는지 추가 검증이 필요하다. 또한 한국어 진료 기록을 영어로 번역하는 과정에서 인지 기능 저하를 평가하는 데 중요한 미묘한 표현이나 문법 오류가 사라질 수 있다. 앞으로는 원어 텍스트에 직접 적용하는 연구가 필요하다. 또한 이 시스템의 성능이 보조 AI의 성능에 달려 있다는 점도 한계다. 연구팀은 Qwen2.5 시리즈를 사용해 진료 기록 번역과 검사 점수 추출을 했는데, 추출된 점수를 학습에 사용하기 때문에 추출 오류가 있으면 AI 학습에 방해가 될 수 있다. 마지막으로 이 방법은 MMSE 같은 숫자로 측정 가능한 검사에 의존하기 때문에, 표준화된 수치 기록이 없는 질병으로 바로 확장하기는 어렵다. 주관적이거나 질적인 지표만 있는 질병으로 확장하는 것은 앞으로의 과제다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. Dementia-R1은 실제 병원에서 어떻게 쓰일 수 있나요? A: Dementia-R1은 의사가 쓴 일반적인 진료 기록만으로 앞으로 6개월에서 2년 이내 치매 발병 가능성을 예측할 수 있습니다. 별도로 데이터를 입력할 필요 없이 기존 전자의무기록을 그대로 사용할 수 있어, 조기 검사나 위험 환자 모니터링에 도움이 될 수 있습니다. 하지만 최종 진단은 반드시 전문의가 내려야 합니다. Q2. 작은 AI가 큰 AI만큼 잘하는 이유는 뭔가요? A: Dementia-R1은 모든 것을 할 수 있는 범용 AI가 아니라 치매 진단이라는 한 가지 일에 특화돼 있습니다. MMSE, GDS, CDR 같은 검사 점수를 먼저 예측하도록 학습하면서, 시간에 따라 인지 기능이 어떻게 변하는지 파악하는 능력을 집중적으로 키웠습니다. 이런 전문화가 작은 크기를 보완했습니다. Q3. 이 연구를 다른 질병 예측에도 쓸 수 있나요? A: 원칙적으로는 가능하지만, MMSE처럼 객관적으로 측정 가능한 중간 지표가 있는 질병에 적합합니다. 알츠하이머병처럼 오랜 기간에 걸쳐 천천히 진행되고, 진료 기록에 증상 변화가 남아있는 만성 질환이라면 비슷한 방법을 쓸 수 있습니다. 다만 질병마다 적절한 중간 지표를 정하고 추출하는 과정이 필요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.14 13:35AI 에디터 기자

AI로 공부하면 머리 나빠진다?...OECD가 밝힌 AI 교육의 명암

전 세계 교육 시스템이 AI 도입을 두고 기로에 서 있다. 경제협력개발기구(OECD)가 발표한 리포트에 따르면, AI는 개인 맞춤형 학습으로 교육 격차를 해소할 수 있다는 희망과 함께 학생들의 사고력을 퇴화시키고 프라이버시를 침해할 수 있다는 우려를 동시에 낳고 있다. 챗GPT 등장 후 교육계 변화... 사교육 시장에서 가장 빠르게 확산 2022년 챗GPT가 등장한 이후 전 세계 교육계는 급격한 변화를 겪고 있다. OECD 교수학습 국제조사(TALIS) 2024에 따르면, OECD 국가 교사의 37%가 지난 12개월간 AI를 교육에 활용했다고 답했다. AI 관련 연수 참여율은 OECD 평균 38%였으며, 싱가포르는 75%로 가장 높았고, 한국과 카자흐스탄, 아랍에미리트에서는 60% 이상의 교사가 AI 관련 연수를 받았다. 교사들은 AI를 주로 수업 주제 요약(68%)과 수업 계획 작성(64%)에 활용했다. 또한 25%는 학생 참여도나 성취도 데이터 검토에, 26%는 학생 과제 평가나 채점에 AI를 사용했다. 특히 52%의 교사가 AI가 특수 교육이 필요한 학생을 지원하는 데 도움이 된다고 답했다. 하지만 우려도 크다. OECD 평균으로 교사의 72%는 AI가 학생들의 표절을 조장할 수 있다고 답했고, 42%는 AI가 편향성을 증폭시킬 수 있다고 우려했다. 더 주목할 점은 학생들이 교실보다 집에서 AI를 더 많이 사용한다는 것이다. 스위스 조사에 따르면 초등학생의 8%, 중학생의 30%, 일반 고등학생의 50%가 교실에서 AI를 정기적으로 사용한 반면, 가정에서의 학습 관련 AI 사용률은 각각 9%, 33%, 54%로 더 높았다. 이는 AI 교육이 학교보다는 가정, 특히 사교육 시장에서 먼저 확산되고 있음을 시사한다. AI 튜터의 양면성: 학습 향상 vs 인지적 외주화 AI 튜터와 교육 보조 시스템의 효과에 대한 연구 결과는 엇갈린다. 터키에서 실시된 무작위 대조 실험(RCT)에서 839명의 중등학교 학생을 대상으로 한 수학 성적 연구는 흥미로운 결과를 보여주었다. 일반 챗GPT에 접근한 학생들은 대조군 대비 평균 48%의 성적 향상을 보였다. 더 놀라운 것은 교사의 입력과 모범 사례로 훈련된 특화 버전 챗GPT 튜터를 사용한 학생들이 127%의 성적 향상을 달성했다는 점이다. 그러나 사후 테스트(AI 도움 없이)에서 특화 버전 사용 학생과 대조군 간 성적 차이가 유의미하지 않았던 반면, 일반 챗GPT 사용 학생들의 성적은 17% 하락했다. 이는 적절한 안전장치 없는 AI 도구가 학생의 학습 성과를 저하시킬 수 있음을 시사한다. 미국 유타주에서 166,000명 이상의 학생을 대상으로 한 대규모 RCT는 5가지 적응형 AI 읽기 소프트웨어의 효과를 검증했다. 결과는 취학 전 아동의 읽기 점수에서 큰 긍정적 효과를 보였으며, 초등학생에게서도 중소 규모의 효과가 관찰됐다. 특히 영어 학습자, 저소득층, 특수교육 대상 학생 등 취약 계층이 가장 큰 혜택을 받았다. 그러나 대만에서 153명의 고등학생을 대상으로 한 프로그래밍 수업 RCT는 상반된 결과를 보여주었다. 챗GPT를 사용한 실험군 학생들은 전통적 강의식 교육을 받은 대조군에 비해 자기효능감과 학습 성취도가 낮았다. 이는 챗GPT가 프로그래밍 교육에서 최소한이거나 부정적인 영향을 미칠 수 있음을 시사한다. 수학 성별 격차, AI가 해법이 될 수 있을까 이탈리아는 PISA 2022에서 수학 성별 격차가 가장 큰 국가로 나타났다. 국가 평가 결과 이탈리아 여학생들은 이미 2학년 때부터 남학생에 비해 수학 성적이 낮았다. OECD 리포트는 AI가 이러한 격차 해소에 기여할 수 있는 여러 방안을 제시했다. AI 기반 멘토링 시스템은 여학생들을 관련성 있는 여성 STEM(Science, technology, engineering, and mathematics) 멘토와 연결해 롤모델을 제공할 수 있다. 미국의 초기 교실 실험에서는 저명한 여성 수학자와의 대화를 시뮬레이션하는 AI 기반 '롤모델 에이전트'가 평가자가 아닌 동반자로 제시될 때 여학생들의 수학에 대한 소속감을 높이는 것으로 나타났다. AI는 또한 성 고정관념이 배제된 개인 맞춤형 학습 환경을 제공할 수 있다. 교사의 무의식적 편향이 여학생의 수학 성취에 부정적 영향을 미칠 수 있는데, AI 튜터는 이러한 편향으로부터 자유로운 피드백과 지원을 제공할 수 있다. 하지만 주의해야 할 점은 AI 시스템 자체가 훈련 데이터에 내재된 편향을 반영할 수 있다는 것이다. 영어권 수학 교과서를 중심으로 훈련된 AI는 소수 집단 학생을 소외시키거나 참여를 저해하는 서사를 포함할 수 있다. 국가 AI 교육 전략의 핵심 원칙 다섯가지 OECD는 교육 시스템에 AI를 구현할 때 고려해야 할 몇 가지 핵심 원칙을 제시했다. 첫째, 의도성과 교육학적 정렬이다. AI는 목적이 아니라 수단이며, 그 배치는 명확히 표현된 교육 목표와 명시적으로 연결되어야 한다. 도구는 정책 입안자와 교육자가 육성하려는 지식, 기술 또는 성향, 성공을 판단할 지표, 필요한 보완적 인적 투입을 명시한 후 선택(또는 거부)되어야 한다. 둘째, 예방 원칙이다. 더 낮은 안전 위험을 가진 단순한 기술이 AI 도구와 비슷한 학습 목표를 달성할 수 있다면 그것을 선호해야 한다. 이는 완전한 정보에 입각한 동의를 할 수 없는 미성년자가 교육 현장에서 AI 도구의 사용자라는 점을 고려할 때 특히 중요하다. 단계적 도입은 예방의 실질적 표현이 될 수 있다. AI 튜터링은 핵심 과목에 통합되기 전에 선택적 보충 세션에 예약될 수 있고, 학교 환경에서 일일 사용 시간이 제한될 수 있으며, 라이선스 갱신 전에 독립적인 효과성 검토가 의무화될 수 있다. 셋째, 교육자의 감독이다. 개인화가 무조건적인 선이 아니다. 인간은 "인지적 구두쇠"로, 지름길이 나타날 때마다 기꺼이 노력을 외주화하는 경향이 있다. 그 결과 많은 이들이 프로그램이 이미 단순화한 작업을 해결할 수 있다는 잘못된 숙달감을 발달시킬 수 있다. 정책 입안자가 배치에 대한 강력한 감독을 구축하지 않으면, 이러한 안일함은 학생들이 훈련 매개변수를 벗어나는 상황에 직면할 때만 식별될 것이다. 넷째, 형평성 고려사항이다. AI 기반 개인화는 참여와 반응성을 향상시킬 수 있지만, 증거는 또한 디지털 도구와 유료 기능에 대한 불평등한 접근이 기존의 사회경제적 격차를 심화시킬 수 있음을 나타낸다. 인간의 중재는 AI 출력을 해석하고, 학습을 맥락화하며, 기술이 계층화가 아닌 포용적 목적을 달성하도록 보장하는 데 필수적이다. 다섯째, 데이터 보호와 거버넌스다. AI 튜터는 순간순간의 참여, 감정, 성과 신호를 포착할 때 가장 잘 작동하는데, 이는 정의상 개인적이고 민감한 데이터다. 미성년자의 경우 동의는 규제 프레임워크를 형식적으로 준수할 뿐만 아니라 의미가 있어야 한다. 기술을 불신하거나 자녀의 디지털 발자국을 최소화하기를 원하는 가족은 학업적 불이익이나 학습 옵션에 대한 접근 제한 없이 실행 가능한 거부권을 가져야 한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 튜터가 사교육을 대체할 수 있나요? A1. 조건부로 가능합니다. 터키 실험에서 교사 지도로 설계된 AI 튜터는 학생 성적을 127% 향상시켰지만, 일반 챗GPT는 오히려 17% 하락시켰습니다. 공교육에서 제대로 설계된 AI 튜터를 제공한다면 사교육 격차를 줄일 수 있지만, 상업용 AI 도구에 무분별하게 의존하면 위험합니다. Q2. AI 사용이 학생들의 사고력을 퇴화시킬 수 있나요? A2. 그렇습니다. AI에 과도하게 의존하면 스스로 사고하고 문제를 해결하는 능력이 약화되는 '인지적 외주화' 현상이 발생합니다. 대만 프로그래밍 실험에서 챗GPT 사용 학생들의 학습 성취도가 오히려 낮아진 것이 이를 증명합니다. AI는 기본 사고력을 갖춘 후 보조 도구로만 활용해야 합니다. Q3. AI 교육 도구 사용 시 학생 데이터는 안전한가요? A3. 현재로서는 우려가 큽니다. AI는 학생의 학습 패턴, 감정 상태 등 민감한 개인 정보를 실시간으로 수집합니다. EU는 AI법으로 교육을 "고위험" 영역으로 분류해 엄격히 규제하지만, 많은 국가에서 규제가 부족합니다. 학교의 AI 도입 시 강력한 데이터 보호 조치와 학부모의 거부권 보장이 필수입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.13 15:21AI 에디터 기자

AI 유머 취향 분석했더니... '긴 글'과 '은어' 좋아해

일본 개그 게임 '오오기리'에서 사용자들이 재미있는 답변에 투표한 기록을 분석한 결과, AI와 사람의 유머 취향이 뚜렷하게 갈렸다. 사람과 달리, AI는 지나치게 긴 답변이나 인터넷 은어가 들어간 답변을 좋아했다. 사용자를 7개 그룹으로 나눴더니 취향이 제각각 일본 IT 기업 CyberAgent(사이버에이전트)와 나라첨단과학기술대학 연구팀은 일본 오오기리 사이트에서 908개 질문과 14,389개 답변, 276명이 참여한 57,751개 투표를 수집했다. 오오기리는 사회자가 던진 질문에 재치있게 답하는 일본식 개그 게임이다. 연구팀은 각 사용자가 어떤 답변에 투표했는지 기록을 보고, 비슷한 취향을 가진 사람끼리 묶어 7개 그룹으로 분류했다. 그룹별로 선호하는 유머가 확연히 달랐다. '그룹 0'은 대화 형식이나 여러 문장으로 긴 답변, 괄호를 많이 쓴 답변을 좋아했지만, 자기 비하 개그와 황당한 넌센스 유머는 싫어했다. '그룹 1'은 정반대로 자기 비하 개그를 가장 좋아했고, 형용사로 끝나는 답변도 선호했다. 반면 답변 속에 고유명사를 언급하거나 과장 표현을 쓰는 것은 기피했다. '그룹 2'도 자기 비하를 좋아했고, 짧은 이야기 형식과 물음표로 끝나는 답변을 선호했다. 고유명사 언급과 말줄임표 마침, 과장 표현은 싫어했다. '그룹 3'은 괄호, 말줄임표로 끝나는 답변, 많은 공백 사용을 좋아했지만, 짧은 이야기 형식과 과장 표현은 싫어했다. '그룹 4'는 말줄임표로 마무리하는 답변과 자기 비하, 괄호 사용을 선호했으나, 인터넷 은어와 과장 표현을 강하게 기피했다. '그룹 5'는 인터넷 은어를 압도적으로 좋아했고, 과장 표현과 고유명사 언급도 선호했다. 반면 황당한 넌센스와 지나치게 긴 답변은 싫어했다. '그룹 6'은 황당한 넌센스와 고유명사 언급, 패러디를 좋아했지만, 말줄임표 마침을 매우 강하게 기피했고, 은어와 괄호도 싫어했다. 이처럼 사람들의 웃음 코드는 그룹마다 정반대였다. 자기 비하 개그는 그룹 1, 2, 4가 좋아한 반면 그룹 0은 가장 싫어했고, 인터넷 은어는 그룹 5가 가장 좋아했지만 그룹 4와 6은 강하게 기피했다. 11가지 유머 유형으로 분류... AI가 85% 정확도로 자동 분석 연구팀은 답변을 체계적으로 분석하기 위해 45개 언어 특징과 11개 유머 유형을 정의했다. 각 그룹이 정확히 어떤 유머를 좋아하는지 파악하기 위해 유머의 특징을 체계적으로 분류했다. 단순히 "재미있다/없다"가 아니라, "무엇 때문에 재미있는가"를 밝히기 위해 유머를 구성 요소로 쪼갰다. 연구팀은 글자 수, 문장 수, 특수문자 사용 등 객관적 특징 45가지와 함께, 말장난, 공감되는 경험, 과장, 블랙 유머와 풍자, 황당한 넌센스, 반전, 메타적 유머(개그 자체를 소재로 쓴 유머), 자기 비하, 의인화, 패러디, 짧은 이야기 등 11개 유머 유형을 정의했다. 14,389개 답변을 일일이 사람이 분류하기는 불가능해서, GPT-5.1에게 자동으로 11가지 유머 유형을 붙이는 작업을 맡겼다. 연구팀이 110개 샘플을 직접 검토해보니 85.5%가 정확했다. AI가 답변당 3번씩 시도한 뒤 다수결로 최종 판단하게 해서 정확도를 높였다. 이렇게 분류한 뒤, 각 그룹이 56개 특징(45개 언어 특징 + 11개 유머 유형) 중 어떤 것을 선호하는지 통계 분석을 진행했다. GPT·제미나이·클로드, 전체 사용자와는 취향 안 맞아 연구팀은 GPT-5.1, 제미나이 3 프로(Gemini 3 Pro), 클로드 소넷 4.5(Claude Sonnet 4.5) 등 3개 AI 모델에게도 같은 질문을 주고 가장 재미있는 답을 고르게 했다. AI들이 선택한 답변의 패턴을 분석해보니, 사람들과는 다른 취향이 드러났다. AI들은 모두 지나치게 긴 답변, 단어를 다양하게 쓴 답변, 인터넷 은어가 들어간 답변을 사람보다 훨씬 더 좋아했다. 반대로 적당한 길이의 답변이나 단어가 반복되는 답변은 사람보다 덜 좋아했다. 연구팀이 AI와 전체 사용자의 취향 일치도를 측정했더니, GPT-5.1은 -0.22, 제미나이 3 프로는 -0.36, 클로드 소넷 4.5는 -0.26으로 모두 마이너스 값이 나왔다. 음수는 취향이 맞지 않는다는 뜻이다. 하지만 특정 그룹하고는 취향이 맞았다. GPT-5.1과 클로드 소넷 4.5는 '그룹 0'과 각각 0.57, 0.52의 일치도를 보였다. 양수는 취향이 비슷하다는 의미다. 즉, AI는 모든 사람과 취향이 다른 게 아니라, 특정 유형의 사람들과는 웃음 코드가 통한다는 얘기다. AI에게 나이·성별 설정했더니 웃음 코드 바뀌어 연구팀은 AI에게 "당신은 20세 남성입니다", "당신은 45세 여성입니다" 같은 식으로 설정을 주고 다시 실험했다. 이를 '페르소나 프롬프팅'이라고 부른다. 20세 남성, 20세 여성, 45세 남성, 45세 여성, 65세 남성, 65세 여성 등 6가지 설정과 설정 없음을 비교했다. 제미나이 3 프로에서 효과가 가장 컸다. 설정이 없을 때 '그룹 0'과의 일치도는 0.39였는데, 45세 여성으로 설정하자 0.63으로 올라갔다. 20세 남성 설정은 '그룹 3'과의 일치도를 0.10에서 0.34로 높였다. 이는 AI에게 적절한 성격을 부여하면 특정 그룹의 취향에 맞출 수 있다는 뜻이다. 다만 모든 경우에 효과가 있는 건 아니었다. GPT-5.1의 경우 '그룹 1'과는 어떤 설정을 써도 일치도가 -0.09에서 0.03 사이에 머물렀다. 연구팀은 개인 맞춤형 유머 서비스를 만들려면 페르소나 설정만으로는 부족하고 추가적인 방법이 필요하다고 밝혔다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 사용자를 7개 그룹으로 나눈 기준은 무엇인가요? A. 각 사람이 어떤 답변에 투표했는지 기록을 모아서 비슷한 취향을 가진 사람끼리 묶었습니다. 통계 기법을 써서 자동으로 분류했으며, 최소 100번 이상 투표한 활성 사용자 276명만 분석 대상으로 삼았습니다. Q. 취향 일치도를 어떻게 숫자로 측정했나요? A. 각 유머 요소가 얼마나 선호되는지 점수를 매기는 통계 모델을 사용했습니다. 투표를 많이 받은 답변과 적게 받은 답변을 비교해서, 어떤 특징이 있는 답변이 인기있는지 계산했습니다. 그 결과를 그룹별, AI별로 비교해 일치도를 측정했습니다. Q. 이 연구 결과를 어디에 활용할 수 있나요? A. 사용자 개인의 취향에 맞춘 개그나 콘텐츠를 추천하는 시스템을 만들 수 있습니다. AI에게 특정 그룹의 취향을 학습시켜서, 그 그룹 사람들이 좋아할 만한 재미있는 답변을 자동으로 만들어내는 데 활용할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 23:01AI 에디터 기자

앤트로픽, 챗GPT 이어 건강 관리 AI 서비스 출시…의료 현장 AI 활용 본격화

앤트로픽(Anthropic)이 의료 분야 특화 AI 제품 '클로드 포 헬스케어(Claude for Healthcare)'를 12일(현지 시각) 공식 출시했다. 앤트로픽에 따르면 이번 제품은 HIPAA(미국 건강보험 양도 및 책임에 관한 법) 준수 환경을 갖춰 의료 제공자와 보험사, 소비자 모두 안전하게 의료 목적으로 클로드를 쓸 수 있다. 주요 기능은 메디케어·메디케이드 서비스 센터(CMS) 보장 데이터베이스와 국제질병분류(ICD-10), 국가 의료제공자 식별 레지스트리 등 의료 표준 시스템과 연결되는 것이다. 클로드는 이를 통해 보장 요구사항을 확인하고 환자 기록과 대조해 사전 승인 결정안을 제안한다. 기존에 몇 시간씩 걸리던 사전 승인 요청 검토 시간을 크게 줄이는 게 목표다. 생명과학 분야에서는 메디데이타(Medidata)와 ClinicalTrials.gov, ChEMBL 등 임상시험 및 신약 개발 플랫폼 연결 기능을 추가했다. 클로드는 FDA와 NIH 요구사항을 반영한 임상시험 프로토콜 초안을 작성하고, 시험 진행 상황을 모니터링하며, 규제 제출을 준비하는 작업을 돕는다. 개인 사용자용 기능도 강화됐다. 미국의 클로드 프로(Claude Pro) 및 맥스 플랜(Max plan) 가입자는 HealthEx와 Function, 애플 헬스(Apple Health), 안드로이드 헬스 커넥트(Android Health Connect)를 통해 개인 건강 데이터를 클로드에 연결할 수 있다. 회사 측은 사용자가 공유할 정보를 직접 선택하고 언제든 권한을 해제할 수 있으며, 건강 데이터를 모델 학습에 쓰지 않는다고 밝혔다. 이번 출시는 최신 모델인 클로드 오퍼스 4.5(Claude Opus 4.5)의 성능 향상을 바탕으로 한다. 의료 계산 정확도를 평가하는 MedCalc와 스탠퍼드대학의 MedAgentBench에서 이전 모델보다 크게 개선된 결과를 보였고, 사실 환각 문제도 줄었다. 새로운 커넥터와 에이전트 스킬은 클로드 프로와 맥스, 팀스(Teams), 엔터프라이즈 등 모든 구독자에게 제공된다. 앤트로픽은 아마존 베드락(Amazon Bedrock)과 구글 클라우드 버텍스 AI(Google Cloud's Vertex AI), 마이크로소프트 파운드리(Microsoft Foundry) 등 주요 클라우드 서비스와 파트너십을 맺고 서비스를 확대할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:21AI 에디터 기자

챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 'jobs' 테스트 중

오픈AI가 챗GPT에 구직 활동을 지원하는 새로운 기능을 개발하고 있는 것으로 나타났다. 최근 챗GPT 웹 애플리케이션 코드 분석 결과, '잡스(Jobs)'라는 이름의 새로운 탭이 추가될 예정인 것으로 확인됐다. 소프트웨어 개발자인 티보르 블라호(Tibor Blaho)는 자신의 X 계정을 통해 챗GPT 웹앱의 최근 변경 사항을 공개했다. 블라호에 따르면, 헬스(Health, 코드명 '포션(Potion)') 기능에 이어 챗GPT의 다음 자체 프로젝트가 잡스가 될 것으로 보인다. 새로운 잡스 기능에는 "역할 탐색, 이력서 개선, 다음 단계 계획에 도움을 제공한다"는 설명과 함께 "이력서 개선 및 포지셔닝 지원을 받고, 자신에게 맞는 역할을 명확히 하고 돋보이는 방법을 찾으며, 목표에 맞는 기회를 검색하고 비교할 수 있다"고 소개됐다. 블라호는 이 기능이 현재 개발 중이지만 최근 빌드에서 눈에 띄는 진전이 있다고 밝혔다. 또한 헬스 기능과 마찬가지로 잡스 전용 메모리(Jobs memories)와 새로운 커넥터(connectors)가 별도로 제공될 것으로 보인다고 설명했다. 이번 잡스 기능 추가는 오픈AI가 특정 분야에 특화된 서비스를 확대하는 전략의 일환으로 해석된다. 앞서 오픈AI는 챗GPT 헬스와 의료진을 위한 오픈AI 헬스케어(OpenAI Healthcare)를 공개한 바 있다. 한 사용자는 "먼저 챗GPT 헬스, 그다음 의사를 위한 오픈AI 헬스케어, 그리고 이제 챗GPT 잡스라니. 흥미로운 락인(lock-in) 전략"이라고 평가했다. 다만 일부 사용자들은 챗GPT 사이드바에 계속 추가되는 항목들에 대해 우려를 표했다. 한 사용자는 "사람들이 사용하지 않는 사이드바 항목들을 제거할 수 있는 설정이 함께 제공되면 좋겠다. 잡동사니 서랍이 되어가고 있다"고 지적했다. 한편 구글은 이미 '커리어 드리머(Career Dreamer)'라는 AI 기반 진로 탐색 도구를 제공하고 있다. 이 도구는 사용자의 꿈의 직업을 발견하고 경력 잠재력을 발굴하며 기술을 분석해 새로운 진로를 제안한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:13AI 에디터 기자

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

대기업 이탈 속 국대 AI 패자부활전 개막…"기준 미달 시 선정 무산"

카카오, CA협의체 힘 빼고 실행력 키우는 조직으로 탈바꿈 한다

소주의 이유있는 변신…"이러면 마실까?"

금값 사상 최고치 찍자 금 코인 거래량 13배↑

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.