• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (656건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

AI로 공부하면 머리 나빠진다?...OECD가 밝힌 AI 교육의 명암

전 세계 교육 시스템이 AI 도입을 두고 기로에 서 있다. 경제협력개발기구(OECD)가 발표한 리포트에 따르면, AI는 개인 맞춤형 학습으로 교육 격차를 해소할 수 있다는 희망과 함께 학생들의 사고력을 퇴화시키고 프라이버시를 침해할 수 있다는 우려를 동시에 낳고 있다. 챗GPT 등장 후 교육계 변화... 사교육 시장에서 가장 빠르게 확산 2022년 챗GPT가 등장한 이후 전 세계 교육계는 급격한 변화를 겪고 있다. OECD 교수학습 국제조사(TALIS) 2024에 따르면, OECD 국가 교사의 37%가 지난 12개월간 AI를 교육에 활용했다고 답했다. AI 관련 연수 참여율은 OECD 평균 38%였으며, 싱가포르는 75%로 가장 높았고, 한국과 카자흐스탄, 아랍에미리트에서는 60% 이상의 교사가 AI 관련 연수를 받았다. 교사들은 AI를 주로 수업 주제 요약(68%)과 수업 계획 작성(64%)에 활용했다. 또한 25%는 학생 참여도나 성취도 데이터 검토에, 26%는 학생 과제 평가나 채점에 AI를 사용했다. 특히 52%의 교사가 AI가 특수 교육이 필요한 학생을 지원하는 데 도움이 된다고 답했다. 하지만 우려도 크다. OECD 평균으로 교사의 72%는 AI가 학생들의 표절을 조장할 수 있다고 답했고, 42%는 AI가 편향성을 증폭시킬 수 있다고 우려했다. 더 주목할 점은 학생들이 교실보다 집에서 AI를 더 많이 사용한다는 것이다. 스위스 조사에 따르면 초등학생의 8%, 중학생의 30%, 일반 고등학생의 50%가 교실에서 AI를 정기적으로 사용한 반면, 가정에서의 학습 관련 AI 사용률은 각각 9%, 33%, 54%로 더 높았다. 이는 AI 교육이 학교보다는 가정, 특히 사교육 시장에서 먼저 확산되고 있음을 시사한다. AI 튜터의 양면성: 학습 향상 vs 인지적 외주화 AI 튜터와 교육 보조 시스템의 효과에 대한 연구 결과는 엇갈린다. 터키에서 실시된 무작위 대조 실험(RCT)에서 839명의 중등학교 학생을 대상으로 한 수학 성적 연구는 흥미로운 결과를 보여주었다. 일반 챗GPT에 접근한 학생들은 대조군 대비 평균 48%의 성적 향상을 보였다. 더 놀라운 것은 교사의 입력과 모범 사례로 훈련된 특화 버전 챗GPT 튜터를 사용한 학생들이 127%의 성적 향상을 달성했다는 점이다. 그러나 사후 테스트(AI 도움 없이)에서 특화 버전 사용 학생과 대조군 간 성적 차이가 유의미하지 않았던 반면, 일반 챗GPT 사용 학생들의 성적은 17% 하락했다. 이는 적절한 안전장치 없는 AI 도구가 학생의 학습 성과를 저하시킬 수 있음을 시사한다. 미국 유타주에서 166,000명 이상의 학생을 대상으로 한 대규모 RCT는 5가지 적응형 AI 읽기 소프트웨어의 효과를 검증했다. 결과는 취학 전 아동의 읽기 점수에서 큰 긍정적 효과를 보였으며, 초등학생에게서도 중소 규모의 효과가 관찰됐다. 특히 영어 학습자, 저소득층, 특수교육 대상 학생 등 취약 계층이 가장 큰 혜택을 받았다. 그러나 대만에서 153명의 고등학생을 대상으로 한 프로그래밍 수업 RCT는 상반된 결과를 보여주었다. 챗GPT를 사용한 실험군 학생들은 전통적 강의식 교육을 받은 대조군에 비해 자기효능감과 학습 성취도가 낮았다. 이는 챗GPT가 프로그래밍 교육에서 최소한이거나 부정적인 영향을 미칠 수 있음을 시사한다. 수학 성별 격차, AI가 해법이 될 수 있을까 이탈리아는 PISA 2022에서 수학 성별 격차가 가장 큰 국가로 나타났다. 국가 평가 결과 이탈리아 여학생들은 이미 2학년 때부터 남학생에 비해 수학 성적이 낮았다. OECD 리포트는 AI가 이러한 격차 해소에 기여할 수 있는 여러 방안을 제시했다. AI 기반 멘토링 시스템은 여학생들을 관련성 있는 여성 STEM(Science, technology, engineering, and mathematics) 멘토와 연결해 롤모델을 제공할 수 있다. 미국의 초기 교실 실험에서는 저명한 여성 수학자와의 대화를 시뮬레이션하는 AI 기반 '롤모델 에이전트'가 평가자가 아닌 동반자로 제시될 때 여학생들의 수학에 대한 소속감을 높이는 것으로 나타났다. AI는 또한 성 고정관념이 배제된 개인 맞춤형 학습 환경을 제공할 수 있다. 교사의 무의식적 편향이 여학생의 수학 성취에 부정적 영향을 미칠 수 있는데, AI 튜터는 이러한 편향으로부터 자유로운 피드백과 지원을 제공할 수 있다. 하지만 주의해야 할 점은 AI 시스템 자체가 훈련 데이터에 내재된 편향을 반영할 수 있다는 것이다. 영어권 수학 교과서를 중심으로 훈련된 AI는 소수 집단 학생을 소외시키거나 참여를 저해하는 서사를 포함할 수 있다. 국가 AI 교육 전략의 핵심 원칙 다섯가지 OECD는 교육 시스템에 AI를 구현할 때 고려해야 할 몇 가지 핵심 원칙을 제시했다. 첫째, 의도성과 교육학적 정렬이다. AI는 목적이 아니라 수단이며, 그 배치는 명확히 표현된 교육 목표와 명시적으로 연결되어야 한다. 도구는 정책 입안자와 교육자가 육성하려는 지식, 기술 또는 성향, 성공을 판단할 지표, 필요한 보완적 인적 투입을 명시한 후 선택(또는 거부)되어야 한다. 둘째, 예방 원칙이다. 더 낮은 안전 위험을 가진 단순한 기술이 AI 도구와 비슷한 학습 목표를 달성할 수 있다면 그것을 선호해야 한다. 이는 완전한 정보에 입각한 동의를 할 수 없는 미성년자가 교육 현장에서 AI 도구의 사용자라는 점을 고려할 때 특히 중요하다. 단계적 도입은 예방의 실질적 표현이 될 수 있다. AI 튜터링은 핵심 과목에 통합되기 전에 선택적 보충 세션에 예약될 수 있고, 학교 환경에서 일일 사용 시간이 제한될 수 있으며, 라이선스 갱신 전에 독립적인 효과성 검토가 의무화될 수 있다. 셋째, 교육자의 감독이다. 개인화가 무조건적인 선이 아니다. 인간은 "인지적 구두쇠"로, 지름길이 나타날 때마다 기꺼이 노력을 외주화하는 경향이 있다. 그 결과 많은 이들이 프로그램이 이미 단순화한 작업을 해결할 수 있다는 잘못된 숙달감을 발달시킬 수 있다. 정책 입안자가 배치에 대한 강력한 감독을 구축하지 않으면, 이러한 안일함은 학생들이 훈련 매개변수를 벗어나는 상황에 직면할 때만 식별될 것이다. 넷째, 형평성 고려사항이다. AI 기반 개인화는 참여와 반응성을 향상시킬 수 있지만, 증거는 또한 디지털 도구와 유료 기능에 대한 불평등한 접근이 기존의 사회경제적 격차를 심화시킬 수 있음을 나타낸다. 인간의 중재는 AI 출력을 해석하고, 학습을 맥락화하며, 기술이 계층화가 아닌 포용적 목적을 달성하도록 보장하는 데 필수적이다. 다섯째, 데이터 보호와 거버넌스다. AI 튜터는 순간순간의 참여, 감정, 성과 신호를 포착할 때 가장 잘 작동하는데, 이는 정의상 개인적이고 민감한 데이터다. 미성년자의 경우 동의는 규제 프레임워크를 형식적으로 준수할 뿐만 아니라 의미가 있어야 한다. 기술을 불신하거나 자녀의 디지털 발자국을 최소화하기를 원하는 가족은 학업적 불이익이나 학습 옵션에 대한 접근 제한 없이 실행 가능한 거부권을 가져야 한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 튜터가 사교육을 대체할 수 있나요? A1. 조건부로 가능합니다. 터키 실험에서 교사 지도로 설계된 AI 튜터는 학생 성적을 127% 향상시켰지만, 일반 챗GPT는 오히려 17% 하락시켰습니다. 공교육에서 제대로 설계된 AI 튜터를 제공한다면 사교육 격차를 줄일 수 있지만, 상업용 AI 도구에 무분별하게 의존하면 위험합니다. Q2. AI 사용이 학생들의 사고력을 퇴화시킬 수 있나요? A2. 그렇습니다. AI에 과도하게 의존하면 스스로 사고하고 문제를 해결하는 능력이 약화되는 '인지적 외주화' 현상이 발생합니다. 대만 프로그래밍 실험에서 챗GPT 사용 학생들의 학습 성취도가 오히려 낮아진 것이 이를 증명합니다. AI는 기본 사고력을 갖춘 후 보조 도구로만 활용해야 합니다. Q3. AI 교육 도구 사용 시 학생 데이터는 안전한가요? A3. 현재로서는 우려가 큽니다. AI는 학생의 학습 패턴, 감정 상태 등 민감한 개인 정보를 실시간으로 수집합니다. EU는 AI법으로 교육을 "고위험" 영역으로 분류해 엄격히 규제하지만, 많은 국가에서 규제가 부족합니다. 학교의 AI 도입 시 강력한 데이터 보호 조치와 학부모의 거부권 보장이 필수입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.13 15:21AI 에디터

AI 유머 취향 분석했더니... '긴 글'과 '은어' 좋아해

일본 개그 게임 '오오기리'에서 사용자들이 재미있는 답변에 투표한 기록을 분석한 결과, AI와 사람의 유머 취향이 뚜렷하게 갈렸다. 사람과 달리, AI는 지나치게 긴 답변이나 인터넷 은어가 들어간 답변을 좋아했다. 사용자를 7개 그룹으로 나눴더니 취향이 제각각 일본 IT 기업 CyberAgent(사이버에이전트)와 나라첨단과학기술대학 연구팀은 일본 오오기리 사이트에서 908개 질문과 14,389개 답변, 276명이 참여한 57,751개 투표를 수집했다. 오오기리는 사회자가 던진 질문에 재치있게 답하는 일본식 개그 게임이다. 연구팀은 각 사용자가 어떤 답변에 투표했는지 기록을 보고, 비슷한 취향을 가진 사람끼리 묶어 7개 그룹으로 분류했다. 그룹별로 선호하는 유머가 확연히 달랐다. '그룹 0'은 대화 형식이나 여러 문장으로 긴 답변, 괄호를 많이 쓴 답변을 좋아했지만, 자기 비하 개그와 황당한 넌센스 유머는 싫어했다. '그룹 1'은 정반대로 자기 비하 개그를 가장 좋아했고, 형용사로 끝나는 답변도 선호했다. 반면 답변 속에 고유명사를 언급하거나 과장 표현을 쓰는 것은 기피했다. '그룹 2'도 자기 비하를 좋아했고, 짧은 이야기 형식과 물음표로 끝나는 답변을 선호했다. 고유명사 언급과 말줄임표 마침, 과장 표현은 싫어했다. '그룹 3'은 괄호, 말줄임표로 끝나는 답변, 많은 공백 사용을 좋아했지만, 짧은 이야기 형식과 과장 표현은 싫어했다. '그룹 4'는 말줄임표로 마무리하는 답변과 자기 비하, 괄호 사용을 선호했으나, 인터넷 은어와 과장 표현을 강하게 기피했다. '그룹 5'는 인터넷 은어를 압도적으로 좋아했고, 과장 표현과 고유명사 언급도 선호했다. 반면 황당한 넌센스와 지나치게 긴 답변은 싫어했다. '그룹 6'은 황당한 넌센스와 고유명사 언급, 패러디를 좋아했지만, 말줄임표 마침을 매우 강하게 기피했고, 은어와 괄호도 싫어했다. 이처럼 사람들의 웃음 코드는 그룹마다 정반대였다. 자기 비하 개그는 그룹 1, 2, 4가 좋아한 반면 그룹 0은 가장 싫어했고, 인터넷 은어는 그룹 5가 가장 좋아했지만 그룹 4와 6은 강하게 기피했다. 11가지 유머 유형으로 분류... AI가 85% 정확도로 자동 분석 연구팀은 답변을 체계적으로 분석하기 위해 45개 언어 특징과 11개 유머 유형을 정의했다. 각 그룹이 정확히 어떤 유머를 좋아하는지 파악하기 위해 유머의 특징을 체계적으로 분류했다. 단순히 "재미있다/없다"가 아니라, "무엇 때문에 재미있는가"를 밝히기 위해 유머를 구성 요소로 쪼갰다. 연구팀은 글자 수, 문장 수, 특수문자 사용 등 객관적 특징 45가지와 함께, 말장난, 공감되는 경험, 과장, 블랙 유머와 풍자, 황당한 넌센스, 반전, 메타적 유머(개그 자체를 소재로 쓴 유머), 자기 비하, 의인화, 패러디, 짧은 이야기 등 11개 유머 유형을 정의했다. 14,389개 답변을 일일이 사람이 분류하기는 불가능해서, GPT-5.1에게 자동으로 11가지 유머 유형을 붙이는 작업을 맡겼다. 연구팀이 110개 샘플을 직접 검토해보니 85.5%가 정확했다. AI가 답변당 3번씩 시도한 뒤 다수결로 최종 판단하게 해서 정확도를 높였다. 이렇게 분류한 뒤, 각 그룹이 56개 특징(45개 언어 특징 + 11개 유머 유형) 중 어떤 것을 선호하는지 통계 분석을 진행했다. GPT·제미나이·클로드, 전체 사용자와는 취향 안 맞아 연구팀은 GPT-5.1, 제미나이 3 프로(Gemini 3 Pro), 클로드 소넷 4.5(Claude Sonnet 4.5) 등 3개 AI 모델에게도 같은 질문을 주고 가장 재미있는 답을 고르게 했다. AI들이 선택한 답변의 패턴을 분석해보니, 사람들과는 다른 취향이 드러났다. AI들은 모두 지나치게 긴 답변, 단어를 다양하게 쓴 답변, 인터넷 은어가 들어간 답변을 사람보다 훨씬 더 좋아했다. 반대로 적당한 길이의 답변이나 단어가 반복되는 답변은 사람보다 덜 좋아했다. 연구팀이 AI와 전체 사용자의 취향 일치도를 측정했더니, GPT-5.1은 -0.22, 제미나이 3 프로는 -0.36, 클로드 소넷 4.5는 -0.26으로 모두 마이너스 값이 나왔다. 음수는 취향이 맞지 않는다는 뜻이다. 하지만 특정 그룹하고는 취향이 맞았다. GPT-5.1과 클로드 소넷 4.5는 '그룹 0'과 각각 0.57, 0.52의 일치도를 보였다. 양수는 취향이 비슷하다는 의미다. 즉, AI는 모든 사람과 취향이 다른 게 아니라, 특정 유형의 사람들과는 웃음 코드가 통한다는 얘기다. AI에게 나이·성별 설정했더니 웃음 코드 바뀌어 연구팀은 AI에게 "당신은 20세 남성입니다", "당신은 45세 여성입니다" 같은 식으로 설정을 주고 다시 실험했다. 이를 '페르소나 프롬프팅'이라고 부른다. 20세 남성, 20세 여성, 45세 남성, 45세 여성, 65세 남성, 65세 여성 등 6가지 설정과 설정 없음을 비교했다. 제미나이 3 프로에서 효과가 가장 컸다. 설정이 없을 때 '그룹 0'과의 일치도는 0.39였는데, 45세 여성으로 설정하자 0.63으로 올라갔다. 20세 남성 설정은 '그룹 3'과의 일치도를 0.10에서 0.34로 높였다. 이는 AI에게 적절한 성격을 부여하면 특정 그룹의 취향에 맞출 수 있다는 뜻이다. 다만 모든 경우에 효과가 있는 건 아니었다. GPT-5.1의 경우 '그룹 1'과는 어떤 설정을 써도 일치도가 -0.09에서 0.03 사이에 머물렀다. 연구팀은 개인 맞춤형 유머 서비스를 만들려면 페르소나 설정만으로는 부족하고 추가적인 방법이 필요하다고 밝혔다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 사용자를 7개 그룹으로 나눈 기준은 무엇인가요? A. 각 사람이 어떤 답변에 투표했는지 기록을 모아서 비슷한 취향을 가진 사람끼리 묶었습니다. 통계 기법을 써서 자동으로 분류했으며, 최소 100번 이상 투표한 활성 사용자 276명만 분석 대상으로 삼았습니다. Q. 취향 일치도를 어떻게 숫자로 측정했나요? A. 각 유머 요소가 얼마나 선호되는지 점수를 매기는 통계 모델을 사용했습니다. 투표를 많이 받은 답변과 적게 받은 답변을 비교해서, 어떤 특징이 있는 답변이 인기있는지 계산했습니다. 그 결과를 그룹별, AI별로 비교해 일치도를 측정했습니다. Q. 이 연구 결과를 어디에 활용할 수 있나요? A. 사용자 개인의 취향에 맞춘 개그나 콘텐츠를 추천하는 시스템을 만들 수 있습니다. AI에게 특정 그룹의 취향을 학습시켜서, 그 그룹 사람들이 좋아할 만한 재미있는 답변을 자동으로 만들어내는 데 활용할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 23:01AI 에디터

앤트로픽, 챗GPT 이어 건강 관리 AI 서비스 출시…의료 현장 AI 활용 본격화

앤트로픽(Anthropic)이 의료 분야 특화 AI 제품 '클로드 포 헬스케어(Claude for Healthcare)'를 12일(현지 시각) 공식 출시했다. 앤트로픽에 따르면 이번 제품은 HIPAA(미국 건강보험 양도 및 책임에 관한 법) 준수 환경을 갖춰 의료 제공자와 보험사, 소비자 모두 안전하게 의료 목적으로 클로드를 쓸 수 있다. 주요 기능은 메디케어·메디케이드 서비스 센터(CMS) 보장 데이터베이스와 국제질병분류(ICD-10), 국가 의료제공자 식별 레지스트리 등 의료 표준 시스템과 연결되는 것이다. 클로드는 이를 통해 보장 요구사항을 확인하고 환자 기록과 대조해 사전 승인 결정안을 제안한다. 기존에 몇 시간씩 걸리던 사전 승인 요청 검토 시간을 크게 줄이는 게 목표다. 생명과학 분야에서는 메디데이타(Medidata)와 ClinicalTrials.gov, ChEMBL 등 임상시험 및 신약 개발 플랫폼 연결 기능을 추가했다. 클로드는 FDA와 NIH 요구사항을 반영한 임상시험 프로토콜 초안을 작성하고, 시험 진행 상황을 모니터링하며, 규제 제출을 준비하는 작업을 돕는다. 개인 사용자용 기능도 강화됐다. 미국의 클로드 프로(Claude Pro) 및 맥스 플랜(Max plan) 가입자는 HealthEx와 Function, 애플 헬스(Apple Health), 안드로이드 헬스 커넥트(Android Health Connect)를 통해 개인 건강 데이터를 클로드에 연결할 수 있다. 회사 측은 사용자가 공유할 정보를 직접 선택하고 언제든 권한을 해제할 수 있으며, 건강 데이터를 모델 학습에 쓰지 않는다고 밝혔다. 이번 출시는 최신 모델인 클로드 오퍼스 4.5(Claude Opus 4.5)의 성능 향상을 바탕으로 한다. 의료 계산 정확도를 평가하는 MedCalc와 스탠퍼드대학의 MedAgentBench에서 이전 모델보다 크게 개선된 결과를 보였고, 사실 환각 문제도 줄었다. 새로운 커넥터와 에이전트 스킬은 클로드 프로와 맥스, 팀스(Teams), 엔터프라이즈 등 모든 구독자에게 제공된다. 앤트로픽은 아마존 베드락(Amazon Bedrock)과 구글 클라우드 버텍스 AI(Google Cloud's Vertex AI), 마이크로소프트 파운드리(Microsoft Foundry) 등 주요 클라우드 서비스와 파트너십을 맺고 서비스를 확대할 계획이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:21AI 에디터

챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 'jobs' 테스트 중

오픈AI가 챗GPT에 구직 활동을 지원하는 새로운 기능을 개발하고 있는 것으로 나타났다. 최근 챗GPT 웹 애플리케이션 코드 분석 결과, '잡스(Jobs)'라는 이름의 새로운 탭이 추가될 예정인 것으로 확인됐다. 소프트웨어 개발자인 티보르 블라호(Tibor Blaho)는 자신의 X 계정을 통해 챗GPT 웹앱의 최근 변경 사항을 공개했다. 블라호에 따르면, 헬스(Health, 코드명 '포션(Potion)') 기능에 이어 챗GPT의 다음 자체 프로젝트가 잡스가 될 것으로 보인다. 새로운 잡스 기능에는 "역할 탐색, 이력서 개선, 다음 단계 계획에 도움을 제공한다"는 설명과 함께 "이력서 개선 및 포지셔닝 지원을 받고, 자신에게 맞는 역할을 명확히 하고 돋보이는 방법을 찾으며, 목표에 맞는 기회를 검색하고 비교할 수 있다"고 소개됐다. 블라호는 이 기능이 현재 개발 중이지만 최근 빌드에서 눈에 띄는 진전이 있다고 밝혔다. 또한 헬스 기능과 마찬가지로 잡스 전용 메모리(Jobs memories)와 새로운 커넥터(connectors)가 별도로 제공될 것으로 보인다고 설명했다. 이번 잡스 기능 추가는 오픈AI가 특정 분야에 특화된 서비스를 확대하는 전략의 일환으로 해석된다. 앞서 오픈AI는 챗GPT 헬스와 의료진을 위한 오픈AI 헬스케어(OpenAI Healthcare)를 공개한 바 있다. 한 사용자는 "먼저 챗GPT 헬스, 그다음 의사를 위한 오픈AI 헬스케어, 그리고 이제 챗GPT 잡스라니. 흥미로운 락인(lock-in) 전략"이라고 평가했다. 다만 일부 사용자들은 챗GPT 사이드바에 계속 추가되는 항목들에 대해 우려를 표했다. 한 사용자는 "사람들이 사용하지 않는 사이드바 항목들을 제거할 수 있는 설정이 함께 제공되면 좋겠다. 잡동사니 서랍이 되어가고 있다"고 지적했다. 한편 구글은 이미 '커리어 드리머(Career Dreamer)'라는 AI 기반 진로 탐색 도구를 제공하고 있다. 이 도구는 사용자의 꿈의 직업을 발견하고 경력 잠재력을 발굴하며 기술을 분석해 새로운 진로를 제안한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.12 17:13AI 에디터

남성은 쓰고 여성은 망설인다...AI 격차가 만들 새로운 '성별 격차'

옥스퍼드대학교 인터넷연구소가 약 8,000명의 영국 성인을 대상으로 조사한 결과, 여성이 남성보다 생성형 AI를 덜 사용하는 이유는 기술에 대한 이해 부족이 아니라 AI가 사회에 미칠 부정적 영향에 대한 우려 때문인 것으로 나타났다. 연구진은 이런 차이가 계속되면 과거 인터넷 기술 격차가 남녀 임금 격차를 벌렸던 것처럼, AI 시대에도 새로운 경제적 불평등이 생길 수 있다고 경고했다. 정신건강 걱정하는 여성, AI 사용률 무려 45%p 낮아 해당 논문에 따르면, 영국에서 일주일에 한 번 이상 개인적으로 생성형 AI를 쓰는 사람은 여성이 14.7%, 남성이 20.0%였다. 전체적으로는 5.3%p 차이지만, 특정 집단에서는 이 격차가 훨씬 커졌다. AI가 정신건강에 해롭다고 생각하는 사람 중에서는 여성 14.1%, 남성 31.0%가 AI를 자주 써서 16.8%p나 벌어졌다. 가장 큰 차이는 'AI가 정신건강에 좋다'고 생각하면서도 디지털 기술은 잘 아는 집단에서 나타났다. 이 경우 개인적으로 쓸 때는 45.3%p, 업무에서 쓸 때도 29.4%p 차이가 났다. 즉, 여성들은 AI를 쓸 줄 아는데도 사회적 영향이 걱정돼서 안 쓰는 것이다. 기후변화·개인정보·일자리 걱정, 여성이 AI 안 쓰는 이유 연구진은 정신건강, 기후변화, 개인정보 보호, 일자리 영향이라는 네 가지 걱정을 합쳐서 '사회적 위험 인식 지수'를 만들었다. 분석 결과 이 지수는 누가 생성형 AI를 쓰고 안 쓸지를 예측하는 요인 중 9~18%를 설명했다. 모든 연령대 여성에게 가장 중요한 예측 요인 중 하나였다. 특히 젊은 여성(18~35세)에게는 디지털 능력이나 학력보다 이 지수가 더 중요했다. 기후 영향을 걱정하는 사람 중에서는 여성 18.2%, 남성 27.5%가 AI를 자주 써서 9.3%p 차이가 났다. 개인정보 오용을 걱정하는 집단에서는 여성 12.5%, 남성 19.9%로 7.4%p 차이를 보였다. 흥미로운 점은 이런 격차가 남성이 더 많이 쓰게 돼서가 아니라, 여성이 덜 쓰게 되면서 벌어졌다는 것이다. 여성의 걱정이 실제 행동으로 이어진 셈이다. 젊은 여성, 기술 잘 알아도 사회적 걱정 때문에 안 써 연령대별로 나눠 분석한 결과는 더 놀랍다. 젊은 여성(18~35세)에게 'AI 위험 인식'은 생성형 AI 사용을 예측하는 두 번째로 중요한 요인이었다. 하지만 같은 나이 남성에게는 여섯 번째에 불과했다. 나이가 많을수록 이 경향은 더 뚜렷해져서, 중장년층과 노년층 여성에게는 첫 번째, 남성에게는 두 번째로 중요한 요인이 됐다. 연구진은 여성이 '나한테 위험한가'보다 '사회에 어떤 영향을 미칠까'를 더 걱정한다고 설명했다. 이는 여성이 평균적으로 사회적 공감 능력이 높고, 도덕적 문제에 더 민감하며, 공정성을 중시한다는 기존 연구와 같은 맥락이다. 실제로 교육 분야 연구를 보면, 여성은 과제에 AI를 쓰는 것을 부정행위나 표절로 볼 가능성이 더 높다. 기술 교육보다 'AI 긍정적 인식' 바꾸는 게 격차 줄이는 데 효과적 연구진은 2023년과 2024년 두 차례 설문 데이터를 활용해 인식 변화가 실제 행동에 어떤 영향을 주는지 추적했다. 나이, 성별, 학력, 직업이 같은 사람들을 짝지어 비교하면서 두 가지를 살폈다. 하나는 디지털 능력이 좋아진 경우, 다른 하나는 AI의 사회적 영향을 긍정적으로 보게 된 경우였다. 젊은 층(18~35세)에서 디지털 능력이 좋아지면 여성의 AI 사용률은 17%에서 29%로 올랐지만 통계적으로 의미 있는 변화는 아니었다. 반면 남성은 19%에서 43%로 크게 늘었다. 하지만 AI의 사회적 영향을 긍정적으로 보게 되면 여성은 13%에서 33%로 확 올랐고, 이는 통계적으로도 의미 있는 변화였다. 남성은 21%에서 35%로 소폭 늘었을 뿐이다. 전체 연령대(18~50세 이상)에서도 긍정적 인식이 생기면 여성은 8%에서 20%로, 남성은 12%에서 25%로 늘어 격차가 줄었다. 결국 일반적인 디지털 교육은 전체적으로 AI 사용을 늘리지만 젊은 여성에게는 별 효과가 없었다. 반대로 AI에 대한 부정적 생각을 바꾸는 것은 여성의 사용을 크게 늘리고 남녀 격차를 줄이는 데 효과적이었다. 생산성 차이가 임금 차이로... AI 시대 새로운 불평등 경고 연구진은 이번 발견이 단순히 기술 사용 차이가 아니라 심각한 경제 문제라고 강조했다. 생성형 AI는 일의 생산성과 효율을 높이고, 창의적 만족도도 올려준다는 게 이미 증명됐다. 만약 AI 사용 방식과 기대, 능력이 만들어지는 지금 이 초기 단계에서 남성이 훨씬 많이 쓴다면, 이런 초기 이점이 시간이 지나면서 눈덩이처럼 불어나 생산성, 기술 습득, 경력에 영향을 줄 수 있다. 과거 인터넷 기술 격차가 여성의 노동시장 진입과 경력에 나쁜 영향을 미쳤고, 전체 남녀 임금 격차를 설명하는 중요한 요인이었던 것과 같다. 연구진은 여성의 환경·사회·윤리 문제에 대한 높은 민감도가 틀린 게 아니라고 지적했다. 지금 생성형 AI는 실제로 엄청난 전력을 쓰고, 불공정한 노동 관행이 있으며, 편향과 가짜 정보 위험도 크기 때문이다. 그래서 남녀 격차를 줄이려면 단순히 사람들의 생각만 바꿀 게 아니라 기술 자체를 개선해야 한다. 탄소를 덜 배출하는 AI 개발을 장려하고, 편향과 정신건강 피해를 막는 안전장치를 강화하며, 공급망과 학습 데이터에 대한 투명성을 높이는 정책이 필요하다. 그래야 여성의 위험 인식이 AI 사용을 가로막는 장애물이 아니라 기술을 더 좋게 만드는 원동력이 될 수 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 생성형 AI 사용에서 남녀 격차가 왜 문제인가요? A. 생성형 AI는 일의 생산성과 창의성을 높여주는 도구입니다. 이걸 쓰는 사람과 안 쓰는 사람 사이에 경력 발전과 소득 차이가 생길 수 있습니다. 과거 인터넷 기술 격차가 남녀 임금 차이를 벌렸던 것처럼, AI 격차도 새로운 경제적 불평등을 만들 수 있습니다. 게다가 남성이 압도적으로 많이 쓰면 AI가 남성의 관점과 질문 방식만 학습해서 편향이 더 심해질 수 있습니다. Q2. 여성이 AI를 덜 쓰는 이유가 기술을 몰라서가 아니라는 건가요? A. 맞습니다. 이번 연구는 디지털 기술을 잘 아는 여성조차 AI의 정신건강, 환경, 개인정보, 일자리 영향이 걱정돼서 안 쓴다는 걸 보여줍니다. 실제로 AI를 잘 이해하면서도 정신건강을 걱정하는 여성과 남성의 사용률 차이는 무려 45%p나 됐습니다. 여성의 걱정은 '나한테 위험한가'보다는 'AI가 사회 전체에 어떤 영향을 미칠까'에 대한 것입니다. Q3. 남녀 격차를 줄이려면 어떻게 해야 하나요? A. 단순히 AI 사용법만 가르치는 건 효과가 별로 없습니다. 연구를 보면 디지털 교육은 남성의 사용률만 더 높였지만, AI에 대한 긍정적 인식을 심어주니까 여성의 사용률이 13%에서 33%로 크게 올랐습니다. 실제로 AI의 전력 소비를 줄이고, 편향을 막는 안전장치를 강화하고, 투명성을 높이는 등 기술을 개선하면서 동시에 이런 개선 사실을 알리는 게 중요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 19:31AI 에디터

저소득 국가, AI 시대 낙오 위기...OECD "생산성 격차 2배로 벌어질 것"

경제협력개발기구(OECD)가 지난달 발표한 보고서를 통해 인공지능이 선진국의 생산성을 크게 높일 것으로 전망하면서도, 저소득 국가와 중하위소득 국가에서는 오히려 글로벌 생산성 격차를 심화시킬 위험이 있다고 경고했다. 이 보고서는 AI가 모든 국가에 균등한 혜택을 가져다주지 않을 것이며, 특히 개발도상국들이 AI 채택에서 상당한 장벽에 직면해 있다는 점을 강조한다. 선진국은 생산성 급증, 개발도상국은 절반 수준에 그칠 전망 OECD의 분석에 따르면 AI는 향후 10년간 선진국 경제의 주요 생산성 성장 동력이 될 것으로 예상되지만, 국가 간 편차가 매우 클 것으로 나타났다. 골드만삭스는 생성형 AI가 미국의 연간 노동생산성을 1.5%포인트 높일 것으로 전망했으며, 학술 연구들은 0%에서 1%포인트 사이의 기여도를 예측했다. 이는 1995~2005년 ICT 붐 시기 미국에서 정보통신기술이 연간 노동생산성에 기여한 1~1.5%포인트와 비슷한 수준이다. 그러나 다른 선진국들의 경우 미국보다 낮은 수준의 AI 생산성 효과가 예상된다. OECD의 최근 연구는 일관된 방법론을 사용해 주요 7개국(G7) 경제에서 AI로 인한 생산성 향상을 추정했는데, 이탈리아와 일본의 경우 AI로 인한 노동생산성 혜택이 미국의 절반 수준에 그칠 것으로 나타났다. 국제통화기금(IMF)의 추정에 따르면 저소득 국가에서 AI가 생산성 성장에 기여하는 정도는 선진국의 약 절반에 불과할 것으로 예상된다. 실제로 챗GPT와 같은 생성형 AI 도구의 초기 사용 데이터를 보면, 저소득 국가에서의 채택률은 고소득 국가 대비 10분의 1 수준으로 나타났다. 고소득 및 중상위소득 국가에서는 빠르게 증가하고 있지만, 대부분의 중하위소득 국가에서는 여전히 낮은 수준을 유지하고 있으며 저소득 국가에서는 사실상 전무한 실정이다. 교육 수준과 디지털 인프라 부족이 AI 채택의 최대 걸림돌 보고서는 저소득 및 중하위소득 국가들이 AI 채택에서 직면한 주요 장벽들을 구체적으로 분석했다. 가장 큰 문제는 노동력의 교육 수준이다. 전 세계적으로 생성형 AI 챗봇 사용자 중 정규 교육을 받지 않은 사람은 거의 없는 것으로 나타났다. 하지만 저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 정규 교육을 받지 못한 상태다. 또한 저소득 국가의 문해율은 63%에 불과하며, 중하위소득 국가는 78%에 그친다. 이는 대규모 언어모델(LLM) 챗봇을 글로 사용하는 것이 불가능한 인구 비율이 상당하다는 의미다. 게다가 챗봇 사용자의 절반 이상이 최소한 대학 학위를 보유하고 있지만, 중하위소득 국가의 대졸자 비율은 고소득 국가의 3분의 1에도 미치지 못하며, 저소득 국가에서는 6분의 1 수준이다. 디지털 인프라의 부족도 심각한 문제다. 2023년 기준 저소득 국가에서 휴대전화를 소유한 인구는 58%에 불과하고, 중하위소득 국가는 74%다. 이는 고소득 국가의 95%와 큰 차이를 보인다. 고정 광대역 보급률은 더욱 낮아서, 2024년 기준 중하위소득 국가는 100명당 4.8건, 저소득 국가는 0.5건에 불과했다. 기업 수준에서 보면 저소득 국가 기업의 32%, 중하위소득 국가 기업의 41%만이 웹사이트를 보유하고 있어, 고소득 국가의 거의 절반 수준이다. 전력 접근성도 중요한 제약 요인이다. 2023년 기준 저소득 국가 인구의 47%만이 전기를 이용할 수 있으며, 중하위소득 국가는 91%다. 복잡한 AI 애플리케이션을 유지하기 위한 적절한 전력망과 생산 인프라는 저소득 및 중하위소득 국가에서 심각하게 준비되지 않은 상태다. AI 비용 부담, 저소득 국가에선 연간 소득의 25%에 달해 AI 도구의 높은 비용도 채택을 가로막는 주요 장벽이다. 챗GPT 플러스의 중간 강도 사용 구독료는 월 20달러로, 저소득 국가의 평균 연간 소득의 약 25%, 중하위소득 국가의 10%에 해당한다. 더 저렴한 대안 모델들도 존재하지만, 중간 수준의 품질을 제공하는 모델을 사용해 복잡한 작업을 수행하는 데 드는 비용도 저소득 및 중하위소득 국가의 구매력 대비 상당한 부담이다. 기업 차원에서 체계적인 AI 채택은 훈련, 생산 재조직, 보완적 기술과 무형자산 투자 등 큰 고정비용을 수반한다. 이러한 비용은 고소득 국가에서도 AI 채택을 저해하는 요인으로 작용하는데, 일반적으로 기업 규모가 작고 신용 제약이 심한 중하위소득 및 저소득 국가에서는 더욱 심각한 장벽이 될 수 있다. 보고서는 또한 저소득 및 중하위소득 국가들의 산업 구조가 AI 노출도가 낮다는 점도 지적했다. AI 노출도는 미국 기준으로 추정했을 때 금융, IT 서비스 및 전문직과 같은 지식집약적 서비스에 집중되어 있다. 하지만 서비스업은 저소득 및 중하위소득 국가의 GDP에서 고소득 국가보다 훨씬 작은 비중을 차지한다. 반대로 이들 국가는 농업과 같은 저기술 부문의 비중이 높은데, 이 부문의 AI 노출도는 서비스업의 약 3분의 1 수준이다. 젊은 노동력은 장점, 하지만 구조적 약점이 압도 보고서는 저소득 및 중하위소득 국가가 가진 몇 가지 잠재적 이점도 언급했다. 가장 주목할 만한 것은 젊은 노동력이다. 최근 증거에 따르면 젊은 근로자들이 새로운 기술을 더 빠르고 효과적으로 채택하는 경향이 있다. 미국에서는 40세 미만 근로자가 40세 이상보다 AI를 사용할 가능성이 약 1.5배 높았다. 저소득 국가에서는 노동력의 약 75%가 40세 미만이며, 중하위소득 국가에서는 69%다. 이는 고소득 국가의 연령 구조를 가졌을 때보다 AI 채택률이 5~10% 높을 수 있음을 시사한다. 보고서는 이러한 젊은 연령 구조가 채택에 긍정적인 영향을 미칠 수 있다고 평가했다. 그러나 전반적으로 저소득 및 중하위소득 국가가 직면한 도전 과제들이 이러한 장점을 크게 압도한다. 교육 부족(저소득 국가 인구의 59%, 중하위소득 국가 인구의 32%가 대부분의 AI 도구에서 배제될 위험), 에너지 및 디지털 인프라 장벽(저소득 국가의 53%가 전기에 접근할 수 없고, 약 4분의 1이 적절한 인터넷 커버리지가 없음) 등이 대규모 인구 집단을 AI 기술 사용에서 제한할 수 있다. 또한 AI 노출도 측면에서, 지식집약적 서비스의 작은 역할로 인해 저소득 국가에서는 고소득 국가 대비 약 40% 낮은 생산성, 중하위소득 국가에서는 약 25% 낮은 생산성이 예상된다. 이러한 AI의 특성—지식집약적 부문 의존성, 기본 인지 능력과의 시너지, 디지털 인프라 의존성—은 새로운 기술 격차를 더욱 어렵게 만든다. AI 격차 해소를 위한 정책 방향: 인프라·교육·금융 접근성 개선 필요 보고서는 저소득 및 중하위소득 국가에서 AI 생산성 격차를 방지하기 위한 구체적인 정책 방향을 제시했다. 단기적으로는 AI 채택 역량을 강화하는 데 초점을 맞춰야 하며, 네 가지 핵심 영역이 확인되었다. 첫째, 에너지 및 디지털 연결 인프라에 대한 투자가 필수적이다. 안정적인 전력 접근은 기본 전제조건이며, 에너지망 확장 및 현대화, 에너지원 믹스 다변화 등이 필요하다. 디지털 연결성 측면에서는 건전한 제도 및 규제 프레임워크, 국가 광대역 목표 및 전략 설정, 광대역 매핑 및 데이터 개선 등이 권장된다. 특히 외딴 지역과 서비스가 부족한 지역에서 연결성 문제가 중요하다. 둘째, 교육과 노동력 기술이 AI 채택의 필수 보완 요소로 부각된다. 최근 연구에 따르면 저소득 및 중하위소득 국가에서 기술 개발은 부문별 인력 훈련을 통해 제공될 때 특히 효과적이다. 타겟팅이 중요하며, 이들 국가의 경제 구조를 고려할 때 농업을 포함하고 중소기업과 특히 기술이 부족한 취약 계층에 초점을 맞춰야 한다. AI 기술의 특성상 디지털 리터러시와 ICT 기술, 영어 능력에 특별한 강조를 둘 수 있다. 셋째, 금융 접근성이 중요한 역할을 한다. AI 채택 비용은 심각한 신용 제약 하에서 금지적으로 변할 수 있다. 저소득 및 중하위소득 국가에서 효율적인 자본 시장을 지원하는 정책들이 더 디지털화되고 경쟁력 있는 금융 부문을 강화할 수 있다. AI 서비스 구매나 휴대전화 및 컴퓨터 같은 보완 하드웨어를 위한 표적 금융 지원이 기업들의 채택 비용 관리를 도울 수 있다. 넷째, AI 규제 준비성과 집행이 관련성이 있다. 기관들은 불필요한 규제 부담을 최소화하는 것과 신뢰할 수 있는 AI를 위한 강력한 프레임워크를 구축하는 것 사이에서 균형을 맞춰야 한다. OECD AI 원칙은 AI 시스템의 공정성, 투명성, 견고성 및 책임성을 보장하는 데 있어 핵심 참고 자료가 된다. 장기적으로는 AI 경제에서의 기회를 포착하는 것이 중요하다. 보고서는 저소득 및 중하위소득 국가가 건강과 교육 같은 장기 성장의 핵심 동력 영역에서 AI 채택과 실험을 지원해야 한다고 강조했다. 또한 AI가 무역과 지식 파급효과를 촉진할 수 있으므로, 무역 개방성과 국제 협력을 촉진하는 것이 필수적이다. 데이터 시스템의 상호 운용성 확보와 오픈소스 플랫폼을 통한 최첨단 AI 모델에 대한 접근 보장이 이러한 혜택을 극대화하는 데 필수적이다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 왜 개발도상국에서는 AI 채택이 어려운가요? A1. 개발도상국에서 AI 채택이 어려운 주요 이유는 세 가지입니다. 첫째, 인구의 상당수가 정규 교육을 받지 못했고 문해율이 낮아 AI 도구를 사용할 기본 능력이 부족합니다. 둘째, 인터넷과 전력 같은 기본 인프라가 부족합니다. 셋째, AI 도구 비용이 이들 국가의 소득 대비 너무 높아 경제적으로 부담이 됩니다. Q2. AI가 모든 국가에 똑같은 혜택을 주지 않는 이유는 무엇인가요? A2. AI의 혜택은 국가의 경제 구조와 준비 상태에 따라 크게 다릅니다. 선진국은 AI가 가장 효과적인 금융, IT 등 지식집약적 서비스업 비중이 높지만, 개발도상국은 농업과 제조업 비중이 높아 AI 활용도가 낮습니다. 또한 선진국은 디지털 인프라와 고학력 인력을 갖추고 있어 AI를 빠르게 채택할 수 있습니다. Q3. 개발도상국이 AI 격차를 줄이려면 어떤 정책이 필요한가요? A3. 개발도상국은 네 가지 핵심 영역에 집중해야 합니다. 첫째, 전력과 인터넷 같은 기본 인프라 구축이 최우선입니다. 둘째, 국민의 디지털 리터러시와 기술 교육을 강화해야 합니다. 셋째, 중소기업이 AI를 도입할 수 있도록 금융 지원을 제공해야 합니다. 넷째, AI를 안전하고 공정하게 사용할 수 있는 규제 체계를 마련해야 합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.09 14:04AI 에디터

잠만 자도 질병 예측 가능…스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다

미국 스탠퍼드 대학 연구팀이 단 하룻밤 잠을 자는 동안의 데이터만으로 향후 걸릴 수 있는 질병을 예측하는 인공지능 'SleepFM'을 개발했다. 해당 연구 논문에 따르면, 이 AI는 약 6만 5,000명이 자는 동안 측정한 58만 5,000시간 이상의 데이터로 학습했으며, 사망 위험, 치매, 심근경색 등 130가지 질병을 75% 이상의 정확도로 예측할 수 있다. 의학 분야 최고 권위 학술지 '네이처 메디슨'에 실린 이 연구는 수면이 단순히 쉬는 시간이 아니라 우리 몸의 건강 상태를 보여주는 중요한 신호임을 입증했다. 잠자는 동안 뇌파·심장박동·호흡 모두 분석 SleepFM은 병원에서 하는 '수면다원검사'라는 정밀 검사 데이터를 활용한다. 수면다원검사는 잠자는 동안 머리에 센서를 붙여 뇌파를 측정하고, 가슴에 전극을 붙여 심장박동을 기록하며, 코와 입 주변에 센서를 달아 호흡 패턴을 관찰하는 검사다. 근육 움직임도 함께 측정한다. 연구팀은 스탠퍼드 수면 클리닉, 바이오세레니티, 다민족죽상동맥경화증 연구, 남성 노인 수면장애 결과 연구 등 4곳에서 모은 데이터를 사용했다. 스탠퍼드 수면 클리닉에서만 3만 5,052명의 데이터가 모였고, 나머지 기관들도 수천 명씩 데이터를 제공했다. 이는 기존 수면 분석 AI가 사용한 데이터(2,500~1만 5,913건)보다 훨씬 많은 양이다. 중요한 점은 병원마다 검사 방식이 조금씩 다르다는 것이다. 어떤 병원은 뇌파를 6군데에서 측정하고, 다른 병원은 10군데에서 측정한다. 이런 차이를 AI가 자동으로 처리할 수 있도록 '채널 독립적;설계'를 적용했다. 마치 여러 나라 언어를 동시에 이해하는 번역기처럼, 서로 다른 형태의 검사 데이터를 모두 이해할 수 있다. 6년 후 걸릴 병까지 미리 알아낸다 연구팀은 스탠퍼드 수면 클리닉에서 검사받은 환자들의 병원 진료 기록을 추적했다. 환자가 검사 후 어떤 병에 걸렸는지, 언제 진단받았는지를 확인한 것이다. 총 1,041개 질병을 분석했고, 그중 130개 질병에서 정확도 75% 이상을 달성했다. 특히 눈에 띄는 것은 사망 위험 예측이다. 환자가 향후 사망할 가능성을 84%의 정확도로 맞췄다. 치매는 85%, 심근경색은 81%, 심부전은 80% 정확도를 보였다. 이 수치는 '콘코던스 지수'라는 측정 방식으로 계산했는데, 100명 중 84명의 위험도 순서를 정확하게 맞춘다는 뜻이다. 연구팀은 6년이라는 기간을 기준으로 삼았다. 예를 들어 2020년에 수면 검사를 받은 사람이 2026년까지 심장병에 걸렸다면 AI의 예측이 맞은 것으로 본다. 1년 후부터 6년 후까지 다양한 기간으로 테스트했는데, 대체로 비슷한 정확도를 유지했다. 질병 종류도 다양하다. 암 중에서는 전립선암(90%), 유방암(90%), 피부암(83%)을 잘 예측했다. 뇌 관련 질환에서는 파킨슨병을 93% 정확도로 찾아냈다. 심혈관 질환에서는 고혈압성 심장병(88%), 뇌출혈(82%)의 위험을 정확하게 예측했다. 다른 병원 데이터로도 정확하게 작동 AI 모델이 실제로 쓰기 위해서는 다른 병원에서도 잘 작동해야 한다. 연구팀은 이를 확인하기 위해 '수면 심장 건강 연구'라는 별도의 데이터로 테스트했다. 이 데이터는 40세 이상 성인 6,441명의 정보를 담고 있으며, 테스트 결과는 인상적이었다. 뇌졸중 예측 정확도 82%, 울혈성 심부전 85%, 심혈관 질환 사망 88%를 기록했다. 이 데이터에는 협심증 환자 704명, 울혈성 심부전 환자 190명, 뇌졸중 환자 95명 등이 포함됐다. 처음 보는 데이터임에도 높은 정확도를 유지한 것이다. 하지만 시간이 지나도 정확할까? 이를 연구하기 위해, 연구팀은 2020년 이후 환자 데이터로도 별도 테스트를 진행했다. AI는 2020년 이전 데이터로만 학습했기 때문에 최신 데이터는 처음 보는 셈이다. 그럼에도 사망 위험 83%, 심부전 80%, 치매 83%의 정확도를 유지했다. 이는 의료 환경이 바뀌고 환자 특성이 달라져도 AI가 안정적으로 작동한다는 증거다. 나이·성별만 아는 것보다 훨씬 정확 일반적으로 병원에서는 환자의 나이, 성별, 체중 같은 기본 정보로 질병 위험을 추정한다. 예를 들어 나이가 많으면 암 위험이 높다는 식이다. 연구팀은 이런 방식과 비교하기 위해 나이, 성별, 체질량지수, 인종 정보만으로 예측하는 단순 모델을 만들었다. 결과는 명확했다. SleepFM은 질병 종류에 따라 5~17% 더 정확했다. 특히 뇌 질환에서 차이가 컸다. 노인성 치매의 경우 SleepFM은 정확도 99%를 기록한 반면, 기본 정보만 쓴 모델은 87%에 그쳤다. 근육 신경 장애는 81% 대 42%, 발달 지연은 80% 대 58%로 큰 격차를 보였다. 심혈관 질환에서도 마찬가지다. 동맥경화증은 92% 대 74%, 급성 폐성 심장병은 80% 대 74%였다. 당뇨병 합병증도 87% 대 79%로 SleepFM이 앞섰다. 흥미로운 점은 적은 데이터로도 잘 작동한다는 것이다. 연구팀이 데이터의 10%만으로 SleepFM을 학습시켰더니, 5배 많은 데이터로 학습한 단순 모델보다 오히려 정확했다. 심혈관 질환 사망, 울혈성 심부전, 심근경색, 뇌졸중 등 4개 질환에서 이런 결과가 나왔다. 이는 기본 학습이 잘된 AI는 적은 데이터로도 효율적으로 작동한다는 의미다. 뇌파는 치매, 호흡은 대사 질환 예측에 효과적 연구팀은 어떤 신호가 어떤 질병 예측에 중요한지 세밀하게 분석했다. 뇌파는 정신 질환과 신경 질환을 예측하는 데 가장 효과적이었다. 호흡 패턴은 호흡기 질환과 대사 질환을, 심전도는 심혈관 질환을 잘 예측했다. 수면 단계별로도 차이가 있었다. 얕은 수면(1/2단계)과 꿈꾸는 수면(렘수면)이 심혈관 질환과 뇌 퇴행성 질환 예측에 더 유용했다. 하지만 전체적으로는 모든 신호를 함께 분석할 때 가장 정확했다. 이는 수면이 여러 신체 시스템의 복합적인 상호작용이라는 것을 보여준다. 실제로 연구팀이 각 신호별로 별도의 AI를 만들어 비교했더니, 모든 신호를 결합한 모델이 최고 성능을 냈다. 뇌파만 보거나 심전도만 봐서는 전체 건강 상태를 파악하기 어렵다는 뜻이다. 잠이 미래 건강을 말해주는 이유 왜 수면만으로 이렇게 많은 질병을 예측할 수 있을까? 연구팀은 수면 문제가 많은 질병의 초기 신호라고 설명한다. 실제로 정신 질환, 뇌 퇴행성 질환, 심혈관 질환 등은 본격적인 증상이 나타나기 전에 수면 장애가 먼저 발생하는 경우가 많다. 알츠하이머병의 경우 초기에 깊은 수면이 줄어들고, 꿈꾸는 수면에 문제가 생기며, 특정 뇌파 활동이 감소한다. SleepFM은 이런 패턴을 정확도 91%로 포착했다. 파킨슨병은 종종 꿈꾸는 수면 중 이상 행동이 먼저 나타나는데, AI는 이를 89% 정확도로 찾아냈다. 심혈관 질환 예측에서도 수면 데이터가 유용했다. 10년 후 심혈관 질환 사망 위험을 88% 정확도로 예측했는데, 이는 이전 연구(84%)보다 높은 수치다. 심방세동은 81% 정확도를 기록했다. 연구팀의 분석에 따르면 심전도와 호흡 신호가 함께 작용해 심혈관 질환을 예측하는 것으로 나타났다. 수면 무호흡과 심장 활동 정보가 통합되는 것이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 일반인도 이 검사를 받을 수 있나요? A. 이 연구는 병원에서 시행하는 수면다원검사 데이터를 활용했습니다. 수면다원검사는 수면 장애가 의심될 때 병원에서 받을 수 있는 검사로, 하룻밤 병원에 입원해 여러 센서를 몸에 부착하고 잠을 잡니다. 현재 SleepFM은 연구 단계이며, 실제 임상에서 사용되려면 추가 검증이 필요합니다. Q2. 웨어러블 기기로도 이런 예측이 가능한가요? A. 이 연구는 병원급 정밀 장비로 측정한 뇌파, 심전도, 근전도, 호흡 신호를 모두 사용했습니다. 현재 시중의 웨어러블 기기는 심박수나 움직임 정도만 측정하므로 동일한 수준의 예측은 어렵습니다. 다만 연구팀은 웨어러블 수면 기술이 발전하면 향후 이런 모델이 실시간 건강 모니터링에 활용될 가능성을 언급했습니다. Q3. 왜 수면만으로 이렇게 많은 질병을 예측할 수 있나요? A. 수면은 뇌, 심장, 호흡, 근육 등 여러 신체 시스템이 동시에 작용하는 복잡한 과정입니다. 많은 질병들이 본격적인 증상을 보이기 전에 수면 패턴에 먼저 영향을 미칩니다. 예를 들어 알츠하이머병은 초기에 깊은 수면과 특정 뇌파가 감소하고, 파킨슨병은 꿈꾸는 수면 중 이상 행동이 나타나며, 심혈관 질환은 호흡 패턴과 심박수에 변화를 일으킵니다. SleepFM은 이런 미세한 패턴을 포착해 미래 질병 위험을 예측합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 21:18AI 에디터

음식에 파리 있다면 환불 요구…알고 보니 AI 합성?

인공지능이 점점 더 정교한 사기에 활용되면서, 이제 음식 배달 서비스까지 그 표적이 되고 있다. 더 타임스(The times)가 1일(현지 시각) 보도한 내용에 따르면, 우버이츠(Uber Eats), 도어대시(DoorDash) 등 배달앱 이용자들이 생성형 AI를 악용해 주문한 음식 사진을 조작한 뒤 환불을 받아내는 사례가 급증하고 있다고 밝혔다. 사람들은 AI를 이용해 멀쩡한 음식을 덜 익은 것처럼 보이게 하거나, 케이크가 녹아내린 것처럼 만들고, 심지어 음식에 파리를 합성하는 등 다양한 방법으로 사진을 조작하고 있다. AI의 사진 재현 능력이 발전하면서 육안으로는 구분하기 어려운 수준의 가짜 증거물을 만들어내는 것이 가능해졌다. 게다가, 범행을 저지른 이용자들은 자신들의 행위를 SNS에 공공연히 자랑하기까지 했다. 한 이용자는 X(구 트위터)에 "도어대시에서 환불받기 위해 사진을 편집했다"며 디지털 조작으로 햄버거를 덜 익은 것처럼 만든 사진을 자랑스럽게 게시했다. 또 다른 이용자는 스레드(Threads)에 포토샵으로 치킨 다리를 덜 익은 것처럼 보이게 만든 과정을 상세히 공개했다. 해당 이용자는 배달앱 고객지원팀으로부터 "불편을 끼쳐 죄송하다"는 사과와 함께 26.60달러(한화 약 3만 8,000원)를 환불받았다고 밝혔다. 한 사기꾼은 자신이 주문한 디저트 위에 디지털로 파리를 합성하기도 했다. 이 같은 게시물에 대해 많은 누리꾼이 강한 비판을 쏟아냈다. "전혀 웃기지 않는다"는 반응과 함께 "당신과 다른 사기꾼들이 다 감옥에 가길 바란다", "20달러도 못 내는 주제에 그렇게까지 노력할 필요가 있나"라는 부정적인 댓글이 달렸다. 한 누리꾼은 "이런 행위는 도어대시가 아니라 주문받은 식당에 피해를 준다"고 지적했다. 실제로 배달 플랫폼들은 환불 요청이 들어오면 별다른 조사 없이 환불을 처리하는 경우가 많으며, 이 경우 손실은 대부분 식당이 떠안게 된다. 이러한 AI 환불 사기는 고객만의 전유물이 아니다. 지난달에는 도어대시 배달원이 고객에게 음식을 제대로 전달했다는 증거로 AI로 생성한 음식 사진을 보낸 사례도 있었다. 해당 고객은 사기를 눈치챘지만, 향후 AI로 만든 이미지와 실제 음식을 구분하는 것이 사실상 불가능해질 수 있다는 우려가 나온다. 이 같은 AI를 활용한 음식 사진 조작 환불 사기는 미국과 영국에서 불법이지만, 배달 플랫폼들의 허술한 환불 정책으로 인해 계속 발생하고 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 15:06AI 에디터

AI, 일본 변호사 됐다...96점으로 시험 합격

인공지능(AI)이 복잡한 법률 시험에서 합격선을 넘은 것은 이번이 처음이다. 일본 게이오대학교 연구팀은 오픈AI의 GPT-4.1을 일본 변호사 시험에 맞게 학습시키고 스스로 답을 검증하는 방법을 적용해 객관식 부분을 통과했다고 발표했다. 이 연구는 AI가 단순히 법률 지식을 외우는 수준을 넘어, 여러 문제를 동시에 판단하고 정해진 형식에 맞춰 답할 수 있음을 보여준다. 문제 쪼개지 않고 원본 그대로 학습해 96점 획득 연구팀이 GPT-4.1을 학습시킨 결과, 2024년 일본 변호사 시험에서 96점을 받았다. 합격 기준인 93점을 넘긴 것이다. 가장 중요한 점은 시험 문제를 쉽게 바꾸지 않고 원본 형태 그대로 학습시켰다는 것이다. 일본 변호사 시험 객관식 문제는 특이한 방식으로 출제된다. 여러 개의 문장이 맞는지 틀렸는지 판단한 뒤, 그 결과를 조합해서 답해야 한다. 예를 들어 "112"처럼 각 문장의 정답 번호를 이어 붙여 제출해야 하는데, 하나라도 틀리면 전체가 오답 처리된다. 기존 연구들은 이런 복잡한 문제를 개별 O/X 퀴즈로 쪼개서 AI를 학습시켰다. 대표적으로 일본 변호사 시험 질의응답 데이터셋(JBE-QA)은 하나의 시험 문제를 여러 개의 독립된 질문으로 나눴다. 이 방식으로는 2,770개의 많은 문제로 학습할 수 있었다. 연구팀이 GPT-4.1을 JBE-QA로 학습시켜 실제 시험 형식으로 평가했을 때 64점밖에 받지 못했다. 반면 원본 형식을 유지한 460개 문제(2019-2023년 과거 시험)로 학습시킨 GPT-4.1은 92.3점을 기록했다. AI가 스스로 답을 재검토해 정답률 49%까지 향상 연구팀은 '자체 검증'이라는 방법을 추가로 적용했다. 이는 학습된 GPT-4.1이 답을 낸 후, 같은 모델이 스스로 그 답이 문제 조건에 맞는지 다시 확인하는 것이다. 중요한 것은 별도의 AI를 추가하는 게 아니라, 같은 GPT-4.1 모델에 다른 질문 방식(프롬프트)을 적용해 자기 답을 점검하게 만든다는 점이다. 이 과정은 한 번의 추가 계산만 필요하다. 자체 검증을 적용한 결과, 정답률은 46.8%에서 49.4%로 올랐고, 시험 점수는 92.3점에서 94.7점으로 증가했다. 이는 모델이 법률 지식이 부족해서가 아니라, 여러 문장을 함께 판단할 때 일관성을 유지하지 못해서 틀리는 경우가 많다는 것을 보여준다. 자체 검증은 이런 논리적 모순을 효과적으로 고쳐준다. 흥미로운 점은 이 방법이 학습하지 않은 기본 GPT-4.1에도 적용 가능하다는 것이다. 추가 학습 없는 기본 GPT-4.1 모델은 자체 검증으로 68.3점에서 76.3점으로, JBE-QA로 학습한 GPT-4.1은 64점에서 80.7점으로 성적이 올랐다. 이는 자체 검증이 특정 학습 방식에만 효과적인 게 아니라 범용적으로 사용할 수 있는 기법임을 보여준다. 여러 AI 협력보다 혼자 푸는 게 더 효과적 연구팀은 여러 AI가 협력하는 방식도 실험했다. 정보를 찾는 AI, 검증하는 AI, 지식을 추출하는 AI, 최종 답을 내는 AI로 구성된 시스템을 만들었다. 법률 분야에서 여러 AI가 협력하면 좋다는 기존 연구들과 달리, 이번 실험에서는 오히려 성적이 떨어졌다. 같은 학습된 모델을 여러 역할로 나눠 사용한 시스템은 75.7점, 역할마다 따로 학습한 모델들을 사용한 시스템은 71.0점에 그쳤다. 이는 단일 모델의 94.7점에 비해 훨씬 낮은 점수다. 연구팀은 엄격한 형식 규칙이 있는 시험에서는 AI들 사이에서 오류가 전달되고 쌓이는 문제가 생긴다고 분석했다. 특히 따로 학습된 모델들은 서로 다른 방식으로 생각해서 결과를 합치기 어려웠다. 원본 형식 유지가 법률 AI 성능의 핵심 이번 연구는 법률 AI 평가에서 중요한 교훈을 준다. 쉬운 테스트에서 높은 점수를 받는다고 해서 실제 시험을 통과할 수 있는 건 아니라는 것이다. JBE-QA로 학습한 GPT-4.1은 2,770개의 많은 문제로 법률 지식을 배웠지만, 여러 문장을 함께 판단하는 능력은 배우지 못했다. 그 결과 개별 문장 정답률이 50%가 넘어도 전체 답안에서는 0점을 받는 경우가 자주 발생했다. 연구팀은 원본 형식을 지키는 것이 법률 AI 학습의 핵심이라고 강조한다. 원본 시험 형식을 유지한 학습 문제가 비록 460개로 적더라도, GPT-4.1 안에 이미 있는 숨겨진 지식을 효과적으로 끌어낸다는 것이다. 자체 검증은 이 효과를 더욱 키워서, 모델이 자신의 답을 다시 평가하고 정리하도록 만든다. 시험 과목별로는 헌법, 민법, 형법 중 민법에서 42.3점으로 가장 높은 점수를 받았다. 일본 변호사 시험은 각 과목에서 40% 이상의 점수를 받아야 하는데, 연구팀이 학습시킨 GPT-4.1은 이 조건도 충족했다. 다만 이번 연구는 객관식 부분만 다뤘으며, 논술형 문제는 포함하지 않았다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 자체 검증이란 무엇이며 어떻게 작동하나요? A. 자체 검증은 AI가 답을 낸 후 스스로 그 답이 맞는지 다시 확인하는 방법입니다. 같은 모델(GPT-4.1)에 다른 방식의 질문(프롬프트)을 주어 자기 답을 문제와 대조하며, 명백히 틀렸을 때만 수정합니다. 추가 학습 없이 한 번의 계산만으로 가능하며, 여러 문장을 함께 판단할 때 생기는 모순을 효과적으로 고쳐줍니다. Q. 왜 문제를 쪼개지 않고 원본 형식으로 학습했나요? A. 일본 변호사 시험은 여러 문장을 동시에 판단해 정해진 형식으로 답해야 합니다. 문제를 개별 O/X로 쪼개면 각 문장은 잘 판단할 수 있지만, 실제 시험에서 요구하는 종합 판단 능력은 배울 수 없습니다. 실제로 개별 정답률이 50%가 넘어도 전체 답안 형식에서는 0점을 받는 경우가 많았습니다. Q. 이 AI가 실제 변호사 일을 할 수 있나요? A. 아니요. 이번 연구는 객관식 시험 통과만을 다뤘으며, 실제 법률 상담이나 논술형 법률 논증 능력은 평가하지 않았습니다. 시험 합격이 실무 능력이나 윤리적 판단력을 의미하지는 않으므로, 법률 분야에서 AI를 활용할 때는 반드시 전문가의 감독이 필요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.08 14:17AI 에디터

챗GPT 전체 대화 5%가 건강 상담...오픈AI, 챗GPT 의료 활용 보고서 공개

오픈AI가 발표한 보고서에 따르면, 미국인들이 복잡한 의료 시스템을 헤쳐나가는 데 챗GPT를 적극 활용하고 있다. 전 세계 챗GPT 대화 중 5% 이상이 건강 관련 질문이며, 8억 명이 넘는 정기 사용자 중 4명 중 1명은 매주 건강 질문을 하고, 4천만 명 이상은 매일 챗GPT에 건강 질문을 던진다. 매주 160만~190만 건, "보험 어떻게 골라야 하나요?" 해당 보고서에 따르면, 사용자들은 매주 150만~190만 건의 건강보험 관련 질문을 한다. 보험 플랜 비교, 가격 이해, 청구 및 빌링 처리, 자격 요건 및 등록, 보장 범위 및 비용 분담 세부 사항 등을 파악하기 위해 챗GPT를 사용한다. 오픈AI 조사에 따르면 미국 성인 5명 중 3명이 최근 3개월 동안 건강이나 의료 문제로 AI 도구를 사용했다. 이들은 증상을 확인하거나 탐색하기 위해(55%), 언제든지 질문하기 위해(52%), 의료 용어나 지시 사항을 이해하기 위해(48%), 치료 옵션에 대해 알아보기 위해(44%) AI를 활용한다. 몸이 아플 때 처음 정보를 얻거나, 병원 가기 전 준비, 의사의 지시 사항 이해, 병원비 청구와 보험 거부 결정 등의 행정 업무 처리에 AI를 사용한다. 밤 10시에 아이 열나면? 의료 대화 10건 중 7건이 병원 문 닫은 시간에 발생 오픈AI가 익명화된 사용자 데이터를 분석한 결과, 미국 내 건강 관련 대화 대부분이 일반적인 병원 진료 시간 밖에서 일어났다. 미국에서는 약 5명 중 1명이 농촌 지역에 살며, 2010년 이후 매년 평균 10개의 농촌 병원이 폐쇄되거나 입원 병상을 없애고 있다. 거의 절반(46%)의 농촌 병원이 적자 운영 중이며, 38개 주에 걸쳐 400개 이상의 병원이 폐쇄 위험에 처해 있다. 오픈AI는 차로 30분 이상 가야 병원이 있는 지역을 '병원 사막'으로 정의하고 데이터를 연구했다. 2025년 말 4주 동안, 미국 전역 병원 사막 지역에서 챗GPT는 매주 평균 58만 건 이상의 건강 관련 대화를 처리했다. 인구가 가장 적은 와이오밍주가 병원 사막 건강 대화 비율 1위(4.15%)를 기록했고, 오리건(3.4%), 몬태나(3.2%)가 뒤를 이었다. 한 달 대화 건수로는 오리건이 54,660건으로 1위, 텍사스(43,337건), 버지니아(39,886건), 뉴욕(39,083건)이 상위권을 차지했다. 몬태나주 마일스시티(인구 8,400명)의 가정의 마기 알버스 박사는 오픈AI 모델을 사용하는 오라클 임상 어시스트로 진료 기록을 자동 작성해 시간을 절약하고, 먼 거리를 이동해 온 환자들의 진료와 사후 관리에 집중한다. 의사 3명 중 2명 "AI 쓴다"... 간호사 절반도 매주 활용 미국의사협회에 따르면, 미국 의사의 66%가 2024년에 적어도 하나의 사례에 AI를 사용했다. 이는 2023년 38%에서 급증한 수치다. 의사의 21%가 환자 방문 시 청구 코드, 의료 차트, 메모 문서화에 AI를 사용했고, 12%가 환자 진단 보조에 활용했다. 행정 담당자, 의학 사서, 간호사, 약사를 포함한 미국 의료 종사자 5명 중 2명 이상이 직장에서 생성형 AI를 적어도 주 1회 사용한다. 월터스 클루워와 입소스가 312명의 의료 전문가를 대상으로 실시한 조사(2025년 2월 26일~3월 24일)에 따르면, 의학 사서가 주간 AI 사용 비율이 가장 높았고(53%), 간호사(46%), 행정 담당자(43%), 약사(41%), 의사(38%)가 뒤를 이었다. 이에 비해, 물리치료사, 영양사, 응급구조사 등 관련 보건 종사자는 26%만 주 1회 이상 AI를 사용했다. 의사 4명 중 3명이 AI 도구가 업무 효율성에 도움이 된다고 답했고, 72%는 진단 능력에 도움이 된다고 답했다. 2023년에서 2024년 사이 가장 큰 증가를 보인 분야는 스트레스 관리와 개인화된 진료 제공 능력이었다. AI 의료기기 규제 명확히 해야... 오픈AI, 정책 제안 오픈AI는 의료 분야 AI 사용을 안전하게 확대하기 위한 정책을 제안했다. 주요 내용은 과학적 발견 가속화를 위한 전 세계 의료 데이터의 개방과 안전한 연결, 의료 문제 해결을 위한 인프라 구축, AI로 창출될 의료 직종으로의 근로자 전환 지원, 소비자용 AI 의료기기 규제 경로 명확화, 의사 지원 AI 서비스 규제 범위 명확화 등이다. 특히 현재 미국 식품의약국의 의료기기 규제 프레임워크는 AI를 위해 설계되지 않았다. FDA의 전통적인 질병별 평가 방식은 AI 의료기기가 모든 질병에 대해 성능을 입증하라고 요구할 수 있는데, 이는 실현 가능하지도 필요하지도 않다. 오픈AI는 FDA가 업계와 협력해 안전하고 효과적인 AI 의료기기 혁신을 촉진할 명확한 규제 정책을 만들 것을 촉구했다. 오픈AI는 2026년 초에 의료 분야 AI에 대한 전체 정책 청사진을 발표할 예정이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT로 건강 상담받는 게 안전한가요? A1. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q2. 병원이 멀리 있는 곳에서 AI가 의료 문제를 해결할 수 있나요? A2. 챗GPT는 정보를 정리하고 의료 용어를 쉽게 풀어주지만 의사 진단이나 치료를 대신할 수 없습니다. 보험 계약서, 의사 지시사항, 병원 기록 같은 환자별 정보가 함께 제공되면 신뢰성이 높아지며, AI 정보는 반드시 의료 전문가에게 확인받아야 합니다. Q3. 의사 선생님들도 AI를 쓰나요? A3. 2024년 미국 의사의 66%가 AI를 사용했으며, 주로 진료 기록 작성, 청구 코드 문서화, 진단 보조에 활용합니다. 의사 4명 중 3명은 AI가 업무 효율성에 도움이 된다고 답했습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 21:21AI 에디터

"답변 40% 작성 시점에 오답 예측"… AI 오류 검증하는 기술 등장

AI가 스스로 "이 답변은 틀릴 것 같아요"라고 판단할 수 있을까? 캐나다 앨버타대학교 연구팀이 AI가 외부 도움 없이 자신의 오류를 예측하는 기술을 개발했다. '노시스(Gnosis)'라는 이름의 이 기술은 매우 적은 용량으로도 훨씬 큰 검증 시스템보다 뛰어난 성능을 보여준다. 연구팀은 이를 AI의 '자기 인식 능력'이라고 부른다. 외부 검증자 없이 AI 내부 신호만으로 오류 포착 해당 연구 논문에 따르면, 노시스는 AI가 답변을 만들어내는 과정에서 나타나는 내부 신호를 분석한다. 사람이 말을 할 때 표정이나 목소리 톤으로 확신의 정도를 알 수 있듯이, AI도 답변을 생성할 때 내부적으로 특정한 패턴을 보인다. 노시스는 바로 이 패턴을 읽어낸다. 기존 방법들은 대부분 외부의 도움이 필요했다. 여러 번 답변을 만들어 비교하거나, 별도의 큰 AI 모델을 동원해 답변이 맞는지 검증했다. 하지만 노시스는 AI가 답변을 만드는 바로 그 순간의 내부 작동 방식만 관찰한다. 연구팀은 이를 "AI의 뇌파를 읽는 것"에 비유한다. 노시스가 주목하는 것은 두 가지다. 첫째는 AI 내부의 '은닉 상태'라는 것인데, 이는 AI가 정보를 처리하면서 만들어내는 중간 결과물이다. 둘째는 '어텐션 패턴'으로, AI가 문제를 풀 때 어떤 정보에 집중하는지를 보여주는 지도 같은 것이다. 노시스는 이 두 가지를 압축해서 분석하며, 답변이 길어져도 분석 시간이 늘어나지 않는다는 장점이 있다. 용량은 500만, 성능은 80억급... 압도적 효율성 입증 노시스의 성능은 실험 결과로 입증됐다. 수학 문제 풀이, 상식 퀴즈, 전문 지식 질문 등 세 가지 테스트에서 노시스는 80억 개 용량의 스카이워크(Skywork) 검증 모델과 구글의 제미나이 2.5 프로를 모두 능가했다. 예를 들어 수학 문제에서 노시스는 정확도 지표에서 스카이워크와 제미나이보다 높은 수치를 기록했다. 더 놀라운 것은 효율성이다. 노시스의 용량은 약 500만에 불과하다. 이는 비교 대상인 80억 용량 모델의 1,000분의 1 수준이다. 마치 경차가 대형 트럭보다 빠르고 정확하게 목적지에 도착하는 셈이다. 속도 면에서도 노시스는 탁월하다. 1만 2,000단어 분량의 답변을 검증할 때 노시스는 0.025초가 걸렸고, 이는 80억 용량 모델보다 37배 빠른 속도다. 답변이 2만 4,000단어로 늘어나면 속도 차이는 99배까지 벌어진다. 일반 검증 모델은 답변이 길어질수록 검증 시간도 늘어나지만, 노시스는 답변 길이와 관계없이 항상 같은 시간이 걸린다. 개발 비용도 매우 저렴하다. 가장 큰 200억 용량 모델에 노시스를 적용하는 데 걸린 시간은 고성능 컴퓨터 2대로 약 12시간, 비용은 단돈 25달러였다. 기존의 대형 검증 모델들이 수백만 건의 데이터와 전문가의 평가를 필요로 하는 것과 비교하면 놀라운 차이다. 답변의 40%만 작성해도 결과 예측 가능 노시스의 또 다른 특징은 답변이 완성되기 전에도 결과를 예측할 수 있다는 점이다. 연구팀은 노시스가 완성된 답변으로만 학습했는데도, 답변의 40%만 작성된 시점에서 이미 최종 예측과 비슷한 정확도를 보인다는 사실을 발견했다. 추가 훈련 없이 나타난 능력이다. 이는 실용적으로 매우 유용하다. AI가 답변을 만들다가 "이건 틀린 것 같아"라고 조기에 판단하면, 즉시 작성을 멈추고 다른 방법을 시도할 수 있다. 불필요한 계산을 하지 않아도 되니 비용과 시간이 절약된다. 또는 현재 AI로는 답하기 어렵다고 판단되면 자동으로 더 강력한 AI에게 질문을 넘길 수도 있다. 실험에서 노시스는 수학 문제와 상식 퀴즈 모두에서 40% 지점에 이미 다른 검증 방법들이 전체 답변을 본 후에야 도달하는 수준의 성능을 보였다. 연구팀은 이를 "AI가 자신의 추론 과정 초반에 이미 성공 여부를 감지한다"고 설명했다. 작은 AI가 큰 AI를 검증하는 시대 노시스는 '형제 모델 검증'이라는 독특한 능력도 보여줬다. 17억 용량 모델로 훈련한 노시스를 40억, 80억 용량 모델에 그대로 적용해도 높은 성능을 유지했다. 수학 문제 테스트에서 17억 기반 노시스는 80억 모델을 검증할 때 정확도 0.93을 기록했는데, 이는 80억 모델 전용으로 훈련한 노시스의 0.96에 근접한 수치다. 더 흥미로운 점은 이렇게 전이된 작은 노시스가 여전히 80억 용량의 스카이워크 검증 모델보다 뛰어나다는 것이다. 연구팀은 AI의 오류가 모델 크기와 상관없이 비슷한 패턴으로 나타나며, 따라서 작은 검증 시스템 하나로 여러 크기의 AI를 감독할 수 있다고 설명했다. 다만 이 능력은 비슷한 방식으로 작동하는 AI끼리에서 가장 효과적이며, 작동 방식이 크게 다른 AI 간에는 한계가 있다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 노시스는 어떻게 AI의 오류를 미리 알 수 있나요? A: 노시스는 AI가 답변을 만들 때 나타나는 내부 신호를 읽습니다. 마치 의사가 심전도나 혈압 같은 생체 신호로 환자의 건강 상태를 판단하듯이, 노시스는 AI의 '내부 작동 신호'를 분석해 답변이 맞을지 틀릴지 예측합니다. 다른 AI의 도움이나 추가 계산 없이 AI 스스로의 추론 과정만으로 오류를 감지합니다. Q2. 노시스의 가장 큰 장점은 무엇인가요? A: 매우 작은 용량으로 큰 검증 시스템보다 뛰어난 성능을 낸다는 점입니다. 노시스는 500만 용량으로 80억 용량 모델을 능가하며, 답변이 길어져도 검증 시간이 늘어나지 않습니다. 개발 비용도 25달러에 불과하고, 답변의 40%만 작성된 시점에서 이미 오류를 정확히 예측해 불필요한 작업을 줄일 수 있습니다. Q3. 노시스를 실제로 어떻게 활용할 수 있나요? A: AI 서비스에서 잘못된 답변을 미리 차단하는 데 활용할 수 있습니다. 예를 들어 챗봇이 복잡한 질문에 답할 때, 초기 단계에서 "이건 틀릴 것 같다"고 판단되면 즉시 더 강력한 AI로 전환하거나 답변을 중단할 수 있습니다. 이렇게 하면 계산 비용을 아끼면서도 더 정확한 서비스를 제공할 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 15:20AI 에디터

챗GPT 독주 끝났나…제미나이에 밀려 트래픽 22% 급락

인도의 IT 매체 digit이 6일(현지 시각) 보도한 내용에 따르면, 오픈AI 의 챗GPT가 구글이 제미나이 3 프로 모델을 선보인 이후 AI 경쟁에서 압박을 받고 있다. 최근 웹 트래픽 데이터는 지난 며칠간 사용자 방문이 급격히 감소했음을 시사했다. 분석 기업 시밀러웹(SimilarWeb)의 수치에 따르면, 챗GPT의 7일 평균 트래픽은 지난 6주 동안 약 22% 감소한 것으로 나타났다. 미국의 벤처 캐피털 회사 멘로 벤처스(Menlo Ventures)의 디디 다스(Deedy Das)가 자신의 X에 공개한 데이터를 보면, 챗GPT의 평균 방문자 수는 이 기간 동안 약 2억 300만 명에서 거의 1억 5,800만 명으로 줄어들었다. 이러한 감소는 온라인 활동이 둔화하는 시기인 연휴 기간과 겹쳤지만, 경쟁 플랫폼들이 비슷한 감소세를 보이지 않았기 때문에 주목을 받았다. 다스는 또한 현재 챗GPT의 가장 큰 소비자 대상 경쟁자인 구글 제미나이가 같은 기간 동안 안정적인 트래픽을 유지했으며, 현재 챗GPT 사용자 규모의 거의 40%에 달하는 청중을 확보하고 있다고 밝혔다. 이러한 대조는 생성형 AI 경쟁이 가열되면서 사용자들이 적극적으로 대안을 테스트하고 있을 수 있다는 추측을 불러일으켰다. 시밀러웹의 데이터는 더 많은 경쟁자들이 가시성을 확보하면서 지난 1년간 챗GPT의 지배력이 점진적으로 약화되고 있음을 보여준다. 제미나이와 xAI의 그록(Grok) 같은 플랫폼들이 꾸준히 사용자 기반을 확대했으며, 새로운 진입자들과 오픈소스 모델들이 관심을 더욱 분산시켰다. 이는 샘 알트먼 오픈AI CEO가 직원들에게 보낸 내부 메모에서 비상 상황을 선언한 이유일 수 있다. 내부 메모에서 그는 여러 프로젝트를 중단하고 팀들에게 제품 개선에 집중할 것을 요청했다. 오픈AI와 구글 모두 최신 트래픽 데이터에 대해 공개적으로 논평하지 않았다. 하지만 짧은 기간에 여러 주요 AI 출시가 집중되면서 사용자 참여 수치는 계속 변동성을 보일 것으로 예상된다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.07 14:37AI 에디터

스위스 시계 장인 손동작까지 3D 기록...명품 브랜드, AI로 '사라지는 기술' 보존 나섰다

글로벌 IT 컨설팅 기업 캡제미니(Capgemini)에 따르면, 럭셔리 산업이 인공지능 시대에 맞춰 근본적인 변화를 겪고 있다. 캡제미니는 리포트를 통해 AI가 럭셔리 브랜드의 장인정신, 고객 경험, 창작 과정을 어떻게 '보이지 않게' 강화하는지를 심층 분석했다. 가트너 "2026년 검색의 25%가 AI로 이동, 2028년 웹 트래픽 50% 이상 사라질 것" 리포트에 따르면, 가트너(Gartner)는 2026년까지 검색의 25%가 AI 인터페이스로 이동하고, 2028년까지 전통적인 웹 트래픽의 50% 이상이 사라질 것으로 예측했다. 이러한 변화는 럭셔리 산업에 특히 중요한데, 제품의 발견 가능성이 더 이상 구글 검색 결과 첫 페이지의 가시성에 달려있지 않고, 대화형 알고리즘과의 관련성에 달려있기 때문이다. 21세 비즈니스 스쿨 학생 루카스는 "럭셔리 브랜드는 우리가 제품을 발견하기 위해 웹사이트를 방문하지 않는다는 것을 이해해야 한다. 우리는 그저 어시스턴트에게 특정 요구에 맞는 최고의 제품을 추천해달라고 요청한다. 만약 당신의 브랜드가 AI에 의해 내 요청과 관련성이 있다고 인정받지 못하면, 당신은 내 세계에 존재하지 않는 것"이라고 말했다. Z세대 73%가 디지털 피로감 경험... "기술이 더 직관적이고 조용하길 원해" 보고서는 Z세대가 하루 평균 7.2시간을 온라인 콘텐츠 시청에 소비함에도 불구하고, 73%가 디지털 피로감을 경험한다고 밝혔다. 런던의 20세 디자인 학생 엠마는 "우리가 덜 디지털적인 것이 아니다. 우리는 기술이 더 직관적이고, 더 조용하며, 더... 역설적으로 인간적이기를 기대한다. 나는 하루 종일 스크린과 상호작용하며 시간을 보내고 싶지 않다. 나는 기술이 진짜 경험을 즐길 시간을 내게 주기를 원한다"고 설명했다. 실제로 Z세대의 65%는 더 복잡한 질문에 대해 인간 고객 서비스를 선호하지만, 46%는 빠르고 사실적인 답변을 얻기 위해 AI를 사용한다. 럭셔리 브랜드의 '보이지 않는 AI' 3대 원칙... "인터페이스 없이, 인간이 최종 판단" 캡제미니가 제시한 '인비저블 AI' 철학의 핵심은 세 가지 원칙으로 요약된다. 첫째, 기술적 인터페이스가 없어야 한다. 럭셔리 하우스의 고객은 인공지능과 상호작용하고 있다는 것을 결코 인식해서는 안 되며, 경험은 근본적으로 인간적이고 감각적이며 감정적으로 남아야 한다. 둘째, 인간 판단의 우위성이다. AI는 제안하고 인간이 나머지를 한다. 모든 알고리즘 추천, 예측 분석, 창작적 생성은 장인, 디자이너, 판매 어드바이저 등 인간 전문가에 의해 체계적으로 검증된다. AI는 결코 최종 결정을 내리지 않으며, 인간의 의사결정 능력을 향상시킬 뿐 그것을 찬탈하지 않는다. 셋째, 자동화가 아닌 증강(Augmentation)이다. 인간의 제스처를 기계적 시뮬레이션으로 대체하려는 어떤 종류의 자동화도 거부하며, 대신 창의성, 예술적 감수성, 주의력, 기억력과 같은 기존의 자연적 능력을 향상시키는 증강을 수용한다. 스위스 시계 제조사, AI로 장인 기술 보존... 동작 3D 맵 구축 보고서는 스위스 하이엔드 시계 제조 하우스가 개발한 '디지털 음악원(Digital Conservatory)' 사례를 소개했다. 이 완전 통합 시스템은 네 가지 요소로 구성된다. 첫째, 가장 뛰어난 시계 제작자들이 다양한 작업을 수행할 때의 동작을 포착하는 동적 제스처 맵으로, 가장 기본적인 기술부터 가장 희귀한 컴플리케이션까지 시계 제작 노하우의 3D 아틀라스를 만든다. 둘째, 최소한의 인터페이스를 통해 견습생들이 복잡한 제스처를 재현하도록 안내하는 교육 어시스턴트다. 셋째, 각 예외적인 시계를 분석하고 카탈로그화하여 디자인 맥락, 제기된 기술적 과제, 도입된 혁신과 연결하는 역사적 작품의 맥락 아카이브다. 넷째, 마스터 시계 제작자들의 일화, 기술 용어, 이야기를 보존하는 문화적 메모리로, 임상적 텍스트가 아닌 구술 내러티브 형식으로 접근 가능하다. 이 종합 시스템은 시계 제조를 자동화하는 데 사용되지 않고, 인간적 차원을 강화하면서 미래를 확보하는 노하우 보존 및 전승 생태계로 작용한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. '인비저블 AI'란 무엇인가요? A: 인비저블 AI는 가장 첨단 기술이 의도적으로 인간 뒤에서 사라지면서 럭셔리의 본질인 장인적 탁월함, 특권적 인간 관계, 진정한 감정을 강화하는 접근 방식입니다. 기술이 눈에 보이지 않게 작동하지만 모든 것을 바꾸는 존재로, 고객은 AI의 개입을 인식하지 못하지만 경험은 미묘하게 향상됩니다. Q2. Z세대는 럭셔리 제품을 어떻게 발견하나요? A: Z세대는 대화형 어시스턴트에게 직접 질문합니다. 예를 들어 파리 11구에 사는 22세 레아는 침대에서 일어나기도 전에 "복합성 피부에 적합하고 클린 포뮬러이며 기름기가 남지 않는 보습 스킨케어 제품을 원해요"라고 말합니다. 브랜드 언급도, 구글 검색도, 이커머스 웹사이트에서의 끝없는 스크롤도 없이, 대화형 어시스턴트가 즉시 수천 개의 제품을 분류하고 세 가지 옵션을 제안합니다. Q3. 럭셔리 브랜드는 AI 시대에 어떻게 대비해야 하나요? A: 브랜드는 SEO(검색 엔진 최적화)에서 GEO(생성형 엔진 최적화)로 전환해야 합니다. 이는 콘텐츠와 정보 아키텍처에 대한 완전한 재고를 요구하는 새로운 분야입니다. 디지털 콘텐츠를 두 부분으로 분리해야 하는데, 하나는 고객에게 직접 다가가는 가시적이고 경험적인 것으로 감정, 미학, 스토리텔링에 초점을 맞추고, 다른 하나는 AI 시스템을 위한 보이지 않지만 똑같이 신중하게 구축된 것으로 구조화된 데이터, 정확한 맥락, 제품과 그 고유성을 적절히 이해하는 데 필요한 특정 속성을 제공합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.06 17:29AI 에디터

AI 평가의 역설...기술 발전 아닌 '관심 끌기' 경쟁으로 변질됐다

AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규 AI 모델을 발표할 때 기술적 성능보다 'LM아레나' 같은 사용자 투표 플랫폼에서의 순위를 더 강조하는 현상이 나타나고 있다. 2025년 5월 구글의 데미스 하사비스가 신규 AI 모델 발표에서 'LM아레나 리더보드 1위'를 주요 성과로 내세운 것이 대표적이다. 이러한 현상이 AI 개발을 실제 문제 해결보다 '관심 끌기' 경쟁으로 왜곡하고 있다는 지적이 나온다. 구글이 자랑한 'LM아레나 1위', AI 평가가 인기 투표로 바뀌었다 2025년 5월 구글 행사에서 데미스 하사비스는 새 AI 모델 '제미나이 2.5 프로'를 소개하며 'LM아레나 리더보드' 모든 순위에서 1위를 차지했다고 발표했다. 이는 AI 개발이 기술 발전보다 '순위 경쟁'으로 변하고 있음을 보여준다. LM아레나는 'AI 모델을 평가하는 중립적이고 공개된 플랫폼'으로, 지금까지 300만 건 이상의 투표를 수집했다. 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 좋은지 선택하면, 투표 후 어떤 AI였는지 공개되고 순위표가 만들어진다. UC버클리가 주도한 LM아레나는 2023년 5월 시작해 2025년 4월 회사로 전환했으며, 5월에는 6억 달러(약 8,687억 원) 가치를 인정받았다. 9월에는 기업 대상 유료 평가 서비스를 시작했다. 현재 텍스트, 웹 개발, 이미지 등 8개 분야에서 AI들이 경쟁한다. 기존 시험은 한계, 전문가 평가는 현실적으로 불가능 LM아레나가 등장한 이유는 기존 평가 방식의 한계 때문이다. 연구진은 2023년 자체 AI 모델을 만들면서 "AI 챗봇이 발전함에 따라 현재의 공개 벤치마크로는 충분하지 않다"고 판단했다. 실제로 전문가 수준 시험 GPQA에서 AI 점수가 2023년 31%에서 2025년 87%로 급상승했지만, 연구진은 "사용자가 챗봇의 유용성을 인식하는 것과 기존 벤치마크 기준 사이에는 근본적 불일치가 있다"고 지적했다. 전문가 평가도 현실적으로 어려웠다. 공동 창립자 이온 스토이카는 "전문가들에게 평가를 부탁했지만 거의 모두 시간이 없다고 거절했다"고 말했다. 또 다른 창립자 아나스타시오스 앤젤로풀로스는 "세상은 전문가가 모든 것의 최종 판단자가 되는 것에 반대하는 방향으로 움직이고 있다"며 "박사 학위 없이도 가치 있는 의견을 가질 수 있다"고 강조했다. 연구진은 한때 AI로 AI를 평가하는 방식을 검토했다. 확장성과 설명 가능성이란 장점이 있었지만, 긴 답변을 선호하는 편향과 수학·추론 문제의 한계가 드러나 일반 사용자 평가로 전환했다. 공정성을 위협하는 세 가지 문제 아레나화의 결과는 '아레나 게이밍', 즉 AI를 오직 순위 올리기 목적으로 최적화하는 현상이다. 이 논문 저자를 포함한 AI 평가 연구자들은 세 가지 주요 문제를 지적한다. 첫째, 맞춤형 비교 문제다. LM아레나 새 버전은 사용자가 특정 용도를 설명하면 두 익명 모델의 성능을 비교해주는 방식을 도입했다. 둘째, 우대 특혜다. 연구에 따르면 구글, 오픈AI, 메타, 아마존 같은 대형 개발사는 여러 제출물을 비공개로 테스트할 수 있다. 또한 독점 모델 개발사는 훨씬 더 많은 테스트 기회를 받는다. 구글과 오픈AI는 LM아레나 전체 테스트의 각각 19.2%와 20.4%를 차지한다. 대형 개발사가 다른 업체보다 상당한 특혜를 받는 셈이다. 셋째, 독립성 훼손이다. 가장 극단적 사례는 오픈AI가 수학 벤치마크 '프론티어매스' 개발 자금을 지원하면서도 이를 숨긴 경우다. 오픈AI의 o3 모델은 이 시험에서 25.3%를 달성했는데, 다른 모델들은 2%도 넘지 못했다. 나중에 오픈AI가 AI 평가용 수학 문제 300개 제작을 의뢰했고, 홀드아웃 세트를 제외하고 문제와 답에 접근할 수 있었다는 게 밝혀졌다. 오픈AI가 시험 의뢰자이자 응시자라는 점은 명백한 부정행위다. LM아레나 개발자들도 한계를 인식한다. "우리 사용자는 주로 LLM 애호가와 연구자들로 구성될 것"이며 "이는 편향된 분포를 초래할 뿐 아니라, 치열한 경쟁 덕분에 평가 과정을 조작하려는 시도"로 이어질 것으로 본다. 관심 끌기 경쟁이 AI 발전을 왜곡한다 논문 저자는 AI 혁신이 '관심 끌기' 경쟁으로 변하면서 세 가지 문제가 생긴다고 경고한다. 첫째, 점진적 개선에만 매달리게 된다. 벤치마크와 리더보드는 시간이 지나면서 순위가 조금씩 바뀌는데, 이런 작은 변화가 마치 의미 있는 발전인 것처럼 보이게 만든다. 결국 개발자들은 실제로 유용한 모델을 만드는 대신 선두 모델의 점수를 조금이라도 앞서는 데만 집중하게 된다. 둘째, 복잡한 현실을 지나치게 단순화한다. AI 업계에서 관심을 끄는 것은 해당 분야의 본질적 가치가 아니라 특정 모델이나 경쟁의 화제성이다. 이 때문에 복잡한 현실 세계의 문제들이 단순한 숫자와 토큰으로 환원되는 현상이 가속화되고 있다. 셋째, 사용자 선호 수집이 산업의 핵심 전략이 됐다. 신문이 발행 부수를, TV가 시청률을 중시하듯, AI 산업도 관심을 측정할 지표가 필요했다. LM아레나는 AI 평가를 전문 연구자 영역에서 일반 사용자 영역으로 대폭 확장했다. 이제 사용자의 관심을 끌고 모으는 것이 AI 산업의 주요 목표가 됐으며, 이는 AI 기술을 무한정 '확장'하려는 산업 전체의 집착을 보여준다. 아레나 방식을 통해 AI 모델의 가치를 실제 작업 환경이나 사용 맥락과 무관하게 하나의 숫자로 결정할 수 있게 됐다. 하지만 이런 평가는 결국 아레나에서 끊임없이 쌓이는 사용자 투표에만 의존한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. LM아레나는 어떻게 AI를 평가하나요? A: 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 나은지 선택합니다. 투표 후 AI 정체가 공개되고, 투표가 쌓여 브래들리-테리 통계 모델로 점수가 계산되며 순위표가 만들어집니다. Q2. 아레나 게이밍이란 무엇이고 왜 문제인가요? A: AI를 실제 유용성보다 아레나 순위만 올리려고 최적화하는 현상입니다. 대형 기업들이 비공개로 더 많이 테스트하거나, 오픈AI처럼 벤치마크 개발에 자금을 대면서 숨긴 것이 문제입니다. 공정한 경쟁 원칙을 무너뜨리고 AI 연구의 실제 가치를 왜곡합니다. Q3. AI 평가의 아레나화가 미치는 영향은 무엇인가요? A: 세 가지 영향이 있습니다. 첫째, 실제 문제 해결보다 순위를 쫓는 점진적 개선이 강화됩니다. 둘째, 복잡한 현실을 단순한 토큰으로 축소하는 현상이 가속화됩니다. 셋째, 사용자 선호 표현 수집이 AI 산업의 핵심 전략이 되면서 선호 표현의 중요성이 깊어집니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 20:18AI 에디터

"고독사 75%가 40~60대"…AI 안부전화로 중장년 고립 막는다

한국이 초고령사회로 진입하며 복지와 돌봄 분야에서 AI 기술을 활용한 혁신이 시급해졌다. 2024년 12월 23일 65세 이상 인구 비중이 20%를 넘어서며 초고령사회에 진입한 한국은 송파 세모녀 사건(2014년)부터 가로수길 고독사(2025년)까지 반복되는 복지 사각지대 비극을 막기 위해 AI 기반 선제적 발굴 시스템을 본격화하고 있다. 한국지능정보사회진흥원(NIA)은 리포트를 통해 신청주의 복지 제도의 한계를 극복하고 사람 중심의 AI 활용 방안을 제시했다. '신청 대기' 복지에서 'AI 선제 발굴'로 한국 정부는 2014년 송파 세모녀 사건을 계기로 사회보장급여법을 제정하고, 2015년 12월부터 빅데이터를 활용한 복지 사각지대 발굴 시스템을 운영해왔다. 이 시스템은 단전, 단수, 통신비 체납, 금융 연체, 의료 위기, 범죄 피해 등 다양한 정보를 수집해 위기 가능성이 높은 후보군을 선정한다. 2015년 18종이었던 연계 정보는 2025년 현재 47종까지 확대됐으며, 2개월마다 약 20만 명을 발굴해 지자체 보건복지팀이 일일이 확인한 뒤 필요한 서비스를 지원한다. 2015년 12월부터 2023년까지 단전, 단수 등 위기 정보를 보유한 666만 명(누적)의 위기 가구를 발굴하여 290만 명(누적)에게 기초 생활 보장, 긴급 지원 등 공적 급여와 민간 자원 연계 등 복지서비스를 지원했다. 2024년 7월부터는 AI를 활용한 초기 상담이 시범 적용됐다. 업무 담당자가 대상자에게 전화하기 전 문자메시지를 발송하고 긴급 상황 및 복지 욕구를 조사해 위기 가구의 복지 욕구를 신속히 파악하도록 했다. 이는 공무원이 심층 상담에 집중할 수 있게 하는 동시에 초기 단계에서 위기 징후를 놓치지 않도록 돕는다. 그러나 현재 시스템은 한계도 있다. 발굴된 대상자 중 실제 지원 대상자와 비대상자로 분류되며 비대상자는 회차별 약 11~14% 수준이다. 연락두절이나 지원 거부 등 비대상자 관리 체계가 아직 미흡하다. 리포트는 위기 정보 변수를 정교화하고, 이미 다른 제도로 보호받는 집단을 반복 발굴에서 제외하는 등 시스템 개선이 필요하다고 제안했다. 고독사 3,661명 시대, 75%가 40~60대… AI 안부확인·돌봄 로봇 도입 한국의 고독사 사망자는 2022년 3,559명에서 2023년 3,661명으로 증가했으며, 특히 40~60대 중장년층이 2017년부터 2023년까지 발생한 고독사 사망자 21,897명 중 74.8%를 차지해 더 이상 노년층만의 문제가 아니다. 1인 가구 급증이 사회적 관계망을 약화시키며 고독사를 부추기는 핵심 요인으로 작용하고 있다. 이에 서울, 광주 등 전국 다수 지방자치단체가 SKT, KT 등 민간 통신사의 AI 기술을 활용해 독거노인 등 1인 취약가구를 대상으로 AI 안부확인 서비스를 도입했다. 서울시는 AI가 주 1회 자동으로 전화를 걸어 건강, 식사, 운동, 약 복용, 불편사항 등을 확인하는 'AI 안부확인 서비스'를 19개 자치구에서 약 1만 2천 가구에 제공한다. 또한 휴대전화 통신 이력, IoT 디바이스, 모바일 앱 걸음수를 종합 모니터링하는 '똑똑안부서비스', 통신 빅데이터와 전력사용량을 AI로 분석하는 'AI안부든든서비스' 등 다양한 스마트 안부 확인 서비스를 운영 중이다. 돌봄 로봇 분야에서도 혁신이 진행되고 있다. 정부는 고령자의 이승보조, 욕창예방, 배설보조, 식사보조, 이동지원, 소통, 운동보조, 목욕보조, 모니터링 등을 위한 돌봄 로봇 9종 개발 및 실증 사업을 추진하고 있으며, AI 기반 말동무 기능을 통한 독거노인의 우울감 해소 및 치매 환자 인지 훈련을 위한 반려 로봇도 보급하고 있다. 단양군에서 AI 반려로봇을 보급한 결과, 한국형노인우울척도(K-GDS)에서 우울증 지수가 평균 7.3점에서 3.9점으로 개선되는 효과를 보였다. 304만 자격증 vs 64만 실제 인력… 돌봄 공백, AI가 메운다 2024년 노인장기요양보험 인정자 수는 116만 5,030명으로 전년 대비 6.1% 증가했으며, 2024년 한 해 노인장기요양 급여 비용은 16조 1천 762억 원으로 전년 대비 11.6% 늘며 처음으로 16조 원을 돌파했다. 그러나 돌봄 서비스의 핵심 공급원인 돌봄 인력은 심각한 공급 부족과 높은 이직률에 시달리며 돌봄 공백이 현실화되고 있다. 요양보호사 자격 소지자는 지속 증가하여 2024년 기준 304만 명 규모이나 실제 현장에서 일하는 인력은 63.7만 명 수준이다. 돌봄 노동은 높은 수준의 신체적·감정적 노동 강도를 요구하지만, 낮은 임금과 열악한 근로 환경으로 인해 신규 인력 유입이 단절되고 기존 인력마저 빠르게 소진되고 있다. 정부는 노동공급 감소로 인한 돌봄 인력 부족에 대비하여 스마트돌봄 서비스를 추진하고 있다. AI 기반 비접촉식 안전·건강 모니터링 장치를 통해 체온·호흡 등 생체 신호를 자동 감지하고, 낙상 위험·자세 변화·수면 상태 등을 실시간 분석하여 건강 이상을 조기 탐지한다. AI 순찰 로봇을 활용해 요양 보호사의 순찰 업무를 보조하고, 이상 징후 감지 시 즉시 경보 및 응급 상황 알림을 제공한다. 인공지능(AI), 사물인터넷(IoT), 센서, 로봇 기술을 통합한 스마트 요양시설 통합관제 시스템을 구축하여 시설 내 돌봄 효율과 안전성을 향상시키고 있다. 네덜란드 SyRI 실패 교훈… '투명성·공정성' 없는 AI는 오히려 역효과 리포트는 네덜란드의 복지 사기 탐지 시스템 SyRI 사례를 주요 경고 사례로 제시했다. 2020년 2월 네덜란드 헤이그 법원은 정부가 빈곤층 커뮤니티를 대상으로 운영하던 SyRI 시스템의 사용 중단을 명령했다. SyRI는 여러 정부 기관이 보유한 민감 개인정보를 비공개 알고리즘으로 분석해 복지 사기 가능성이 높은 개인을 식별했지만, 알고리즘의 작동 원리가 공개되지 않은 블랙박스 상태로 운영됐고 특히 저소득 이민자 밀집 지역을 집중 대상으로 삼아 차별적 영향을 초래했다. 법원은 SyRI가 유럽인권조약이 보장하는 사생활 보호권을 침해한다고 판결했다. 이 사례는 공공 영역에서 AI 도입이 투명성, 공정성, 프라이버시 보호 등 국민 신뢰 확보를 전제하지 않을 경우 역효과를 초래할 수 있음을 보여준다. 리포트는 복지·돌봄 분야의 AI 활용이 기술이 인간을 대체하는 방식이 아닌, 인간의 역할을 강화하고 보호하는 방향에서 사회적 합의와 원칙을 기반으로 추진돼야 한다고 강조했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 복지 사각지대 발굴 시스템은 어떻게 작동하나요? A. 정부는 단전, 단수, 통신비 체납, 금융 연체 등 47종의 위기 정보를 2개월마다 수집해 빅데이터 분석 모델로 위기 가능성이 높은 약 20만 명을 선정합니다. 지자체 보건복지팀이 전화나 방문으로 확인한 뒤 필요한 복지 서비스를 지원합니다. Q. AI 안부확인 서비스는 무엇인가요? A. AI가 주 1회 자동으로 독거노인 등에게 전화를 걸어 건강, 식사, 약 복용 등을 확인하는 서비스입니다. 서울시는 약 1만 2천 가구에 이 서비스를 제공하며, 통신 이력과 전력 사용량을 AI로 분석하는 서비스도 함께 운영합니다. Q. 돌봄 인력 부족은 얼마나 심각한가요? A. 요양보호사 자격증 소지자는 304만 명이지만 실제 현장에서 일하는 인력은 63.7만 명에 불과합니다. 낮은 임금과 열악한 근로 환경으로 인해 신규 인력 유입이 단절되고 기존 인력도 빠르게 소진되고 있어, 정부는 AI 기반 스마트 돌봄 서비스로 이를 보완하고 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 17:26AI 에디터

AI를 왜 믿냐하면…"사람을 못 믿어서"

콜롬비아 라사바나대학교 연구팀이 흥미로운 사실을 발견했다. 사람들이 AI를 신뢰하는 이유가 AI 자체가 똑똑해서가 아니라, 주변 사람들을 믿지 못하기 때문이라는 것이다. 연구팀은 이를 '옮겨진 신뢰(deferred trust)'라는 개념으로 설명했다. 쉽게 말해, 사람에 대한 믿음이 무너지면 그 믿음이 AI로 옮겨간다는 뜻이다. 챗GPT vs 성직자, 누구를 선택했을까? 해당 논문에 따르면, 연구팀은 55명의 대학생을 대상으로 실험을 진행했다. 참가자들에게 30가지 다양한 상황을 제시하고, 누구에게 조언을 구할지 선택하게 했다. 선택지는 챗GPT나 제미나이 같은 AI 챗봇, 알렉사나 시리 같은 음성 비서, 친구, 어른, 성직자 등 다섯 가지였다. 질문도 다양했다. "전구는 언제 발명됐나요?" 같은 사실 확인 질문부터 "누군가에게 복수하고 싶은데 어떻게 해야 하나요?" 같은 도덕적 고민까지 포함됐다. 참가자는 심리학과 간호학을 전공하는 학부생들이었고, 평균 나이는 19.38세, 55명 중 45명이 여성이었다. 결과를 보면, 전체적으로는 어른이 35.05%로 가장 많이 선택됐다. AI는 28.29%로 2위였다. 하지만 상황에 따라 선호도가 크게 달랐다. 연구팀이 상황을 세 그룹으로 나눠 분석했더니, 사실 확인이 필요한 질문에서는 AI가 73.8%로 압도적이었다. 반대로 감정이나 도덕과 관련된 문제에서는 친구나 어른을 더 많이 선택했다. 사람 못 믿을수록 AI를 더 선택한다 연구팀은 참가자 55명이 30가지 상황에서 보인 선택 패턴을 분석했다. 누구는 대부분 AI를 선택했고, 누구는 주로 어른을 선택하는 식으로 각자 패턴이 달랐다. 이 패턴이 비슷한 사람끼리 묶어보니 자연스럽게 세 그룹으로 나뉘었다. 1그룹(10명)은 선택이 비교적 골고루 퍼져 있었다. 어른을 33% 정도 선택해 가장 많이 골랐지만, AI도 27%, 친구도 20% 선택했다. 2그룹(33명)은 어른을 압도적으로 선호했다. 전체 선택의 53%가 어른이었다. 반면 AI는 10%만 선택해 세 그룹 중 가장 낮았다. 3그룹(12명)이 특히 눈에 띄었다. 이 그룹도 어른을 가장 많이 선택했지만(42%), AI를 고른 비율이 33%로 다른 그룹보다 훨씬 높았다. 그렇다면 3그룹 사람들은 어떤 특징이 있을까? 연구팀이 추가로 분석해봤더니 공통점이 발견됐다. 먼저, 주변 사람들을 잘 믿지 않았다. 성직자, 친구, 어른 모두에 대한 믿음이 낮았다. 특히 성직자를 못 믿는 사람일수록 이 그룹에 속할 가능성이 가장 높았다. 재밌는 점은 이들이 평소 기술을 많이 쓰는 사람들이 아니었다는 것이다. 스마트폰이나 컴퓨터 사용 시간도 적었고, 기술 관련 교육을 받은 경험도 적었다. 그런데도 AI는 많이 선택했다. 대신 이들은 경제적으로 여유가 있는 편이었다. 소득 수준이 높을수록 3그룹에 속할 확률이 높았다. '옮겨진 신뢰'란 무엇인가 연구팀이 제안한 '옮겨진 신뢰'는 이런 현상을 설명하는 개념이다. 사람에 대한 불신이 AI로의 의존을 높인다는 것이다. 기존 연구들은 AI를 단순한 도구로 봤다. 사람들이 AI를 쓰는 이유는 편리하고 유용하기 때문이라고 생각했다. 하지만 이 연구는 다른 시각을 제시한다. 사람들은 AI를 단순한 도구가 아니라 대화 상대처럼 인식한다. 챗GPT 같은 대형 언어모델이 사람처럼 자연스럽게 대화하면서, 사용자들은 AI에게 의도나 동기가 있다고 느끼기 시작했다. 그래서 AI를 믿을지 말지 판단할 때도 사람을 대하듯 한다는 것이다. 연구팀은 이것이 '신뢰 전이'와 관련 있다고 설명한다. 보통은 믿던 대상에게 쌓인 신뢰가 비슷한 다른 대상으로 옮겨간다. 하지만 AI의 경우는 반대다. 사람에 대한 나쁜 경험이 오히려 AI로의 신뢰를 만든다. 사람은 편견이 있고 신뢰할 수 없다고 느낄 때, AI가 더 중립적이고 유능해 보이기 때문이다. 어릴수록, 기술에 익숙할수록 AI를 덜 믿는다 흥미로운 점도 발견됐다. 나이가 어릴수록 AI를 덜 선택했다. 또 평소 기술을 많이 쓰는 사람일수록 AI 선택이 줄어들었다. 이는 기술을 잘 아는 사람이 AI의 한계도 잘 안다는 뜻이다. 연구팀은 이를 '인식적 경계'라는 개념으로 설명한다. 정보의 출처가 믿을 만한지 따져보는 능력인데, 기술에 익숙한 사람일수록 이 능력이 높다. AI가 아무리 자신 있게 답해도 쉽게 믿지 않는다는 것이다. 반대로 AI를 많이 믿는 그룹은 기술을 덜 쓰는 사람들이었다. 이들은 AI의 '유창함'에 더 잘 속는다. AI가 말을 잘하고 자신감 있게 답하면, 그 내용이 맞는지 틀리는지 따지지 않고 믿게 된다는 것이다. AI 투명성만으론 부족하다... 사용자 심리 이해가 먼저 이 연구는 AI 신뢰가 단순히 기술의 성능 때문만은 아니라는 점을 보여준다. 오히려 사람 관계에서의 실망이 중요한 역할을 한다. 연구팀은 AI의 투명성을 높이는 것만으로는 충분하지 않으며, 사용자가 왜 AI를 선택하는지 이해해야 한다고 강조한다. 다만 한계도 있다. 참가자가 모두 대학생이라 다른 연령대나 문화권에도 같은 결과가 나올지는 확실하지 않다. 또 실험이 텍스트 기반 가상 상황이었기 때문에, 실제 생활에서도 똑같을지는 더 연구가 필요하다. 연구팀은 앞으로 더 다양한 사람들을 대상으로, 실제 대화 상황에서 연구를 확장할 계획이라고 밝혔다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. '옮겨진 신뢰'가 뭔가요? A: 주변 사람을 믿지 못할 때, 그 믿음을 AI로 옮기는 현상입니다. 예를 들어 친구나 가족의 조언이 편파적이라고 느끼면, 더 중립적으로 보이는 AI를 선택하게 됩니다. AI 자체가 좋아서가 아니라 사람이 실망스러워서 선택하는 것입니다. Q2. 어떤 질문에 AI를 가장 많이 선택하나요? A: 사실을 확인하는 질문에서 AI가 압도적입니다. "전구는 언제 발명됐나요?" 같은 질문에는 73.8%가 AI를 선택했습니다. 반대로 "복수를 해야 할까요?" 같은 도덕적 고민이나 감정 상담에는 여전히 사람을 더 선택합니다. Q1. 사람을 못 믿으면 AI를 더 믿게 되나요? A: 그렇습니다. 이 연구에서 성직자, 친구, 어른 등 주변 사람에 대한 믿음이 낮은 사람일수록 AI를 더 많이 선택했습니다. 특히 어른에 대한 믿음이 낮을수록 AI 선택률이 크게 올라갔습니다. 연구팀은 이를 '옮겨진 신뢰'라고 부르며, 사람이 실망스러울 때 더 중립적으로 보이는 AI로 믿음이 옮겨간다고 설명합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.05 13:18AI 에디터

챗GPT에 속은 학생들 "아는 것만 물어볼래요"…'AI 검증 전략' 스스로 개발

그리스 고등학생 109명을 대상으로 한 실험에서 챗GPT-5의 허위 정보 생성(환각) 문제를 직접 경험한 학생들이 AI 사용 방식을 스스로 제한하는 흥미로운 행동 패턴이 발견됐다. 이들은 AI에게 질문할 때 자신이 이미 알고 있는 주제만 선택해 답변의 정확성을 검증할 수 있도록 하는 전략을 취했다. 연구자들은 이를 '인식론적 안전장치(epistemic safeguarding)'라는 새로운 개념으로 명명했다. AI 환각 경험 후 달라진 학생들의 대처법 해당 논문에 따르면, 그리스 국립 아테네대학교 연구팀은 2025년 9월부터 10월까지 그리스 아테네 인근 3개 고등학교의 16세 학생 109명을 대상으로 챗GPT-5 활용 수업을 진행했다. 이 연구의 핵심은 학생들에게 의도적으로 챗GPT-5의 환각 현상을 경험하게 했다는 점이다. 연구팀은 8시간에 걸친 수업에서 학생들에게 정보 검색, 이력서 작성, 문서 및 영상 요약, 이미지 생성, 퀴즈 제작 등 7가지 활동을 제공했다. 특히 챗GPT-5가 허위 과학적 사실을 만들어내거나 잘못된 역사·지리 정보를 제공하는 사전 확인된 질문들을 학생들에게 직접 입력하도록 했다. 학생들은 AI가 생성한 답변을 검색을 통해 확인하면서 오류를 직접 발견했다. 36명의 학생을 대상으로 한 심층 인터뷰에서 많은 학생들이 "앞으로는 내가 어느 정도 아는 주제에 대해서만 챗GPT에 물어볼 것"이라고 답했다. 이들은 자신이 기존에 알고 있는 지식을 활용해 AI의 답변이 정확한지 판단할 수 있을 때만 AI를 사용하겠다는 전략을 세운 것이다. 연구팀은 이러한 행동을 단순한 사실 확인을 넘어서 학생들이 AI 사용 영역을 스스로 제한함으로써 인식론적 통제권을 유지하려는 능동적인 메타인지 전략으로 해석했다. AI에 대한 태도는 긍정적이지만 불안감도 공존 학생들의 AI에 대한 태도를 측정하기 위해 연구팀은 'SATAI(Student Attitude Toward Artificial Intelligence)' 척도를 사용했다. 5점 척도로 측정한 결과, 전체 평균은 3.24점으로 중간 이상의 긍정적 태도를 보였다. 특히 "AI가 사람들의 삶을 더 편리하게 만든다"(3.65점)와 "학교에서 AI에 대해 배우는 것이 중요하다"(3.52점) 항목에서 높은 점수를 받았다. 그러나 세부적으로 살펴보면 흥미로운 차이가 나타났다. 인지적 태도(AI가 중요하다는 생각)는 3.44점, 정서적 태도(AI에 대한 감정)는 3.38점으로 비교적 높았지만, 행동적 의도(실제 AI를 사용하거나 관련 진로를 선택하려는 의향)는 3.04점으로 상대적으로 낮았다. "AI 분야에서 일자리를 선택하겠다"는 항목은 2.58점으로 가장 낮은 점수를 받았다. 이는 학생들이 AI의 교육적 가치는 인정하지만 실제 행동으로 옮기는 데는 주저하고 있음을 보여준다. 흥미롭게도 이전에 챗GPT를 사용해 본 경험이 있는 학생들(31.2%)은 모든 태도 항목에서 더 높은 점수를 보였다. 경험이 있는 학생들의 전체 SATAI 점수는 3.57점인 반면, 경험이 없는 학생들은 3.09점에 그쳤다. 이는 AI에 대한 직접적인 경험이 긍정적인 태도 형성에 중요한 역할을 한다는 것을 시사한다. 일자리 대체 우려가 학습 불안보다 크다 AI 관련 불안감을 측정하는 'AIAS(Artificial Intelligence Anxiety Scale)' 조사에서는 7점 척도로 측정한 결과, 학습 관련 불안은 3.09점으로 중간 이하 수준이었다. "AI 기술/제품 사용법을 배울 때 불안하다"(3.27점), "AI가 실제로 어떻게 작동하는지 배울 때 불안하다"(3.19점) 등의 항목이 이에 해당한다. 반면 일자리 대체와 관련된 불안은 4.07점으로 훨씬 높았다. 특히 "AI 기술/제품이 우리를 더 게으르게 만들까 봐 두렵다"는 항목이 4.46점으로 가장 높은 점수를 받았으며, "AI 기술/제품이 인간을 대체할까 봐 두렵다"(4.37점)도 높은 불안감을 나타냈다. 이는 고등학생들이 미래 직업 세계에서 AI로 인한 변화에 대해 상당한 우려를 갖고 있음을 보여준다. 주목할 만한 점은 AI에 대한 긍정적인 태도와 AI 관련 불안감이 거의 무관하다는 것이다. AI 태도 점수가 높은 학생들이라고 해서 AI 불안감이 낮지 않았고, 반대로 AI에 대해 부정적인 학생들이 더 불안해하는 것도 아니었다. 이는 학생들이 교육 현장에서 AI의 유용성을 인정하면서도 동시에 AI가 사회와 고용에 미칠 광범위한 영향에 대해서는 별도로 걱정할 수 있음을 의미한다. 성별 차이도 발견됐다. AI 불안감에서는 남녀 간 유의미한 차이가 없었지만, AI에 대한 태도에서는 여학생들이 남학생들보다 더 긍정적이었다. 특히 인지적 태도에서 여학생은 3.68점, 남학생은 3.09점으로 뚜렷한 차이를 보였다. 즉각적 피드백과 친숙한 인터페이스가 장점 질적 분석에서는 챗GPT-5 사용의 4가지 교육적 장점이 확인됐다. 가장 많은 학생(29명)이 언급한 것은 '새로운 지식 생성'이었다. 학생들은 챗GPT-5를 특정 주제에 대한 지식을 확장하는 도구로 활용했다. 다만 환각 현상을 경험한 후에는 자신이 사전 지식을 갖고 있는 주제에 대해 질문하는 경향을 보였다. 두 번째로 18명의 학생이 '즉각적인 피드백'을 장점으로 꼽았다. 학생들은 자신의 글쓰기에 대한 피드백을 요청하거나 영상과 파일 요약을 받을 때 빠른 응답 시간이 동기 부여와 시간 효율성 측면에서 유리하다고 평가했다. 16명의 학생은 소셜미디어와 유사한 '친숙하고 직관적인 사용자 인터페이스'를 언급했으며, 10명은 챗GPT-5가 계산적 사고, 문제 해결, 비판적 사고, 디지털 리터러시 등 '기술 개발'에 도움이 된다고 답했다. 한편 제약 사항으로는 21명의 학생이 '콘텐츠 정확성에 대한 불확실성'을 지적했다. 흥미롭게도 챗GPT-5 입력창 하단에 "챗GPT가 잘못 답할 수 있습니다"라는 경고문을 읽었던 학생 20명은 이것이 수학 계산 오류를 의미한다고 생각했지, 환각 현상을 통한 잘못된 정보 제공을 의미한다고는 해석하지 않았다. 11명의 학생은 'AI 피드백과 관련된 불안'을 언급했다. 이들은 챗GPT-5가 지속적으로 수정 제안을 하는 피드백 루프 때문에 자신의 작업이 "결코 충분히 좋지 않을 것"이라는 느낌을 받았다고 답했다. 4명의 학생은 개인정보 보호에 대한 우려를 표현하며, 자신이 입력한 정보가 어디에 저장되고 누가 접근할 수 있는지에 대한 불확실성을 지적했다. AI 리터러시 교육의 새로운 방향 이번 연구는 중등교육에서 생성형 AI 활용에 대한 중요한 시사점을 제공한다. 첫째, 학생들에게 AI의 한계를 직접 경험하게 하는 것이 오히려 더 현명한 AI 사용 전략을 개발하는 데 도움이 될 수 있다. 환각 현상을 숨기거나 회피하기보다는 교육 과정에서 명시적으로 다루는 것이 학생들의 비판적 AI 리터러시를 강화한다. 둘째, '인식론적 안전장치' 개념은 단순한 팩트체크를 넘어서는 능동적인 메타인지 전략이다. 학생들은 AI를 완전히 거부하거나 맹목적으로 의존하는 대신, 자신이 통제할 수 있는 범위 내에서 AI를 활용하는 중간 지점을 찾았다. 이는 AI 시대에 필요한 인식론적 주체성(epistemic agency)의 중요한 사례다. 셋째, AI에 대한 긍정적 태도와 불안감이 독립적으로 존재할 수 있다는 발견은 교육 정책 수립 시 고려해야 할 중요한 요소다. 학생들이 AI의 교육적 가치를 인정하도록 하는 것만으로는 충분하지 않으며, 일자리 대체와 같은 장기적 우려에 대한 논의와 대비 교육도 함께 제공해야 한다. 넷째, 이전 챗GPT 경험이 있는 학생들이 더 긍정적인 태도를 보인다는 결과는 조기 노출의 중요성을 시사한다. 다만 이러한 노출은 비판적 사고와 검증 능력 개발과 함께 이루어져야 한다. 다섯째, 여학생들이 남학생들보다 AI에 대해 더 긍정적인 인지적 태도를 보인 것은 기존의 성별 고정관념과 상반되는 결과로, AI 교육이 기술 분야의 성별 격차를 줄이는 데 기여할 가능성을 보여준다. 마지막으로, 이 연구는 AI 교육이 단순히 기술적 사용법을 가르치는 것을 넘어, 학생들이 AI와의 상호작용을 어떻게 구조화하고 제한할지를 스스로 결정할 수 있는 능력을 키워야 함을 강조한다. AI의 성능을 향상만큼 학생들이 AI를 비판적으로 활용하는 능력을 키우도록 돕는 것이 중요하다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT를 사용해 본 학생과 처음 사용하는 학생의 태도 차이가 있나요? A: 네, 이번 연구에서 이전에 챗GPT를 사용해 본 경험이 있는 학생들(31.2%)은 처음 사용하는 학생들보다 AI에 대해 훨씬 긍정적인 태도를 보였습니다. 경험이 있는 학생들의 AI 태도 점수는 3.57점인 반면, 경험이 없는 학생들은 3.09점으로 약 0.5점 차이가 났습니다. 특히 인지적 태도(AI가 중요하다는 생각)에서는 3.72점 대 3.31점, 정서적 태도(AI에 대한 감정)에서는 3.75점 대 3.22점으로 뚜렷한 차이를 보였습니다. 이는 AI에 대한 직접적인 경험이 긍정적인 태도 형성에 중요한 역할을 한다는 것을 보여줍니다. Q2. 학생들이 AI를 좋아하면 AI에 대한 불안감도 낮아지나요? A: 흥미롭게도 그렇지 않습니다. 연구 결과에 따르면 AI에 대한 긍정적인 태도와 AI 불안감은 거의 상관관계가 없었습니다. 즉, 학생들은 AI가 학습에 유용하고 미래에 중요하다고 생각하면서도, 동시에 AI가 일자리를 빼앗거나 사람들을 의존적으로 만들 수 있다는 우려를 할 수 있습니다. 실제로 학습과 관련된 AI 불안은 3.09점으로 낮았지만, 일자리 대체에 대한 불안은 4.07점으로 상대적으로 높게 나타났습니다. 특히 "AI가 우리를 더 게으르게 만들까 봐 두렵다"는 항목은 4.46점으로 가장 높은 불안감을 보였습니다. Q3. 인식론적 안전장치란 무엇을 의미하나요? A: 인식론적 안전장치(epistemic safeguarding)는 이번 연구에서 새롭게 제시된 개념으로, 학생들이 AI의 환각 현상을 경험한 후 자신이 이미 알고 있는 지식 영역에서만 AI를 사용하도록 스스로 제한하는 전략을 말합니다. 학생들은 자신의 기존 지식을 활용해 AI의 답변을 검증할 수 있을 때만 AI를 활용함으로써, 잘못된 정보에 오도될 위험을 최소화하고 인식론적 통제권을 유지합니다. 이는 단순한 팩트체크를 넘어서는 능동적이고 메타인지적인 AI 리터러시 전략입니다. * 해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.02 08:31AI 에디터

꿀벌 떼, AI 학습 원리로 움직인다...생물학계 '진화의 지혜' 재조명

캐나다 몬트리올 폴리테크닉 대학교와 밀라 퀘벡 AI 연구소, 독일 콘스탄츠 대학교 공동 연구팀이 꿀벌 무리가 집을 찾는 과정을 분석한 결과, 이것이 AI가 학습하는 방식과 수학적으로 완전히 같다는 사실을 발견했다. 개별 꿀벌은 복잡한 계산을 못하지만, 수백 마리가 모이면 마치 하나의 똑똑한 AI처럼 최선의 선택을 한다는 것이다. 춤으로 정보를 전달하는 꿀벌, 그 안에 숨겨진 학습의 비밀 연구 논문에 따르면, 꿀벌이 새집을 찾을 때 벌어지는 일은 매우 흥미롭다. 정찰을 나간 꿀벌들은 여러 후보 장소를 둘러본 뒤 무리로 돌아와 '흔들기 춤(waggle dance)'을 춘다. 이 춤으로 "내가 본 곳의 위치"를 알려주는데, 재밌는 건 춤을 추는 빈도다. 좋은 장소를 발견한 꿀벌은 춤을 많이 추고, 별로인 곳을 본 꿀벌은 춤을 적게 춘다. 다른 꿀벌들은 주변에서 처음 본 춤을 따라 한다. 그냥 "저 친구 춤 좋아 보이네? 나도 그 장소 가볼까" 하는 식이다. 이렇게 단순하게 따라만 하는데도, 신기하게 무리 전체는 결국 가장 좋은 장소를 선택하게 된다. 연구팀은 이를 '가중 유권자 모델'이라고 부르며 수학적으로 분석했다. 꿀벌 수백 마리가 동시에 학습하는 하나의 AI 시스템 연구의 핵심은 이렇다. 꿀벌 무리 전체를 하나의 AI로 보면, 각각의 꿀벌은 그 AI가 동시에 돌리는 '학습 환경' 하나하나와 같다는 것이다. 쉽게 비유하자면 이렇다. 게임 AI를 학습시킬 때, 똑같은 게임을 500개 동시에 켜놓고 학습하면 1개만 켜놓고 학습하는 것보다 훨씬 빠르다. 꿀벌도 마찬가지다. 실제 꿀벌 군집에서는 약 1만 마리 중 200~500마리 정도가 정찰벌로 활동한다. 이들이 각자 다른 장소를 탐색하고 돌아와 정보를 공유하면, 마치 하나의 똑똑한 존재가 수백 개의 장소를 동시에 살펴보는 것과 같은 효과가 난다. 실제 시뮬레이션 결과, 정찰벌이 500마리 정도만 되어도 이론상 최고 수준의 선택을 할 수 있었다. 반대로 10마리처럼 너무 적으면 잘못된 선택을 할 확률이 높아졌다. 새로운 AI 학습 방법 발견... "메이너드-크로스 러닝"이라 명명 연구팀은 꿀벌의 이런 행동 패턴을 AI 학습 알고리즘으로 만들었다. 이름은 '메이너드-크로스 러닝'이다. 기존 AI 학습법을 개량한 것인데, 핵심은 "평균 대비 얼마나 좋은가"를 따진다는 점이다. 예를 들어보자. 10점짜리 장소와 8점짜리 장소가 있다고 하자. 보통은 "10점이니까 좋네"라고 절대적으로 판단한다. 하지만 메이너드-크로스 러닝은 현재 평균값으로 나눠서 판단한다. 평균이 9점이면 10점은 크게 좋은 게 아니지만, 평균이 5점이면 10점은 엄청 좋은 것이 된다. 이게 바로 꿀벌이 춤추는 방식과 똑같다. 꿀벌도 절대적인 점수가 아니라, 다른 장소들의 평균 품질 대비 얼마나 좋은지에 따라 춤 빈도를 조절한다는 것이다. 꿀벌뿐 아니다... 경제, 사회, 로봇 기술에도 적용 가능 이 발견은 꿀벌을 넘어 여러 분야에 영향을 준다. 첫째, 사람들의 경제 행동도 비슷하게 설명할 수 있다. 주식 투자나 사업에서 "성공한 사람 따라하기"를 많이 하는데, 이것도 집단 수준에서 보면 AI 학습 과정의 일부라는 것이다. 개인은 그냥 따라하는 것뿐이지만, 사회 전체로 보면 점점 나은 방향으로 학습하고 있다는 의미다. 둘째, 로봇 기술에 활용할 수 있다. 수백 대의 작은 로봇들이 협력해야 하는 상황(예: 재난 현장 수색)에서, 각 로봇에게 복잡한 AI를 넣지 않아도 된다. 꿀벌처럼 단순한 규칙만 따르게 하면, 로봇 무리 전체가 똑똑하게 움직일 수 있다. 연구팀은 또한 예쁜꼬마선충(C. elegans)이라는 작은 생물도 비슷한 원리로 먹이를 찾는다는 사실도 언급했다. 이는 이런 집단 학습 원리가 자연계에 광범위하게 존재함을 보여준다. 더 빠른 방법도 있는데 왜 꿀벌은 이 방식을 택했을까 연구팀은 컴퓨터 시뮬레이션으로 다른 의사결정 방식들을 테스트해봤다. 결과는 놀라웠다. 꿀벌들이 서로 만났을 때 품질 점수를 직접 비교해서 "네가 더 높은 점수를 받았네, 너를 따라갈게"라고 결정하는 방식이 현재 꿀벌이 쓰는 방식보다 훨씬 빠르게 최선의 선택에 도달했다. 그렇다면 왜 진화는 더 느린 방법을 선택했을까? 연구팀은 핵심 문제를 지적했다. 바로 "품질 점수를 서로 비교할 수 있는 공통 기준"을 만드는 게 불가능하다는 것이다. 현실에서 꿀벌들은 각자 다른 조건에서 둥지를 평가한다. 어떤 꿀벌은 맑은 날 갔고, 어떤 꿀벌은 흐린 날 갔을 수 있다. 개별 꿀벌마다 감각 능력도 다르고, 온도·습도·공간 같은 요소에 두는 중요도도 다르다. 그러니 한 꿀벌이 "8점"이라고 평가한 것과 다른 꿀벌이 "8점"이라고 평가한 것이 실제로 같은 품질인지 알 수 없다. 점수를 직접 비교하려면 모든 꿀벌이 같은 척도로 평가해야 하는데, 이는 매우 어려운 문제다. 꿀벌의 현재 방식은 이 문제를 영리하게 피해간다. 각 꿀벌은 자신의 주관적 평가(품질 점수)를 단순히 "춤 빈도"로 바꿔서 전달한다. 다른 꿀벌들은 품질 점수 자체를 듣는 게 아니라 춤 빈도만 본다. 즉, "이 친구가 얼마나 열심히 춤추나"만 관찰하면 된다. 이렇게 하면 척도 교정 문제가 완전히 사라진다. 물론 이 방식은 더 느리다. 하지만 개별 꿀벌의 뇌는 최소한으로 단순하게 유지할 수 있다. 신경 조직은 엄청난 에너지를 소비한다(포유류의 경우 다른 조직보다 단위 무게당 거의 10배). 꿀벌도 비슷할 것이다. 진화는 "개체는 최대한 단순하게, 집단은 충분히 똑똑하게"라는 전략을 택한 것이다. 수렴 속도는 조금 느려도, 에너지 효율이 좋고 개체마다 능력이 달라도 견고하게 작동하는 시스템을 선택했다. 수백만 기기의 협력, 꿀벌에게 배운다 이 연구는 AI 기술 개발의 새로운 방향을 제시한다. 지금까지 AI 개발은 "하나의 슈퍼 AI 만들기"에 집중했다. 거대하고 똑똑한 하나의 AI를 만드는 식이다. 하지만 자연은 다른 답을 보여준다. "작고 단순한 것들을 많이 모아라." 특히 스마트폰, IoT 기기처럼 개별 성능은 낮지만 엄청나게 많은 기기가 협력해야 하는 상황에서, 꿀벌 전략이 더 효율적일 수 있다. 또한 대규모 AI 학습에서도 의미가 있다. 여러 컴퓨터에 AI를 분산해서 학습시킬 때, 복잡한 데이터 교환 없이도 단순한 정보만 공유하면 효과적으로 학습할 수 있다는 뜻이다. 통신 비용을 크게 줄이면서도 학습 효율은 유지할 수 있는 것이다. 무엇보다 이 연구는 "복잡한 것이 꼭 좋은 것은 아니다"라는 교훈을 준다. 때로는 단순한 규칙의 집합이 복잡한 알고리즘보다 나을 수 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. AI 강화학습이 뭔가요? 꿀벌과 무슨 관계인가요? A: AI 강화학습은 시행착오로 배우는 방식이다. 게임 AI가 계속 게임을 하면서 점수가 높아지는 방법을 찾아가는 것처럼 말이다. 이번 연구는 꿀벌 무리가 집을 찾는 과정이 수학적으로 이 학습 방식과 완전히 같다는 걸 증명했다. 개별 꿀벌은 학습 안 하는데, 무리 전체는 마치 하나의 AI처럼 학습한다. Q. 이게 실제로 어디에 쓰일 수 있나요? A: 여러 대의 로봇이 협력하는 기술, 수많은 컴퓨터가 함께 계산하는 시스템, 여러 AI가 협력하는 기술 등에 쓸 수 있다. 특히 각각은 성능이 낮지만 많은 수가 협력해야 할 때 유용하다. 개별적으로는 단순해도 모이면 똑똑해지는 원리를 활용하는 것이다. Q. 더 빠른 방법이 있는데 왜 꿀벌은 지금 방식을 쓰나요? A: 더 빠른 방법은 더 복잡한 신경회로가 필요하고, 뇌는 엄청난 에너지를 소비한다. 또한 개체마다 품질을 다르게 느낄 수 있어서 점수를 직접 비교하기 어렵다. 꿀벌의 현재 방식은 최소한의 인지 능력으로도 충분하면서 결과도 충분히 좋다. 진화는 "최고"가 아니라 "에너지 대비 충분히 좋은 것"을 선택한다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.30 13:02AI 에디터

2026년 'AI 대전환 시대' 온다… 한국지능정보원의 새해 전망

한국지능정보사회진흥원(NIA)이 2025년 국내외 주요 매체 282건을 토픽 모델링 기법으로 분석한 결과, 2026년은 AI가 실험 단계를 넘어 산업 전반의 핵심 인프라로 자리 잡는 전환점이 될 것으로 전망된다. 산업 현장에서는 도입 확산이, 기술 분야에서는 기능 고도화가, 정책 영역에서는 안전성 중심의 제도화가 동시에 진행되며 AI 생태계의 구조적 재편이 가속화될 것으로 보인다. AI 투자 연 50% 급증… 금융·제조·서비스 전 산업 확산 글로벌 AI 투자 규모가 연간 50% 이상 성장하면서 챗GPT(ChatGPT)와 같은 생성형 AI 도입 시도가 금융, 제조, 서비스 등 전 산업군으로 확산되고 있다. 생성형 AI 활용 영역도 상담과 요약을 넘어 기획과 분석 등 고부가가치 업무로 확장되며, 기업 운영 방식 자체를 재정의하는 수준의 변화를 촉발하고 있다. 리포트의 산업 분야 토픽 분석 결과, '도입', '확대', '성장세', '확산'이 핵심 키워드로 나타났다. AI 활용이 시범 적용 단계를 넘어 전사적, 범용적 도입 단계로 확산되면서 업종별 도입 범위가 커지고 산업 구조와 경쟁 환경이 재편되는 흐름이다. '규모', '성장', '글로벌', '비용', '자금' 등의 키워드는 AI가 기술 단위를 넘어 투자, 시장, 매출 구조가 결합된 산업 규모 중심 논의로 확장되고 있음을 보여준다. 주목할 만한 점은 '인프라', '센터', '에이전트' 키워드의 부상이다. 데이터센터와 클라우드 기반의 인프라 투자 확대 경향과 함께, 에이전트 도입 확산으로 업무 흐름과 운영 방식이 재구성되는 초기 징후가 포착되고 있다. 2026년에는 기업 내부에서 AI 에이전트를 활용한 문서 처리, 고객 지원, 운영 자동화 등이 증가하며 사람-에이전트-시스템이 혼합된 업무 구조가 일부 영역에서 확산될 가능성이 있다. 멀티모달·추론·온디바이스… 지능 구조 자체가 고도화 기술 분야 분석에서는 '멀티모달(Multimodal)', '추론', '기능', '개발' 키워드가 핵심으로 도출됐다. AI 기술 담론이 단순 성능 향상을 넘어 모델이 무엇을 이해하고 어떻게 추론하는지와 같은 지능 구조 자체의 고도화로 이동하고 있다. 복합 입력 처리를 가능케 하는 멀티모달 기술, 고급 추론 능력, 자연스러운 응답 생성 등 알고리즘 수준의 질적 확장이 기술 변화의 핵심축이다. '개발', '강화', '향상', '성능' 키워드의 반복적 등장은 모델 개발 주기 단축, 성능 지표 향상, 효율과 추론 능력 강화가 기술 경쟁력의 중심 요소로 작동하고 있음을 나타낸다. 산업 적용보다 엔진의 최적화 속도와 완성도가 기술 논의의 핵심 기준으로 자리 잡고 있다. 특히 '디바이스', '서비스', '활용' 키워드가 부각되면서 기술 적용 환경이 다변화되고 있다. 클라우드 중심의 기술 적용이 스마트폰과 개인 디바이스 등 온디바이스(On-Device) AI와 엣지(Edge) 환경으로 확장되는 경향이 나타난다. 이는 기술 발전이 성능 중심을 넘어 배포 환경 중심의 다변화로 이동하고 있음을 의미한다. 2026년에는 합성데이터, 추론형 AI, 멀티모달 기술이 주요 경쟁 축으로 자리 잡으면서 학습 효율 향상, 복합 정보 처리, 설명 가능성 강화 등 모델 내부 구조의 질적 개선 흐름이 이어질 것으로 전망된다. 고품질 데이터 생성, 멀티모달, 고급 추론 기술이 결합되며 AI의 상황 이해와 문제 해결 능력이 향상되고 서비스와 산업 전반의 활용도도 확대될 전망이다. AI 사고 급증에 안전성·책임성 중심 규제 본격화 정책 분야에서는 '안전', '위험', '규제', '기본법', '의무', '준수' 키워드가 핵심으로 부상했다. AI 확산 속도 대비 위험 관리와 안전 확보 체계를 시급히 강화해야 한다는 정책적 요구가 높아지고 있다. OECD AI 사고 모니터(AI Incidents Monitor)에 따르면 2010년대 후반 이후 AI 관련 사고와 위험 보고 건수가 지속적으로 증가했으며, 2023년에서 2024년 이후 특히 가파른 상승 추세를 보이고 있다. '규제', '기본법', '시행', '기준' 키워드는 각국이 AI 확산에 맞춰 법률, 기준, 이행 체계 중심의 규제 틀을 정비 중임을 시사한다. 가이드라인 중심의 자율 규제 단계에서 벗어나 법적 구속력 기반의 규제 집행 구조로 이행하는 흐름을 반영한다. '의무', '준수', '투명', '표시' 키워드는 AI 개발자, 기업, 플랫폼에 요구되는 책임성과 준수 의무 강화가 정책적 핵심 이슈로 부상했음을 보여준다. 출력물 표시, 데이터 출처 공개 등 투명성 강화를 통한 신뢰 기반 거버넌스 요구가 확대되는 흐름이다. 2026년에는 EU AI법(EU AI Act) 등 글로벌 규제와의 정합성을 높이기 위해 국내 AI 기본법의 시행령과 가이드라인이 구체화되고, 수출 기업을 위한 규제 대응과 인증 지원이 확대될 전망이다. 의료와 채용 등 고위험 AI의 안전성 검증과 제3자 인증이 필수화되고, 생성형 AI 부작용 대응을 위한 워터마크와 딥페이크 탐지 기술이 법제화될 것으로 예상된다. 산업·기술·정책의 순환 구조… "압력-수요-조정" 상호작용 리포트는 산업, 기술, 정책이 서로 다른 변화 축을 가지지만 '연결된 흐름'으로 작동한다고 분석했다. 산업 확산은 기술 고도화를 요구하고, 기술 고도화는 다시 정책적 대응을 촉발하는 연쇄적, 단계적 상호작용 구조가 형성되어 있다. 세 분야는 '압력-수요-조정'의 순환 구조를 형성하며 상호 보완적으로 진화하고 있다. 산업 확산은 기술 고도화에 대한 수요를 높이고, 기술 고도화는 새로운 규제와 기준 마련 필요성을 확대시키며, 정책 정비는 다시 산업과 기술 영역에 조정 압력으로 작용하는 흐름이 나타난다. 이는 AI 생태계가 일방향적 변화가 아니라 산업-기술-정책이 서로 영향을 주고받는 순환적, 상호작용적 시스템으로 진화하고 있음을 시사한다. AI를 단순 기술이 아닌 산업 인프라이자 경쟁과 제도 관리의 핵심 요소로 부상시키고 있다. 향후 AI 생태계의 지속성과 안정성을 위해서는 산업 확산-기술 고도화-정책 규제 간 속도 불일치를 완화하는 구조적 접근이 필요하다. 정책적 대응 속도와 규제 체계의 예측 가능성 확보, 도입 확대·기술 혁신·위험 관리 간 균형 있는 추진 체계 확립이 요구된다. 정부, 데이터 통합 제공과 추론형 AI 데이터 구축 나서 한국지능정보사회진흥원은 AI 활용이 산업 전반에 본격 확산되며 고품질 데이터에 대한 수요가 급증하는 가운데, 공공과 민간의 AI 학습용 데이터를 총결집하여 민간 수요에 신속히 대응하는 '통합제공체계' 구축을 추진하고 있다. 산재된 데이터를 모아 데이터의 원소스 멀티유즈(One-Source Multi-Use)를 지원하며, AI 학습용 데이터를 수집·개방하기 위한 공통 기반 마련, 개방 데이터 품질 제고, 데이터 통합 제공 및 연계·융합을 지원한다. 추론(AI Reasoning)의 중요성이 커짐에 따라 추론형 AI 모델 개발에 필수적인 고품질 추론 데이터 구축 및 활용 체계를 선제적으로 정비하고 있다. 고품질·고난이도 문제 해결 중심의 추론 데이터를 기획·개발하여 기존의 단순 인식·예측 중심 데이터에서 벗어나, 단계별 과정·의사결정 논리·맥락을 포함한 구조화된 추론형 데이터셋 구축을 진행하고 있다. 또한 AI 정책 환경이 안전성 강화, 규제·기준 정비를 중심으로 재편되는 가운데, 저작권 및 공정이용 개선을 위한 간담회를 개최하여 AI 학습데이터의 활용 범위, 공정이용 판단 기준, 학습과 활용 단계 구분 등 핵심 쟁점에 대해 이해관계자의 의견을 폭넓게 수렴했다. AI 확산 속도 대비 명확한 기준이 제시되지 않았던 저작권·데이터 활용 관련 가이드라인의 한계를 확인하고, 현장에서 실제로 참고·활용 가능한 가이드라인 마련에 대한 수요와 필요성을 확인했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 토픽 모델링이란 무엇이며, 이번 분석은 어떻게 진행되었나요? A: 토픽 모델링은 대규모 텍스트 데이터에서 숨겨진 주제와 핵심 키워드를 확률적으로 추출하는 분석 기법입니다. 이번 분석에서는 LDA(Latent Dirichlet Allocation) 기법을 사용해 2025년 1월부터 11월까지 국내외 주요 매체에서 산업·기술·정책 분야별로 매주 6건씩 총 282건의 텍스트 데이터를 수집하고 분석했습니다. 빈도보다 문맥 내 중요도를 기준으로 각 분야의 핵심 논점과 의미 축을 도출했습니다. Q2. 온디바이스 AI가 중요한 이유는 무엇인가요? A: 온디바이스 AI는 클라우드 서버가 아닌 스마트폰이나 개인 디바이스에서 직접 AI를 구동하는 기술입니다. 분석 결과 클라우드 중심의 기술 적용이 스마트폰과 개인 디바이스 등 온디바이스 환경으로 확장되는 경향이 나타났습니다. 이는 기술 발전이 성능 중심을 넘어 배포 환경 중심의 다변화로 이동하고 있음을 의미하며, 2026년 AI 기술의 주요 변화 방향 중 하나입니다. Q3. AI 규제가 강화되면 기술 발전이 저해되지 않나요? A: 리포트는 2026년 AI 정책 환경이 규제를 제약이 아닌 성장을 위한 안전장치로 재정의하며, 글로벌 규제체계와의 정합성을 높이는 방향으로 재편될 것으로 전망합니다. 고위험 분야의 책임·안전성 확보, 데이터·저작권 정책 명확화, 국제 표준과의 조화가 결합되며 기업의 글로벌 시장 진출을 지원하는 예측 가능한 정책 생태계가 구축될 것으로 예상됩니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.29 16:12AI 에디터

"AI가 취업 망친다"...능력 있는 구직자, 오히려 19% 덜 뽑힌다

생성형 AI가 구직 시장을 뒤흔들고 있다. 미국 다트머스대와 프린스턴대 연구진이 270만 건의 지원서를 분석한 결과, AI 면접 준비 도구가 오히려 우수한 구직자에게 불리하게 작용한다는 충격적인 사실이 드러났다. 연구진은 AI로 인해 지원서의 차별화가 사라지면서, 최상위 20% 능력자는 19% 덜 고용되고 최하위 20%는 14% 더 고용되는 '역차별' 현상이 발생한다고 경고했다. 270만 건 분석했더니... AI 이후 지원서 가치 급락 이번 연구는 세계 최대 규모의 프리랜서 구인 플랫폼인 프리랜서닷컴(Freelancer.com)의 실제 데이터를 분석했다. 연구진은 2021년 1월부터 2024년 7월까지 약 61,000개의 채용 공고와 약 270만 건의 지원서, 212,000명의 구직자 데이터를 면밀히 검토했다. 분석 결과, 챗GPT 출시 이전인 2022년 11월까지는 맞춤형 지원서가 강력한 무기였다. 연구진의 분석에 따르면, 잘 쓴 지원서를 제출한 지원자는 그렇지 않은 지원자보다 26달러 낮은 금액을 제시한 것과 같은 효과를 봤다. 쉽게 말해, 좋은 지원서 하나가 26달러의 가격 할인과 맞먹는 가치를 지녔다는 뜻이다. 이 플랫폼에서 프리랜서들이 제시하는 금액이 보통 30달러에서 250달러 사이라는 점을 고려하면, 상당히 큰 영향력이다. 그러나 2023년 4월 프리랜서닷컴이 자체 AI 작문 도구를 도입한 이후 상황이 완전히 바뀌었다. 연구진은 "LLM 도입 이후 고용주들이 잘 쓴 지원서에 대해 더 이상 높은 가치를 부여하지 않게 됐다"며 "플랫폼의 AI 도구로 작성된 지원서는 실제 노력과 무관하게 좋아 보였고, 좋은 지원서가 더 이상 업무를 잘 완수할지를 예측하지 못했다"고 밝혔다. 실력 좋은 사람 19% 덜 뽑히고, 실력 낮은 사람 14% 더 뽑혀 연구진은 단순히 겉으로 보이는 관계만 분석한 것이 아니라, 왜 이런 일이 벌어지는지 원인을 파악하기 위해 경제학 이론 모델을 만들어 분석했다. 이 모델은 1973년 노벨 경제학상 수상자 마이클 스펜스(Michael Spence)가 제시한 '신호 이론'을 기반으로 한다. 신호 이론의 핵심은 간단하다. 실력 있는 사람일수록 좋은 지원서를 쓰는 데 드는 노력이 적게 들어, 자연스럽게 더 좋은 지원서를 제출하게 된다는 것이다. 분석 결과, 고용주들은 구직자의 실력을 매우 중요하게 생각하는 것으로 나타났다. 구직자 실력이 조금만 올라가도 평균 52달러를 더 지불할 의향이 있었다. 또한 상위 20%에 속하는 실력자를 하위 20%에 속하는 사람보다 97달러나 더 가치 있게 평가했다. 중요한 발견은 지원서 품질과 실제 실력 간의 관계가 매우 강했다는 점이다. 통계적으로 0.55라는 높은 상관관계를 보였다(1에 가까울수록 강한 관계). 반면 평판이나 경력 같은 겉으로 드러나는 정보는 실제 실력을 거의 예측하지 못했다. 이런 겉으로 보이는 정보로는 실력 차이의 단 3%만 설명할 수 있었다. 연구진이 AI로 인해 지원서의 차별화가 완전히 사라진 상황을 시뮬레이션한 결과는 충격적이었다. 실력이 최하위 20%에 속하는 구직자는 14% 더 자주 뽑힌 반면, 최상위 20% 실력자는 19% 덜 뽑혔다. 왜 이런 '역차별'이 발생할까? 세 가지 이유 이런 역설적인 결과는 세 가지 이유로 발생한다. 첫째, 고용주들이 예전에는 지원서를 보고 실력을 판단했는데, 지원서로 구분할 수 없게 되면서 누가 실력 있는 사람인지 알아보기 어려워졌다. 둘째, 흥미롭게도 실력 있는 사람일수록 일을 맡는 데 드는 비용도 높은 경향이 있었다. 지원서로 차별화할 수 없게 되자 가격 경쟁이 심해졌고, 결과적으로 낮은 가격을 제시한 사람들이 뽑히는데, 이들이 대체로 실력이 낮은 사람들이었다. 셋째, 앞서 언급했듯이 평판이나 경력 같은 겉으로 보이는 정보는 실제 실력을 거의 예측하지 못한다. 그래서 고용주는 실력 있는 사람과 없는 사람을 거의 구분할 수 없게 됐다. 연구진의 분석에 따르면 이러한 변화는 다음과 같은 결과를 낳는다. 평균 임금은 5% 떨어지고, 채용 공고당 실제 채용되는 비율은 1.5% 줄어들며, 구직자가 얻는 이익은 4% 감소하고, 고용주가 얻는 이익은 1% 미만으로 소폭 증가한다. 전체적으로 시장은 덜 효율적이고 실력보다는 운에 좌우되는 시장이 되며, 시장 전체의 이익은 1% 줄어들고 실력 있는 사람보다 실력 없는 사람에게 유리한 구조로 바뀐다. 연구진은 "만약 실력 있는 사람이 항상 낮은 가격을 제시할 수 있다면 지원서가 없어도 문제없겠지만, 우리 연구에서는 실력 있는 사람일수록 일을 맡는 비용이 높았다"며 "결과적으로 구직자들이 지원서로 실력을 보여줄 수 없게 되면, 실력 있는 사람은 가격만으로 경쟁하기 어려워져서 덜 실력 중심적인 채용 결과로 이어진다"고 설명했다. 지원서가 실력의 증거였다는 첫 실증 연구 이번 연구는 여러 측면에서 중요한 의미를 갖는다. 우선 생성형 AI가 구직 시장에 미치는 영향을 다룬 최근 연구들에 새로운 시각을 제공한다. 기존 연구들이 설문조사나 실험을 통해 AI가 업무 효율성에 미치는 영향을 연구했다면, 이 연구는 실제 시장 전체에서 어떤 일이 벌어지는지를 보여줬다. 특히 지원서의 차별화가 사라지는 것이 채용 결과와 구직자·고용주의 이익에 어떤 영향을 미치는지 구체적인 숫자로 정량화했다는 점에서 의미가 있다. 둘째, 노동시장의 '신호'에 관한 오랜 경제학 이론을 현실에서 검증했다. 1973년 스펜스의 연구 이후 경제학자들은 주로 학력이 어떻게 실력의 신호로 작용하는지 연구해왔다. 이번 연구는 구직자와 고용주 사이의 실제 커뮤니케이션, 즉 지원서 자체가 신호로 작용한다는 것을 경제학 모델로 분석했다. 셋째, 프리랜서 플랫폼 같은 온라인 구인 시장의 경제학 연구에도 기여한다. 연구진은 "생성형 AI가 경쟁이 치열한 온라인 구인 플랫폼에서 매칭에 특히 중요한 역할을 하는 지원서의 가치를 떨어뜨릴 수 있는 위험을 구체적인 숫자로 보여줬다"고 설명했다. 마지막으로 경제학에서 '신호 이론'을 실제 데이터로 분석하는 방법론에도 기여한다. 기존 연구들이 금리 설정이나 제안 거부 같은 명확한 행동을 신호로 다뤘다면, 이 연구는 실제 글을 직접 분석해 신호를 측정하는 새로운 방법을 제시했다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 이 연구는 실험인가요, 아니면 실제 데이터 분석인가요? A. 실험이 아닙니다. 프리랜서닷컴이라는 실제 디지털 노동 플랫폼의 시장 데이터를 분석한 관찰 연구입니다. 2021년부터 2024년까지 약 61,000개의 실제 채용 공고와 270만 건의 지원서를 분석했으며, 챗GPT 출시 전후(2022년 11월 30일 기준)를 비교했습니다. Q. AI 도구를 사용하면 왜 오히려 능력 있는 사람이 불리해지나요? A. AI가 모든 지원자의 지원서를 비슷하게 좋아 보이게 만들면서 고용주가 진짜 실력 있는 사람을 구별하기 어려워지기 때문입니다. 게다가 실력 있는 사람일수록 일을 맡는 데 드는 비용도 높은 경향이 있어서, 지원서로 차별화할 수 없게 되고 가격 경쟁만 남으면 오히려 경쟁에서 밀리게 됩니다. Q. 이 연구 결과가 일반 구직자에게 주는 시사점은 무엇인가요? A. 연구는 프리랜서 플랫폼을 대상으로 했지만, AI로 인해 전통적인 증거(잘 쓴 지원서, 이력서)의 가치가 떨어진다는 점은 모든 구직 시장에 적용될 수 있습니다. 앞으로는 AI로 쉽게 만들 수 없는 실제 성과나 포트폴리오가 더 중요해질 것입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.12.26 21:19AI 에디터

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

현대차그룹 40대 최연소 사장 탄생…머스크가 인정한 '기술 인재'

오픈소스 활용한 딥시크, 어떻게 독자모델 인정받았나

정용진 회장이 올해 처음 간 '그곳'이 신세계 미래다

코스피 5000 육박, 또 사상 최고치…원·달러 환율 1473.7원

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.