• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
AI의 눈
HR컨퍼런스
디지털트러스트
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (788건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

네이버 클립, 제3회 '크리에이터스 데이' 개최

네이버는 지난 8일 각 분야 클립 크리에이터를 대상으로 클립팀과 함께 창작자 지원방안과 서비스 방향성에 대해 의견을 나누는 제3회 '클립 크리에이터스 데이'를 개최했다고 9일 밝혔다. 클립은 창작자가 이전보다 편리하게 콘텐츠를 제작하고, 콘텐츠 성과를 분석해 앞으로의 전략을 세울 수 있도록 기술적 지원 강화에 대한 계획을 공유했다. 콘텐츠 제작 단계를 간소화하는 'AI 에디터'를 연내 선보일 계획이다. AI 에디터는 ▲같은 장소에서 촬영한 영상, 이미지를 자동으로 분류해 모아주고 ▲미디어 정보를 알아서 분석해 정보태그를 달아줄 뿐 아니라 ▲콘텐츠와 어울리는 해시태그 및 음원까지 추천해주는 등 창작자들의 콘텐츠 제작 편의를 강화할 전망이다. 아울러, 클립 창작자들이 콘텐츠 지표를 확인하고 수익을 정산할 수 있는 '클립 크리에이터 앱'의 기능을 강화한다. ▲게시물 타입의 콘텐츠 분석을 새롭게 제공하고 ▲유입처, 시청시간 등 상세한 분석툴을 추가하며 ▲이달의 해시태그 미션, 크리에이터 월간 어워즈, 이달의 활동 미션 등 수익 창출을 위한 프로그램들을 한눈에 확인하고 관리할 수 있도록 지원할 예정이다. 클립은 숏폼 소비 트렌드를 수익 모델에 적극 반영하며 창작자 보상을 꾸준히 확대해왔다. 지난해 홈피드 등 '피드 지면'에서의 소비까지 산정하도록 보상 구조를 개편한 데 이어 올해는 숏폼 영상뿐만 아니라 텍스트나 이미지가 결합된 '게시물 형태'의 콘텐츠로도 수익 창출 대상을 확대한다. 창작자의 콘텐츠가 '팬덤 구축'으로 이어지도록 네이버 앱 내 '클립탭'도 전면 개편할 계획이다. 새로운 클립탭은 ▲먼저 시청자가 자신의 취향에 맞는 새로운 창작자의 영상을 발견하게 돕는 '탐색' ▲마음에 드는 창작자의 신규 콘텐츠를 놓치지 않고 받아보는 '구독' ▲내가 만든 콘텐츠를 한눈에 관리할 수 있는 '내클립판'으로 구성될 예정이다. 클립 챌린지의 인기가 높아짐에 따라 창작자들이 보다 연속성 있게 참여할 수 있도록 다양한 챌린지 프로그램을 '오늘 클립 챌린지'로 일원화해 운영한다. 이날부터 매주 참여할 수 있고, 참여 성과가 두드러진 우수 창작자에게는 클립 크리에이터 합류 기회도 제공해 프로그램 참여가 크리에이터로서의 성장으로까지 이어질 수 있도록 지원할 계획이다. 김광현 네이버 최고데이터·콘텐츠책임자는 "AI 시대 콘텐츠보다 더 중요한 것은 콘텐츠를 만드는 창작자들"이라며 "네이버는 창작자들이 생산해낸 양질의 콘텐츠가 네이버 전반의 서비스 및 기술과 연결되어 더 많은 사용자와 만날 수 있도록 지원과 투자를 아끼지 않겠다"고 말했다.

2026.03.09 13:52박서린 기자

AI가 지도 공부한 게 아니었다…단어 패턴만으로 세계 지리 독파

내비게이션 앱도 아닌데, 지도 데이터도 없는데, AI가 "레이캬비크"라는 단어 하나만 보고 그 도시가 북쪽의 추운 곳이라는 걸 맞혔다면 믿겠는가. 플로리다 애틀랜틱 대학교(Florida Atlantic University)의 일란 바렌홀츠(Elan Barenholtz) 교수 연구팀이 2026년 3월 발표한 논문에서 10년 전 기술로 이것을 해냈다. 더 놀라운 건 최신 AI가 아니라 2013년에 만들어진 단어 통계 기술을 썼다는 점이다. 과연 AI는 세상을 '이해'하는 걸까, 아니면 글자들의 패턴을 '기억'하는 걸까. 단어가 모이면 지도가 된다 연구팀이 사용한 기술 이름은 글러브(GloVe)와 워드투벡(Word2Vec)이다. 둘 다 2013~2014년에 개발된, AI 세계에서는 꽤 오래된 기술이다. 이 기술들이 하는 일은 단순하다. "어떤 단어들이 같은 문장이나 문단에 자주 함께 등장하는가"를 숫자로 바꾸는 것이다. 예를 들어 "커피"와 "카페"는 자주 같이 나오니까 두 단어의 숫자가 비슷해지고, "커피"와 "눈보라"는 거의 같이 안 나오니까 숫자가 멀어진다. 이 숫자 덩어리를 300개 차원의 벡터(vector), 즉 방향이 있는 좌표라고 부른다. 연구팀은 이 숫자 좌표에 선형 회귀 프로브(linear regression probe)라는 탐색 도구를 붙였다. 프로브는 일종의 탐지기다. X선이 몸속을 들여다보듯이, 단어 좌표 안에 숨어 있는 정보를 꺼내 보는 장치라고 생각하면 된다. 연구팀은 전 세계 100개 도시 이름을 이 탐지기에 넣고 물었다. "이 단어 좌표 안에 위도와 경도 정보가 들어있나요?" 결과는 놀라웠다. 위도는 최대 87%, 경도도 비슷한 수준으로 맞혔다. 연평균 기온도 52%까지 예측했다. 반면 인구수, 국내총생산(GDP), 해발고도는 거의 맞히지 못했다. 이게 중요하다. 아무 정보나 다 나온 게 아니라, 특정 정보만 골라서 나온 것이다. "파리"가 "프랑스"와 붙어다니는 이유 그렇다면 어떻게 단어 숫자에 지리 정보가 담겼을까. 연구팀은 2만 개의 영어 단어를 전부 뒤졌다. 각 단어가 86개 도시 이름과 얼마나 가까운지 계산하고, 그 거리가 실제 기온이나 위도와 얼마나 연관되는지 봤다. 답은 명쾌했다. 따뜻한 도시 이름 옆에는 "덩기(dengue, 열대 질병)", "사이클론(cyclone)", "코코넛(coconut)", "야자수(palms)"같은 단어들이 자주 붙었다. 차가운 도시 이름 옆에는 "화학자(chemist)", "물리학자(physicist)", "스키(skiing)"가 자주 등장했다. 이건 연구팀이 미리 골라서 넣은 단어들이 아니다. 2만 개 단어를 무작위로 분석했더니 저절로 이런 패턴이 나왔다. 여기서 핵심 발견이 나온다. 바로 국가 이름이었다. 연구팀은 일부러 국가 이름들을 지웠다. 글러브 좌표에서 국가 이름들이 차지하는 방향을 통째로 제거한 것이다. 그랬더니 위도 예측 정확도가 87%에서 76%로 떨어졌고, 기온 예측은 52%에서 36%로 뚝 내려갔다. 같은 수의 무작위 단어를 지웠을 때는 정확도가 거의 안 변했다. 즉, 국가 이름이 지리 정보를 전달하는 핵심 다리 역할을 하고 있었다. 이유는 일상 언어에 있다. 뉴스 기사에서 "방콕"은 늘 "태국", "열대", "아세안(ASEAN)"과 함께 나온다. "오슬로"는 "노르웨이", "피요르드(fjord)", "북유럽"과 같이 등장한다. 이런 동행이 수억 번 반복되면 단어 좌표 안에 지리적 지도가 저절로 새겨진다. 역사 인물 이름으로 시대를 추측하다 연구팀은 공간 정보에서 멈추지 않았다. 시간 정보도 실험했다. 호메로스(Homer, 기원전 800년경)부터 스티븐 호킹(Stephen Hawking, 1942년생)까지 역사적 인물 194명의 이름을 같은 방식으로 분석했다. "이 이름의 단어 좌표를 보면 이 사람이 언제 태어났는지 알 수 있을까?"라는 질문이었다. 정확도는 약 48~52%였다. 지리 정보보다는 낮지만 완전히 우연보다는 훨씬 높다. 탐지기가 고대(기원전~서기 500년), 중세(500~1400년), 근현대(1400년 이후)를 대략 구분하는 데 성공했다. "아인슈타인(Einstein)"이라는 이름 옆에는 "상대성이론", "20세기", "물리학"이 자주 붙고, "아리스토텔레스(Aristotle)"옆에는 "고대", "그리스", "철학"이 따라다닌 덕분이다. 지리 정보보다 시간 정보의 정확도가 낮은 것도 흥미롭다. 텍스트에서 공간은 명시적으로 자주 언급된다. "파리는 프랑스에 있다"는 문장은 넘쳐나지만, "나폴레옹은 1769년에 태어났다"는 문장은 상대적으로 드물다. 언어 자체가 공간에 대해 더 수다스럽다는 뜻이다. AI 도구에는 어떤 도움이 될까 이 연구는 단순히 흥미로운 실험에 그치지 않는다. 실용적인 메시지도 담고 있다. 첫 번째는 비용과 효율이다. 요즘 챗GPT(ChatGPT)나 클로드(Claude) 같은 최신 대형 언어모델(LLM)은 수천억 개의 매개변수(parameter, AI가 학습하는 숫자 단위)를 가진다. 돌리려면 엄청난 전기와 서버가 필요하다. 하지만 이번 연구는 특정 작업에서는 300개 차원의 단순 단어 좌표만으로도 충분하다는 것을 보여줬다. 여행지 추천 앱이 도시 간 유사도를 계산하거나, 역사 문서를 시대별로 묶는 작업이라면 굳이 비싼 최신 AI를 쓸 필요가 없다는 뜻이다. 이는 전기 요금이나 서비스 비용을 크게 낮출 수 있다. 두 번째는 AI 연구 방법론의 경고다. 지금까지 많은 연구자들이 최신 AI의 내부 상태에서 지리나 시간 정보를 꺼낼 수 있다는 걸 발견하고 "AI가 세계 지도 같은 내부 모델을 만들었다"고 주장해왔다. 대표적으로 거니와 테그마크(Gurnee and Tegmark)가 2024년 라마-2(Llama-2)라는 대형 AI를 분석해 이런 주장을 펼쳤다. 바렌홀츠 교수 연구팀은 같은 방법으로 10년 전 기술을 분석해도 비슷한 결과가 나온다는 걸 보여주며 이렇게 말한다. "탐지기로 정보를 꺼낼 수 있다는 사실만으로는 AI가 진짜로 세계를 이해한다고 말할 수 없다." 냉장고 비유를 생각해보자. 냉장고에서 음식 냄새가 난다고 해서 냉장고가 요리를 이해한다고 말하진 않는다. 냄새는 그냥 음식이 거기 있었다는 흔적이다. AI에서 지리 정보가 나온다는 것도, 텍스트 원래부터 그 패턴이 있었다는 흔적일 수 있다. 세 번째는 언어 자체에 대한 새로운 시각이다. 이 연구가 진짜 놀라운 이유는 AI의 한계를 보여주는 게 아니라, 인간 언어의 풍부함을 새롭게 발견했기 때문이다. 우리가 매일 쓰는 문장들이 쌓이면 그 안에 지리, 기후, 역사가 고스란히 담긴다. 언어는 세상의 압축본이다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 이 연구는 챗GPT 같은 AI가 세상을 이해 못 한다는 뜻인가요? A. 꼭 그렇지는 않습니다. 이 연구는 AI가 지리나 시간 정보를 보여준다는 증거가 사실 텍스트 속에 원래부터 있던 패턴일 수 있다고 지적합니다. AI가 진짜로 세상을 이해하는지, 아니면 단어 패턴을 재현하는지는 여전히 학계에서 논의 중입니다. 다만 탐지기로 정보를 꺼낼 수 있다는 사실만으로 '진짜 이해'를 증명할 수는 없다는 것이 이 연구의 핵심입니다. Q. 10년 된 기술로도 된다면 굳이 최신 AI를 써야 하나요? A. 용도에 따라 다릅니다. 오래된 단어 통계 기술은 맥락을 구분하지 못합니다. '사과'가 과일인지 애플(Apple) 회사인지 모르고, 문장을 만들거나 대화를 이어가는 것도 불가능합니다. 최신 AI는 이런 복잡한 맥락 이해와 생성 능력에서 압도적으로 뛰어납니다. 단, 도시 유사도 비교나 시대 분류처럼 단순한 작업이라면 굳이 비싼 AI를 쓸 필요가 없을 수 있습니다. Q. 이 연구 결과가 실생활에서 어떻게 도움이 되나요? A. 여행 앱, 역사 교육 콘텐츠, 문서 자동 분류 시스템 같은 서비스를 만들 때 훨씬 저렴하고 가벼운 기술을 선택할 수 있다는 힌트를 줍니다. 또한 AI를 연구하는 분들이라면, 새로운 AI 실험 결과를 해석할 때 "이게 진짜 새로운 능력인가, 아니면 텍스트에 원래 있던 패턴인가"를 꼭 비교해봐야 한다는 교훈을 얻을 수 있습니다. 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 논문명: World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.09 13:35AI 에디터

AI도 시험 도중 실수를 고친다…5배 빠른 학습의 비밀

어떤 학생은 시험지를 한 번 훑고 바로 제출한다. 또 다른 학생은 풀이 과정을 천천히 되짚으며 틀린 부분을 고쳐 나간다. 당연히 후자가 더 좋은 점수를 받는다. 카네기멜론대학교(Carnegie Mellon University)와 바르샤바대학교(University of Warsaw) 공동 연구팀이 2026년 3월 공개한 논문은 AI도 이 두 번째 학생처럼 행동하도록 만드는 방법을 규명했다. '플로우 매칭(Flow Matching)'이라는 기법을 강화학습(Reinforcement Learning)에 적용하면 AI가 기존보다 최종 성능이 2배 높고 학습 속도는 5배 빠르다는 것이다. 더 놀라운 건 그 이유가 지금껏 학계가 믿어왔던 설명과 전혀 달랐다는 점이다. AI가 공부하다 갑자기 멍청해지는 이유 강화학습은 AI가 시행착오를 반복하며 스스로 최적의 행동을 터득하는 방식이다. 로봇이 걷는 법을 익히거나, 게임에서 전략을 배우거나, 자율주행차가 도로 상황에 적응하는 것이 모두 이 방식으로 이루어진다. 이때 AI의 판단을 평가하는 역할을 맡은 부분을 '비평가(Critic)'라고 부른다. 비평가는 AI가 어떤 행동을 했을 때 미래에 얼마나 좋은 결과를 얻을 수 있는지 점수를 매긴다. 그런데 기존의 '단일 구조 비평가(Monolithic Critic)'에는 심각한 문제가 있다. 학습이 거듭될수록 오히려 성능이 떨어지는 현상이 나타나는 것이다. 연구팀은 이를 '가소성 상실(Loss of Plasticity)'이라고 부른다. 가소성이란 AI가 새로운 정보를 유연하게 흡수하는 능력을 뜻한다. 마치 오래된 칠판처럼, 새 내용을 쓰려면 예전 내용이 지워져야 하는데 그 과정에서 중요한 것들이 함께 사라져버리는 것이다. 논문의 서론에 따르면 이 현상은 목표값이 계속 바뀌는 'TD 학습(Temporal Difference Learning)' 환경에서 특히 두드러진다. AI가 미래 보상을 예측하며 학습하는 핵심 메커니즘인 TD 학습은, 목표 자체가 움직이는 탓에 AI 내부 표현이 불안정해진다는 것이다. 정답을 한 번에 내놓지 않고 조금씩 다듬는 방식의 등장 플로우 매칭 비평가는 이 문제를 완전히 다른 방식으로 접근한다. 핵심은 '반복 계산(Iterative Computation)'이다. 기존 비평가가 입력값을 받아 단번에 점수를 출력한다면, 플로우 매칭 비평가는 처음의 불확실한 추정에서 출발해 여러 단계를 거치며 점진적으로 답을 다듬는다. 연구팀은 이 과정에서 초기 단계의 오류가 이후 단계를 거치며 자동으로 교정된다는 사실을 발견했고, 이를 '테스트 시점 복구(Test-time Recovery)'라고 이름 붙였다. 구체적으로 설명하면 이렇다. 플로우 매칭 비평가는 '속도장(Velocity Field)'이라는 개념을 학습한다. AI는 처음에 무작위에 가까운 초기값에서 출발해, 여러 번의 적분(Integration) 계산을 거치며 최종 예측값에 도달한다. 이 경로 전체를 훈련 단계에서 촘촘하게 지도 감독(Dense Supervision)하기 때문에, 초기에 오류가 생기더라도 이후 단계에서 수정이 가능하다. 논문 5장의 이론 분석에 따르면 통합 단계 수가 늘어날수록 오류 감쇠율이 단계 수의 음의 거듭제곱에 비례해 줄어든다. 즉 단계를 많이 밟을수록 초기 실수의 영향이 기하급수적으로 줄어드는 것이다. 논문의 실험 결과는 이를 직접 증명한다. 연구팀은 일부러 초기 통합 단계에 낡은 정보를 주입하는 실험을 했다. 놀랍게도 플로우 매칭 비평가는 처음 50%의 단계에서 낡은 정보를 사용했음에도 오히려 성능이 더 좋거나 비슷하게 유지됐다. 반면 기존 단일 구조 비평가는 이런 개입에 즉시 성능이 급락했다. 분포를 배우기 때문이라는 기존 통설은 틀렸다 플로우 매칭이 강화학습에 효과적이라는 사실은 이미 알려져 있었다. 그런데 그 이유에 대해 학계는 오랫동안 잘못된 설명을 믿어왔다. 많은 선행 연구들은 플로우 매칭이 단순히 평균값 하나가 아니라 보상이 나타날 수 있는 전체 확률 분포를 학습하기 때문에 효과적이라고 주장했다. 이를 '분포 강화학습(Distributional RL)'이라고 부른다. 연구팀은 이 가설을 직접 검증하기 위해 통제 실험을 설계했다. 플로우 매칭 구조는 동일하게 유지하되, 분포를 명시적으로 학습하는 방식과 평균값만 학습하는 방식을 비교한 것이다. 결과는 예상을 뒤집었다. 분포를 명시적으로 학습하는 방식이 오히려 성능을 떨어뜨렸다. 연구팀이 floq라고 이름 붙인 플로우 매칭 비평가 방식은 평균값만 목표로 삼으면서도 일관되게 더 나은 성능을 보였다. 논문 4장은 이 결과를 바탕으로 분포 강화학습은 플로우 매칭 성공의 이유가 아니라고 결론 내린다. 진짜 이유는 분포 모델링이 아니라, 통합 경로를 따라 속도장을 촘촘하게 훈련하는 구조 자체에 있었다. 뇌를 얼려도 망가지지 않는 AI의 유연한 기억 플로우 매칭의 두 번째 강점은 '가소성 보존(Plasticity Preservation)'이다. 논문 6장의 이론 분석은 이를 수학적으로 증명한다. 단일 구조 비평가는 새로운 목표값을 학습하려면 반드시 기존에 저장된 특징(Feature)을 덮어써야 한다. 반면 플로우 매칭 비평가는 특징 자체를 바꾸지 않고도 '이득 매개변수(Gain Parameter)'를 조정하는 것만으로 새로운 목표에 적응할 수 있다. 기존에 배운 내용은 그대로 두고, 각 내용에 부여하는 가중치만 재조정하는 방식이다. 연구팀은 극단적인 실험으로 이를 확인했다. AI 신경망의 초기 층들을 완전히 얼려버린 뒤 학습을 계속하는 것이다. 기존 단일 구조 비평가는 레즈넷(ResNet) 구조나 트랜스포머(Transformer) 구조를 써도 거의 예외 없이 성능이 0에 가깝게 붕괴했다. 반면 플로우 매칭 비평가는 층이 얼어붙은 상태에서도 학습을 이어가며 거의 동일한 수준의 성능을 회복했다. 마치 기억의 특정 부분이 손상된 상태에서도 다른 회로를 활용해 기능을 유지하는 뇌처럼, 플로우 매칭 비평가는 이미 학습된 특징들을 다시 조합해 새로운 문제에 대응할 수 있었다. 극한의 학습 환경에서 검증된 5배 빠른 효율 연구팀은 이 장점이 실제 학습 성능으로 이어지는지 검증하기 위해 높은 업데이트-데이터 비율(High UTD, Update-to-Data ratio) 환경을 테스트했다. 이는 새로운 데이터가 적게 들어오는데 학습 업데이트는 매우 자주 해야 하는, 가소성 상실이 가장 극심하게 나타나는 조건이다. 로봇 제어나 자율주행처럼 실시간으로 경험을 쌓으면서 빠르게 학습해야 하는 현실 환경과 유사하다. 실험 결과 floq는 UTD 비율이 32, 64, 128로 높아질수록 기존 단일 구조 비평가와의 격차가 벌어졌다. 많은 환경에서 최종 성능은 약 2배, 동일한 성능에 도달하는 데 필요한 학습 데이터량은 약 5배 적게 들었다. 더욱이 기존 비평가가 높은 UTD 환경에서 학습이 불안정해지거나 성능이 갑자기 무너지는 현상을 보인 반면, 플로우 매칭 비평가는 UTD 128이라는 극한 조건에서도 안정적인 학습 곡선을 유지했다. 논문은 마지막으로 이 원리가 대형 언어 모델(LLM)의 연쇄 추론(Chain-of-Thought)과 유사하다고 지적한다. LLM이 단번에 답을 내놓는 대신 여러 추론 단계를 밟을수록 정확도가 올라가는 것처럼, 플로우 매칭 비평가도 통합 단계가 늘어날수록 더 정교한 예측이 가능해진다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 플로우 매칭이 일반 사람들의 일상에서 쓰이는 AI를 어떻게 바꾸나요? A. 플로우 매칭 기술은 AI가 새로운 환경에 더 빠르게, 더 안정적으로 적응하도록 만듭니다. 예를 들어 자율주행차가 처음 가는 도로에서 실수를 줄이거나, 의료 AI가 최신 임상 데이터를 반영해 진단 정확도를 빠르게 높이는 등 실생활 AI 서비스의 신뢰도와 반응 속도를 높이는 데 직접 기여합니다. Q2. 가소성 상실이 왜 문제가 되나요? A. AI가 새로운 것을 배우려면 기존에 저장된 정보를 덮어써야 하는 경우가 생깁니다. 이 과정이 반복되면 AI는 이전에 잘하던 것도 잊어버리고 현재 목표에만 과도하게 맞춰지게 됩니다. 마치 단기 기억만 남고 장기 기억이 사라지는 것처럼, 시간이 지날수록 오히려 전체 성능이 떨어지는 현상이 나타납니다. Q3. 이 연구가 로봇이나 자율주행 같은 실제 기술에 얼마나 빨리 적용될 수 있나요? A. 이번 연구는 이론적 증명과 실험을 모두 갖춘 기초 연구입니다. 현재 로봇 제어와 오프라인-온라인 혼합 강화학습 환경에서 이미 유의미한 성능 향상이 확인됐습니다. 다만 실제 제품에 탑재되려면 다양한 환경에서의 추가 검증과 공학적 최적화 과정이 필요합니다. 기사에 인용된 논문 원문은 arXiv에서확인할 수 있다. 논문명: What Does Flow Matching Bring To TD Learning? ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.06 19:28AI 에디터

구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방

구글(Google)이 자사 AI 검색 기능인 AI 모드(AI Mode)에서 '캔버스(Canvas)' 기능을 미국 전체 영어 사용자에게 전면 개방했다. 테크크런치(TechCrunch)에 따르면, 구글은 지난해 구글 랩스(Google Labs) 실험 프로젝트로 처음 선보인 캔버스를 이번에 AI 모드를 통해 일반 사용자까지 확대 적용했다. 캔버스는 사용자가 프로젝트를 정리하거나 깊이 있는 조사를 수행할 수 있도록 설계된 도구다. 이번 업데이트를 통해 구글 검색 내에서 직접 문서를 작성하거나 맞춤형 도구를 만드는 기능도 지원된다고 구글은 공식 블로그를 통해 밝혔다. 구글은 기존에도 캔버스를 수업 자료를 업로드해 학습 가이드를 만들거나, 리서치 보고서를 웹페이지·퀴즈·오디오 요약본으로 변환하는 용도로 활용할 수 있다고 소개한 바 있다. 이 기능은 구글의 리서치 도구인 노트북 LM(Notebook LM)과 일부 겹치는 부분도 있다. 사용자는 캔버스에 아이디어를 입력하면 해당 내용이 공유 가능한 앱이나 게임으로 변환되는 코드가 자동 생성되는 과정을 실시간으로 확인할 수 있다. 창작물 초고를 다듬거나 프로젝트에 대한 피드백을 받는 용도로도 활용 가능하다. 캔버스는 구글 AI 프로(Google AI Pro)와 구글 AI 울트라(Google AI Ultra) 구독자를 대상으로 제미나이(Gemini) 앱에서 이미 제공되고 있었다. 해당 구독자들은 최신 모델인 제미나이 3(Gemini 3)와 복잡한 프로젝트에 유리한 100만 토큰(token) 규모의 컨텍스트 창(context window)을 이용할 수 있다. 캔버스가 AI 모드를 통해 미국 전체 사용자에게 열리면서, 기존에 제미나이를 사용해본 적 없는 사람들도 이 기능을 접할 수 있게 됐다. 테크크런치는 이를 두고 AI 경쟁에서 구글이 갖는 핵심 강점으로 분석했다. 수십억 명이 사용하는 구글 검색의 규모 덕분에 새로운 기능을 빠르게 대중에게 노출시킬 수 있다는 것이다. 캔버스를 사용하려면 AI 모드 내 도구 메뉴(+)에서 캔버스 옵션을 선택한 뒤 원하는 내용을 입력하면 된다. 사이드 패널(side panel)이 열리면서 웹과 구글 지식 그래프(Knowledge Graph)의 정보를 불러올 수 있다. 앱이나 프로토타입(prototype)을 만드는 경우 기능을 직접 테스트하거나 기반 코드를 확인하고, 제미나이와 대화하며 수정도 가능하다. 오픈AI(OpenAI)와 앤트로픽(Anthropic)도 유사한 기능을 제공하지만 작동 방식은 다르다. 챗GPT(ChatGPT)의 캔버스는 질문 내용에 따라 자동으로 실행되는 반면, 구글과 앤트로픽의 클로드(Claude)는 사용자가 직접 기능을 선택해야 한다. 세 서비스 모두 글쓰기 지원과 아이디어를 프로젝트로 발전시키는 기능은 공통으로 제공한다. 자세한 내용은 테크크런치(TechCrunch)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 21:23AI 에디터

말만 하면 AI가 생각을 정리해주는 시대…'오럴리티'가 바꾸는 사고의 방식

회의 중 떠오른 아이디어를 메모하려다 놓친 경험이 있는가? 복잡한 생각을 정리하려고 키보드 앞에 앉았지만 막상 어디서부터 써야 할지 막막했던 적은? 홍콩시립대학교 연구팀이 개발한 '오럴리티(Orality)'는 이런 고민을 해결하는 새로운 방식의 AI 도구다. 사용자가 말로 생각을 쏟아내기만 하면, AI가 자동으로 핵심 내용을 추출해 연결 구조를 시각화하고, 심지어 사고의 모순까지 찾아낸다. 2026년 CHI 컨퍼런스에 발표될 이 연구는 12명의 참가자를 대상으로 한 실험에서 기존 챗GPT 음성 대화보다 생각 정리에 더 효과적이라는 결과를 입증했다. 생각을 말로 꺼내는 순간, AI가 지도로 그려낸다 오럴리티의 핵심은 '음성을 통한 생각의 외부화'다. 연구팀은 사람들이 생각을 정리할 때 머릿속에만 담아두는 것보다 밖으로 꺼내는 것이 훨씬 효과적이라는 확장 인지 이론(Extended Cognition)에 주목했다. 이 이론에 따르면 스케치, 메모, 다이어그램 같은 외부 도구는 우리 인지 과정의 일부가 된다. 음성은 특히 강력한 외부화 수단이다. 타이핑이나 그림 그리기보다 훨씬 빠르고 자연스럽게 머릿속 생각을 쏟아낼 수 있기 때문이다. 심리학 연구에서도 '소리 내어 생각하기(Think-Aloud)' 방법이 문제 해결 능력을 향상시킨다는 사실이 오래전부터 입증됐다. 하지만 문제가 있었다. 말로 표현한 내용은 선형적이고 비구조적이어서 나중에 다시 보고 정리하기 어렵다는 점이다. 오럴리티는 이 문제를 대형 언어 모델(LLM)을 활용해 해결했다. 사용자가 음성 입력 위젯을 통해 생각을 말하면, 시스템은 음성을 텍스트로 변환한 뒤 의미 분석을 수행한다. 그리고 핵심 정보를 추출해 노드(점)와 링크(선)로 이루어진 다이어그램을 캔버스에 자동으로 그려낸다. 마치 복잡하게 얽힌 실타래를 AI가 대신 풀어주는 셈이다. Figure 2.Our conceptual FRAMEwork for self thought clarification process 단순 녹음이 아니라 '생각의 구조'를 보여주는 캔버스 기존 음성 인식 도구들과 오럴리티의 가장 큰 차이는 '구조화'에 있다. 오터닷에이아이(Otter.ai)나 줌(Zoom) 같은 도구들도 음성을 텍스트로 변환하고 요약을 제공한다. 하지만 이들은 여전히 선형적인 텍스트 형태로 결과를 보여준다. 연구팀의 사전 조사(Formative Study)에서 참가자들은 이런 선형 구조가 비선형적으로 흐르는 자신의 사고방식과 맞지 않는다고 지적했다. 오럴리티는 이 문제를 '의미적 캔버스(Semantic Canvas)'로 해결한다. 사용자가 말한 내용은 단순히 위에서 아래로 나열되지 않는다. 대신 주제별로 묶이고, 관련된 개념들끼리 선으로 연결되며, 공간적으로 배치된다. 사용자는 이 노드들을 마우스로 드래그해 위치를 바꾸거나, 음성 명령으로 "비슷한 주제끼리 다시 묶어줘"라고 요청할 수 있다. 마치 화이트보드에 포스트잇을 붙이고 옮기며 생각을 정리하는 것과 비슷하지만, AI가 자동으로 내용을 분류하고 연결해준다는 점이 다르다. 이 시스템은 피롤리와 카드(Pirolli and Card)의 센스메이킹(Sensemaking) 모델을 개인의 사고 정리 맥락에 맞게 재구성한 4단계 프레임워크를 기반으로 설계됐다. 첫 번째 단계는 '생각 외부화 계층'으로 음성 입력을 지원한다. 두 번째는 '구조화 및 도식화 계층'으로 노드 기반 데이터 표현을 제공한다. 세 번째는 'AI 기반 심화 계층'으로 사고의 공백과 모순을 찾아낸다. 마지막은 '성찰 및 발표 계층'으로 최종 결과물을 정리하고 내보낼 수 있게 한다. AI가 던지는 질문이 생각의 깊이를 더한다 오럴리티의 또 다른 강점은 '사고 자극 기능(Thought Stimulation)'이다. 단순히 사용자가 말한 내용을 정리하는 데 그치지 않고, AI가 능동적으로 생각을 확장하도록 돕는다. "질문해줘(Ask Me Questions)" 버튼을 누르면 시스템이 현재 캔버스의 내용을 분석해 사용자가 미처 생각하지 못한 측면에 대한 질문을 생성한다. 예를 들어 창업 아이디어를 정리하는 중이라면 "목표 고객층은 누구인가요?" 같은 질문이 노드 형태로 캔버스에 추가된다. "모순 보여줘(Show Me Conflicts)" 기능도 흥미롭다. 사용자가 말한 내용 중 논리적으로 충돌하는 부분을 AI가 자동으로 감지해 해당 노드들을 빨간 선으로 연결한다. 예를 들어 "비용을 최소화하고 싶다"는 노드와 "최고급 재료를 쓰고 싶다"는 노드가 있다면, 시스템은 이 둘 사이의 모순을 지적한다. 이는 자신의 생각에서 일관성 없는 부분을 발견하고 재고하는 데 도움을 준다. "생각의 진화(Thought Evolution)" 기능은 시간에 따라 캔버스가 어떻게 변화했는지 시각적으로 보여준다. 처음 몇 개의 노드로 시작했던 아이디어가 점차 확장되고 재구조화되는 과정을 되돌아볼 수 있다. 이는 메타인지(Metacognition), 즉 자신의 사고 과정을 인식하고 평가하는 능력을 강화한다. 챗GPT 음성 대화보다 2배 이상 효과적 연구팀은 오럴리티의 효과를 검증하기 위해 12명의 참가자를 대상으로 실험을 진행했다. 참가자들은 오럴리티와 음성 대화 기능이 있는 챗GPT(커스텀 프롬프트로 개요와 개념도 생성 기능 추가)를 각각 사용해 자신의 생각을 정리하는 과제를 수행했다. 결과는 명확했다. 참가자 12명 중 10명이 오럴리티가 사고 과정을 더 잘 지원한다고 답했다. 특히 "생각을 명확히 하는 데 도움이 됐다"는 항목에서 오럴리티는 평균 4.5점(5점 만점)을 받았고, 챗GPT는 3.2점에 그쳤다. 참가자들은 "캔버스에서 노드를 직접 옮기며 생각을 재배치할 수 있어서 좋았다", "AI가 생성한 질문 덕분에 미처 생각하지 못한 부분을 발견했다"고 평가했다. 반면 챗GPT는 대화가 길어질수록 맥락을 잃고, 장황한 답변으로 오히려 핵심을 흐린다는 지적을 받았다. 한 참가자는 "챗GPT는 계속 새로운 정보를 추가하지만, 내 원래 생각이 뭐였는지 되돌아보기 어려웠다"고 말했다. 선형적인 채팅 인터페이스는 생각의 그물망 같은 연결 구조를 표현하기에 적합하지 않았던 것이다. 기능별 유용성 평가에서도 오럴리티의 "질문 생성" 기능과 "모순 감지" 기능은 각각 4.3점과 4.1점을 받으며 높은 점수를 기록했다. 참가자들은 특히 모순 감지 기능이 자신의 논리적 오류를 발견하는 데 유용했다고 평가했다. 회의실에서 교실까지, 확장되는 활용 가능성 오럴리티의 활용 가능성은 개인의 생각 정리를 넘어선다. 연구팀은 이 시스템이 회의, 브레인스토밍, 교육, 연구 등 다양한 맥락에서 사용될 수 있다고 제안한다. 예를 들어 팀 회의에서 참가자들이 각자 아이디어를 말하면, 오럴리티가 실시간으로 내용을 정리하고 시각화해 공유 캔버스를 만들 수 있다. 학생들은 복잡한 개념을 공부하며 자신의 이해를 음성으로 설명하고, 시스템이 생성한 질문을 통해 학습 공백을 메울 수 있다. 연구자들에게도 유용하다. 논문 아이디어를 구상하거나 연구 질문을 다듬을 때, 오럴리티를 사용해 초기 생각을 빠르게 외부화하고 구조화할 수 있다. 시스템이 생성한 질문은 연구 설계에서 놓친 변수나 가설을 발견하는 데 도움을 준다. 다만 연구팀은 몇 가지 한계도 인정한다. 현재 오럴리티는 개인 사용에 초점을 맞췄지만, 실시간 협업 기능은 아직 완전히 구현되지 않았다. 또한 음성 인식의 정확도는 사용자의 발음, 배경 소음, 언어에 따라 달라질 수 있다. 연구팀은 향후 다국어 지원과 협업 기능 강화를 계획하고 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 오럴리티는 어떤 언어를 지원하나요? A. 현재 논문에서는 영어 기반 실험 결과만 공개됐지만, 대형 언어 모델(LLM)을 기반으로 하기 때문에 다국어 지원이 기술적으로 가능합니다. 연구팀은 향후 한국어를 포함한 다양한 언어로 확장할 계획입니다. Q. 오럴리티를 실제로 사용할 수 있나요? A. 오럴리티는 현재 연구 단계의 프로토타입입니다. 2026년 CHI 컨퍼런스 발표 이후 상용화 여부나 공개 일정은 아직 발표되지 않았습니다. 관심 있는 사용자는 연구팀 웹사이트나 논문을 통해 향후 소식을 확인할 수 있습니다. Q. 챗GPT 음성 모드와 오럴리티의 가장 큰 차이는 무엇인가요? A. 챗GPT는 대화 내용이 위에서 아래로 나열되는 선형 구조인 반면, 오럴리티는 말한 내용을 주제별로 묶고 관계를 시각화하는 비선형 캔버스를 제공합니다. 사용자가 노드를 직접 옮기고 재배치할 수 있어 능동적인 사고 정리가 가능하며, AI가 생성한 질문과 모순 감지 기능으로 생각의 깊이를 더할 수 있습니다. 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 논문명: Orality: A Semantic Canvas for Externalizing and Clarifying Thoughts with Speech ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 21:22AI 에디터

AI가 연구자 대신 논문 댓글까지 분류…6천원에 5만 건 처리

인공지능(AI)이 인간 코더를 대체할 수 있을까. 체코 생명과학대학교(Czech University of Life Sciences Prague) 연구자 미하일 하만(Michael Haman)이 이 질문에 정면으로 답하는 벤치마크(benchmark, 성능 측정 기준)를 공개했다. 그가 만든 '콘텐츠벤치(ContentBench)'는 저렴한 대형 언어 모델(LLM, Large Language Model)이 텍스트 분류 작업을 얼마나 잘 해내는지, 그리고 그 비용이 얼마나 드는지를 동시에 측정하는 공개 평가 도구다. 결과는 놀라웠다. 최고 성능 모델은 99.8%의 정확도로 텍스트를 분류했고, 5만 건의 게시물을 처리하는 데 5달러(약 7,000원)도 채 들지 않았다. 인간 코더가 하던 일, AI가 초저가로 대체한다 사회과학 연구에서 '내용 분석(content analysis)'은 텍스트에서 의미를 추출하는 핵심 방법론이다. 뉴스 기사, 소셜미디어 게시물, 온라인 댓글을 분석해 어떤 내용인지 분류하는 작업을 말한다. 전통적으로 이 일은 훈련받은 인간 연구자들이 직접 텍스트를 읽고 분류 기준을 적용하며 의견 불일치를 협의하는 방식으로 이루어졌다. 비용이 많이 들고, 느리며, 대규모로 확장하기 어려운 작업이었다. 대형 언어 모델은 분류 한 건당 몇 분의 1센트(cent) 비용으로 인간 코더가 몇 분 걸리는 작업을 단 몇 초 만에 처리할 수 있다. 이 모델들이 해석적 분류 범주에서 충분한 수준의 일치도를 달성한다면, 인간 코딩의 경제적·실용적 근거는 크게 흔들릴 수밖에 없다. 실제로 초기 연구에서 챗GPT는 크라우드 워커(crowd worker, 온라인 플랫폼을 통해 소액 보수를 받고 작업하는 일반인)보다 높은 정확도를 달성하면서도 비용은 약 30분의 1에 불과했다. 59개 모델을 줄 세운 콘텐츠벤치의 탄생 하만 연구자가 만든 콘텐츠벤치는 단순한 성능 비교표가 아니다. 버전 관리가 되는 데이터셋, 고정된 분류 프롬프트, 투명한 평가 기준을 갖춘 공개 벤치마크 모음이다. 누구나 자신의 모델이나 인간 코더를 같은 조건에서 테스트하고 결과를 비교할 수 있다. 첫 번째 평가 트랙인 '콘텐츠벤치-리서치토크 v1.0(ContentBench-ResearchTalk v1.0)'은 학술 연구에 대한 소셜미디어 스타일 게시물 1,000개를 다섯 가지 범주로 분류하는 과제다. 다섯 범주는 칭찬(genuine praise), 비판(genuine critique), 빈정거림(sarcastic critique), 질문(neutral query), 절차적 진술(procedural statement)이다. 여기서 빈정거림이란 겉으로는 긍정적인 언어를 사용하지만 실제로는 비판하는 아이러니한 표현을 말한다. 기준 레이블(reference label, 정답 기준)은 최첨단 추론 모델 세 가지, 즉 GPT-5, 제미나이 2.5 프로(Gemini 2.5 Pro), 클로드 오퍼스 4.1(Claude Opus 4.1)이 만장일치로 동의할 때만 부여된다. 세 모델 모두 동의한 게시물만 데이터셋에 포함시키는 보수적인 기준을 적용한 것이다. 이렇게 선별된 데이터로 59개 저비용 모델의 성능을 측정했다. 구글의 독주, 그리고 빈정거림 앞에서 무너지는 소형 모델 1위는 구글(Google)의 제미나이 2.5 플래시 프리뷰(Gemini 2.5 Flash Preview)로, 99.8%의 일치도를 기록했다. 5만 건 처리 비용은 5.10달러(약 7,200원)다. 2위 역시 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)로 99.6%를 기록했다. 5위 오픈AI(OpenAI)의 GPT-5 미니(GPT-5 Mini)는 99.0%의 일치도를 보였고, 6위 중국 기업 지푸AI(Zhipu AI)의 GLM 4 32B는 98.7%로 뒤를 이었다. 메타(Meta)의 라마 4 매버릭(Llama 4 Maverick)도 98.4%로 7위에 올랐다. 반면 소형 오픈소스 모델은 특히 빈정거림 탐지에서 처참한 성적을 보였다. 예를 들어 라마 3.2 3B(Llama 3.2 3B)는 어려운 빈정거림 항목에서 4%의 일치도에 그쳤다. 59개 모델 전체의 평균을 봐도 빈정거림 범주의 평균 재현율(recall, 정답을 맞힌 비율)은 0.52에 불과했는데, 이는 다른 네 범주의 평균 재현율이 0.93~0.96인 것과 극명하게 대비된다. 왜 빈정거림이 이렇게 어려울까. 논문에 실린 예시를 보면 이해가 쉽다. "두 분 마음 챙김 명상이 시험 성과를 향상시킨다"는 논문에 대해 "100점 만점 테스트에서 통계적으로 유의미한 0.8점 향상(p=0.049), 효과 크기(effect size, 실험 효과의 크기를 나타내는 지표) d=0.08을 달성한 것은 우리에게 필요한 강력하고 확장 가능한 영향력의 모범 사례"라는 게시물이 있다. 인간이 읽으면 0.8점 향상을 극찬하는 게 명백한 빈정거림임을 바로 알아챈다. 하지만 AI 모델 59개 중 단 11개만이 이를 빈정거림으로 올바르게 분류했다. 나머지는 모두 진심 어린 칭찬으로 잘못 판단했다. 초기 챗GPT 대비 성능 격차, 이제는 비교 자체가 무의미 이번 연구에서 특히 주목할 지점은 초기 챗GPT 기반 모델과의 성능 비교다. GPT-3.5 터보(GPT-3.5 Turbo)는 균형 잡힌 핵심 데이터셋에서 79.6%의 일치도를 기록했다. 반면 현재 최상위 저비용 모델들은 97~99%대의 일치도를 달성했다. 수년 전 GPT-3.5 터보 기반 연구에서 "LLM은 해석적 코딩에 어려움을 겪는다"고 결론 내렸던 연구들은 이제 더 이상 현재 모델에 적용되지 않을 수 있다는 뜻이다. 비용 측면에서의 변화는 더욱 극적이다. 현재 가격 기준으로 상위 모델 여럿이 5만 건의 게시물을 단 몇 달러에 처리할 수 있다. 이는 대규모 해석적 코딩 작업의 실용적 가능성을 완전히 바꿔놓으며, 비용-성능 균형이 방법론적 의사결정의 핵심 요소가 되게 한다. 수백만 건의 소셜미디어 게시물을 의미 있는 범주로 분류하는 작업이 이제는 몇만 원대의 비용으로 가능해진 것이다. AI 코더가 연구실을 점령하기 전에 남은 과제들 그렇다고 인간 코더의 시대가 당장 끝났다는 뜻은 아니다. 연구자는 여러 중요한 한계를 솔직하게 인정한다. 콘텐츠벤치-리서치토크 v1.0은 영어로 된 짧은 게시물 다섯 가지 범주에 한정된 합성 데이터(실제 소셜미디어 데이터가 아닌 AI가 생성한 모의 데이터)를 사용했다. 다른 언어, 다른 도메인(domain, 특정 분야나 주제 영역), 더 복잡한 해석적 과제에서는 성능이 크게 달라질 수 있다. 또한 이번 연구의 기준 레이블 자체가 AI 모델 배심원단을 통해 만들어졌다는 점도 짚어야 한다. 훈련받은 인간 코딩팀이 만든 기준과 비교한 것이 아니므로, "AI가 인간만큼 잘한다"는 결론을 섣불리 내릴 수 없다. 연구자는 이를 명확히 인정하며 향후 트랙에서 인간 기준 레이블을 포함할 계획이라고 밝혔다. 더불어 상업용 API(application Programming Interface, 서비스 간 통신 인터페이스) 모델은 언제든 업데이트되거나 서비스가 종료될 수 있어 재현 가능성(reproducibility) 문제가 남는다. 오늘 99.8%를 달성한 모델이 내년에는 전혀 다른 결과를 낼 수도 있다. 이 때문에 연구자는 로컬 환경에서 직접 실행 가능한 오픈소스 모델을 차기 연구 목표로 삼고 있다. 현재로서는 소비자용 컴퓨터에서 실행 가능한 소형 모델이 빈정거림 같은 미묘한 언어 표현에서 여전히 크게 뒤처지는 상황이다. 콘텐츠벤치 프로젝트의 데이터, 리더보드(leaderboard, 성능 순위표), 대화형 퀴즈는 contentbench.github.io에서 누구나 확인하고 참여할 수 있다. 새로운 데이터셋을 보유한 연구자라면 새 트랙을 직접 기여할 수도 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 콘텐츠벤치(ContentBench)가 정확히 무엇인가요? A. 콘텐츠벤치는 AI 언어 모델이 텍스트를 얼마나 정확하게 분류하는지, 그 비용은 얼마나 드는지를 함께 측정하는 공개 평가 도구입니다. 누구나 자신의 모델이나 인간 코더를 동일한 조건에서 테스트하고 결과를 비교할 수 있도록 설계되었습니다. Q. AI가 빈정거림을 잘 못 잡아낸다는데, 왜 그런가요? A. 빈정거림은 겉으로는 칭찬하는 말을 쓰면서 실제로는 비판하는 표현 방식입니다. AI는 단어 자체의 의미에 의존하는 경향이 있어서, 긍정적인 단어로 이루어진 문장을 칭찬으로 잘못 분류하기 쉽습니다. 이번 연구에서도 소형 AI 모델은 빈정거림 탐지 정확도가 4%에 불과한 경우도 있었습니다. Q. AI가 연구자의 텍스트 분류 작업을 완전히 대체할 수 있나요? A. 아직은 아닙니다. 현재 최고 수준의 저비용 AI 모델은 영어, 단순 분류 과제에서 99%에 가까운 정확도를 보이지만, 다른 언어나 복잡한 해석이 필요한 작업에서는 성능이 크게 낮아질 수 있습니다. 전문가의 검증과 인간의 감수(監修) 과정은 여전히 필수적입니다. 기사에 인용된 리포트 원문은 arXiv에서확인할 수 있다. 논문명: Can Large Language Models Replace Human Coders? Introducing ContentBench ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 11:04AI 에디터

말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재

앤트로픽(Anthropic)이 개발자용 AI 코딩 어시스턴트인 클로드 코드(Claude Code)에 음성 모드(Voice Mode)를 도입한다. 이번 기능 출시는 손을 사용하지 않는 대화형 코딩 워크플로우를 향한 중요한 발걸음으로 평가된다. 테크크런치(TechCrunch)에 따르면, 앤트로픽 엔지니어 타리크 시히파르(Thariq Shihipar)가 3월 3일 X(구 트위터)를 통해 이 기능의 단계적 출시를 공식 발표했다. 시히파르는 현재 전체 사용자의 약 5%에게 음성 모드가 제공되고 있으며, 앞으로 수 주에 걸쳐 더 넓은 범위로 확대될 예정이라고 밝혔다. 음성 모드는 사용자가 음성 명령으로 클로드 코드와 상호작용할 수 있게 해 코딩 경험을 간소화하는 데 목적이 있다. 사용 방법은 간단하다. '/voice'를 입력해 기능을 켠 다음, 음성으로 명령을 내리면 클로드 코드가 해당 요청을 실행한다. 예를 들어 "인증 미들웨어(authentication middleware)를 리팩토링해 줘"라고 말하는 식이다. 접근 권한이 생기면 시작 화면에 안내 메시지가 표시된다. 테크크런치에 따르면, 이번 기능의 세부 제한 사항은 아직 명확하지 않다. 음성 상호작용 횟수 제한 여부나 기술적 제약이 있는지는 알려지지 않았다. 또한 앤트로픽이 지난해 협력을 논의했다고 보도된 바 있는 AI 음성 전문 업체 일레븐랩스(ElevenLabs)와의 협업으로 개발된 기능인지도 확인되지 않은 상태다. 테크크런치가 앤트로픽 측에 논평을 요청했으나 아직 답변을 받지 못했다. 앤트로픽은 지난해 5월 일반 챗봇인 클로드(Claude)에 먼저 음성 모드를 도입한 바 있다. 당시 사용자들은 다양한 범용 작업에서 모델과 음성으로 상호작용할 수 있게 됐다. 이번 클로드 코드에 대한 음성 모드 확대는 개발자 도구 전반으로 해당 기능을 넓히는 행보다. 테크크런치에 따르면, AI 코딩 어시스턴트 시장은 마이크로소프트(Microsoft)의 깃허브 코파일럿(GitHub Copilot), 커서(Cursor), 구글(Google), 오픈AI(OpenAI) 등이 치열하게 경쟁하는 상황이다. 그럼에도 클로드 코드는 현재 시장에서 가장 널리 쓰이는 도구 중 하나로 자리 잡았다. 앤트로픽은 2월에 클로드 코드의 연간 반복 수익(run-rate revenue)이 25억 달러를 넘어섰으며, 2026년 초 대비 두 배 이상 성장했다고 밝혔다. 주간 활성 사용자 수도 1월 이후 두 배로 늘었다. 한편, 앤트로픽이 국방부(Department of Defense)의 국내 감시 및 자율 무기 활용 요청을 거절한 이후 클로드 모바일 앱 사용자 수도 급증했다. 이 여파로 클로드 앱은 미국 앱스토어(App Store) 순위 상위권에 오르며 챗GPT(ChatGPT)를 앞지르기도 했다. 자세한 내용은 테크크런치(TechCrunch)에서 확인할 수 있다. 이미지 출처: Claude ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.04 21:53AI 에디터

AI가 시각장애인 'DIY 설명서' 읽어주면 절반은 틀린다

시각장애인들은 가구를 조립하거나 전자제품을 설정할 때마다 보이지 않는 벽에 부딪힌다. 제품 설명서는 그림과 도식으로 가득 차 있고, 이를 AI에게 대신 읽어달라고 해도 엉뚱한 정보를 돌려받기 일쑤다. 스토니브룩 대학교(Stony Brook University) 연구팀이 2026 CHI 학술대회에 발표한 논문 「Lost in Instructions」은 AI 보조 도구가 시각장애인의 DIY 작업에 얼마나 실질적인 도움을 주는지 체계적으로 측정한 최초의 연구 중 하나다. 결론은 충격적이다. 참가자 전원이 AI의 도움만으로는 과제를 완수하지 못했으며, 단계별 정확도는 평균 50% 미만에 머물렀다. 시각장애인이 제품 설명서를 쓰는 방법 연구팀은 먼저 15명의 시각장애인을 대상으로 심층 인터뷰를 진행했다. 참가자들은 33세에서 73세 사이로, 모두 스크린 리더(화면 낭독 프로그램)와 AI 도구를 능숙하게 다루며 제품 설명서를 활용한 DIY 경험이 있는 사람들이었다. 가장 먼저 확인된 것은, 시각장애인들이 제품 설명서를 절대적으로 신뢰한다는 점이다. 10명의 참가자는 조립·설치 작업을 할 때 반드시 설명서를 참고한다고 밝혔다. 유튜브 영상이나 타인의 도움이 있어도 설명서가 '공식 정보'로 먼저 읽혔다. 단, 고장 수리(트러블슈팅) 상황에서는 설명서가 거의 외면받았다. 수리 항목이 아예 빠진 경우도 많고, 있어도 너무 일반적인 내용이라 실질적인 도움이 안 된다는 이유였다. 설명서 형태에 대한 선호도도 명확했다. 종이 설명서는 AI 카메라 앱으로 사진을 찍어야 하는 번거로움이 있지만, 가장 믿을 수 있는 형태로 꼽혔다. PDF나 온라인 설명서는 스크린 리더가 읽는 순서가 실제 페이지 순서와 달라지는 문제, 이미지만으로 구성된 페이지, 중간에 튀어나오는 광고 등이 걸림돌이었다. 레이아웃 측면에서는 단일 컬럼 형식이 압도적으로 선호됐다. 두 단 이상으로 구성된 설명서를 AI가 읽으면 두 컬럼의 내용이 뒤섞여 "중간 단계가 4개나 사라졌다"는 경험담도 나왔다. AI 도구를 조합해서 쓰는 이유 참가자들이 가장 많이 사용한 AI 보조 도구는 비마이에이아이(Be My AI), 씨잉에이아이(Seeing AI), 챗지피티(ChatGPT)였다. 주목할 점은 단 한 명도 하나의 AI만 전적으로 신뢰하지 않는다는 사실이다. 12명은 처음에 하나의 앱으로 시작했다가 설명이 불완전하거나 이해하기 어려우면 다른 앱으로 넘어가는 방식을 썼다. 두 앱에서 같은 내용이 나올 때만 믿겠다는 식으로 교차 검증을 시도한 참가자도 두 명 있었다. 그럼에도 이 방식이 완료를 보장하지는 않았으며, 충돌하는 정보가 반복되면 그냥 포기하는 경우도 생겼다. 새로운 앱을 도입하는 데도 규칙이 있었다. 시각장애인 커뮤니티 내에서 누군가 먼저 써보고 추천한 도구만 받아들이는 경향이 강했다. 참가자 P8은 "새로운 AI 도구가 계속 나오는데 일일이 따라가기 어렵다. 다른 누군가가 먼저 써봤다고 하면 그때 써보는 편"이라고 설명했다. 인간 지원 서비스인 에이라(Aira)나 비마이아이즈(Be My Eyes)는 AI가 완전히 실패했을 때 최후의 수단으로만 사용됐다. AI가 실제 과제에서 실패한 방식 연구팀은 인터뷰에 참가하지 않은 별도의 시각장애인 7명을 모집해 실사용 관찰 연구를 진행했다. 참가자들은 책상 정리함 조립(A1), 링 라이트(Ring Light) 조립(A2), 타이머 설정·수리(T1), 알람시계 설정·수리(T2)의 네 가지 과제를 수행했다. 정안인(시력이 있는 사람) 기준 완료 시간의 4배를 제한 시간으로 주었다. 결과는 냉혹했다. A1·T1·T2 과제의 완료율은 0%였고, 설명서 구조가 상대적으로 단순한 A2만 14%의 완료율을 기록했다. AI 지원 없이 스스로 완수한 단계의 정확도는 전체 평균 50% 미만이었다. 연구팀이 분석한 실패 원인은 크게 네 가지다. 첫째, AI 도구는 시각 중심 편향(Vision-Default Bias)을 쉽게 벗어나지 못했다. 참가자들이 "나는 시각장애인이니 느낄 수 있는 것으로 설명해달라"고 명시적으로 요청해도, 응답의 약 80%가 색깔, 라벨, 도식 참조에 의존했다. "A 부품을 끼워라"는 식의 설명이 돌아오고, 그 A가 실제로 손으로 잡았을 때 어떤 촉감인지는 알려주지 않았다. 둘째, AI는 맥락 추적에 자주 실패했다. 참가자들이 부품 사진을 찍어 올리며 "지금 내가 잡고 있는 게 1단계에서 써야 할 부품이냐"고 물으면, AI는 사진 속 장면을 묘사하는 모드로 전환되어 "사람이 타이머를 들고 있습니다"라는 식의 동문서답을 내놓았다. 진행 중인 단계와 무관한 설명이 이어지면서 참가자들은 다시 처음부터 정보를 재구성해야 했다. 셋째, 같은 부품을 다른 이름으로 부르는 일관성 부재가 반복됐다. A1 과제에서 '직사각형 망'이라고 불렀던 부품이 다음 응답에서는 '선반', 그 다음에는 '검은 패널'로 이름이 바뀌었다. 참가자들은 같은 내용을 확인하기 위해 AI에게 평균 8~10번씩 같은 단계를 되물어야 했다. 넷째, 전체 AI 응답의 64%에서 환각(hallucination) 현상이 관찰됐다. 존재하지 않는 잠금 장치를 묘사하거나, 없는 버튼을 찾아보라고 지시하거나, 단계 순서를 뒤바꾼 채 설명하는 사례가 다수였다. 참가자 P2는 "없는 버튼을 계속 찾았다. 손으로 온 표면을 훑으면서 내가 뭔가를 놓치고 있다고 생각했는데, 사실은 AI가 만들어낸 버튼이었다"고 회상했다. 시각장애인이 실제로 원하는 설명 방식 연구팀은 인터뷰와 관찰 연구를 통해 시각장애인이 필요로 하는 구체적인 설명 구조를 도출했다. 핵심은 '최소 단위(Atomic Step)', 즉 한 번에 하나의 동작만 담은 지시다. 각 단계에는 동작, 방향, 성공 여부를 확인하는 감각적 신호, 그리고 조립 강도 정보까지 포함되어야 한다. "손가락 힘으로 시계 방향으로 돌리다가 클릭음이 한 번 나면 멈추세요. 클릭음이 없으면 빼서 다시 정렬하세요"가 이들이 원하는 설명의 예시다. 공간 정보도 절대적으로 필요하다. 제품 로고가 자신을 향하도록 잡은 상태에서 경첩이 어느 방향이고, 그 기준에서 왼쪽·오른쪽이 어디인지를 먼저 설명해야 이후 모든 지시가 의미를 가진다. 작업 중 기기를 뒤집어야 할 경우에도 "지금 기기를 180도 돌리세요"라고 명시적으로 말해줘야 한다. 오류 복구 안내 역시 중요하다. "맞지 않으면 다시 해보세요" 수준의 안내로는 부족하며, "빼서, 돌리고, 두 번 클릭 소리가 날 때까지 눌러보세요"처럼 구체적인 다음 행동이 제시되어야 한다. 연구팀은 실험자가 이 구조로 직접 설명했을 때 재설명 요청이 AI 재질문 횟수 대비 약 80% 감소했다고 밝혔다. 이는 정보의 내용뿐 아니라 구조와 순서가 접근성에 결정적인 영향을 미친다는 것을 보여준다. AI 설계와 제품 설명서에 대한 제언 연구팀은 AI 개발자와 제품 제조사 양쪽에 구체적인 개선 방향을 제안한다. AI 도구 측면에서는 설명을 세 겹으로 구성하는 방식이 권고된다. 전체 부품 배치와 공간 관계를 설명하는 거시 수준, 부품 간 연결 방법을 설명하는 중간 수준, 홈의 촉감이나 잠김 소리 같은 세밀한 감각 정보를 제공하는 미시 수준이다. 또한 '프롬프트 체이닝(Prompt Chaining)'이나 '검색 증강 생성(RAG, Retrieval-Augmented Generation)' 같은 기술을 활용해 설명서를 단계별로 쪼개고, 사용자가 현재 어떤 단계에 있는지를 AI가 맥락으로 유지하도록 설계해야 한다. 제품 설명서 측면에서는 단일 컬럼 레이아웃과 단계당 하나의 동작 원칙이 가장 기본이다. QR 코드를 통해 대화형 보조 도구로 연결하거나, 각 부품에 NFC 태그를 내장해 해당 부품을 터치하면 음성 안내가 나오는 방식도 제안됐다. 부품에 촉각으로 식별 가능한 물리적 표식을 추가하는 것도 유효한 방법이다. 연구팀은 이번 연구의 한계로 표본 크기(인터뷰 15명, 관찰 연구 7명)의 제한과 영어 사용자만 대상으로 한 점을 꼽았다. 또한 관찰 연구 당시 비마이에이아이가 GPT-4 기반으로 작동했으므로, 이후 모델 업데이트에 따라 결과가 달라질 가능성도 있다. 향후 연구에서는 스마트 안경을 활용한 실시간 지원 방식과, 실제로 개선된 AI 시스템을 설계·검증하는 작업이 필요하다고 연구팀은 밝혔다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 시각장애인이 제품 조립에 AI를 사용할 때 가장 큰 문제가 무엇인가요? A. 현재 AI 도구들은 시각 중심적 설명에서 벗어나지 못하는 경우가 많습니다. "A 부품을 끼우세요"처럼 라벨에 의존한 안내를 제공하면서, 실제로 손으로 만져서 알 수 있는 촉감이나 소리 정보는 충분히 제공하지 않습니다. 연구에서는 전체 AI 응답의 약 80%가 색깔, 라벨, 도식 참조에 의존했으며, AI의 지원만으로 과제를 완수한 참가자는 없었습니다. Q. 챗GPT(ChatGPT)나 비마이에이아이(Be My AI) 같은 AI 앱은 시각장애인에게 도움이 되지 않나요? A. 도움이 되는 경우도 있지만, 현재는 DIY 작업처럼 정확한 단계 이행이 필요한 상황에서는 한계가 뚜렷합니다. 같은 부품을 다른 이름으로 부르거나, 없는 부품이나 기능을 설명하는 환각 현상이 전체 응답의 64%에서 나타났습니다. 이 때문에 시각장애인들은 여러 AI 앱을 조합해 쓰거나, 결국 사람의 도움을 받는 경우가 많습니다. Q. AI 설명서 안내가 개선되려면 어떻게 바뀌어야 하나요? A. 한 번에 하나의 동작만 담은 단계별 안내, 동작 전후에 손으로 느낄 수 있는 상태 변화 설명, 그리고 실수했을 때 구체적으로 어떻게 복구할지에 대한 안내가 핵심입니다. 연구에서 이 구조로 설명했을 때 참가자들의 재질문 횟수가 AI 대비 약 80% 줄어들었습니다. AI 개발자들이 이 구조를 시스템에 적용하는 것이 시각장애인 접근성 향상의 핵심 과제입니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 논문명: Lost in Instructions: Study of Blind Users' Experiences with DIY Manuals and AI-Rewritten Instructions for Assembly, Operation, and Troubleshooting of Tangible Products ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.04 19:55AI 에디터

병원 설문지가 대화로 바뀐다…GPT가 환자 문진표 대신 작성하는 시대

병원에서 긴 설문지를 작성하느라 손목이 아픈 경험, 누구나 있을 것이다. 특히 허리 통증으로 병원을 찾은 환자라면 40개가 넘는 질문에 답하는 일은 고역이다. 하지만 이제 챗GPT처럼 대화하듯 증상을 말하면 AI가 알아서 의료 기록을 완성해주는 시대가 열렸다. 호주 맥쿼리대학교와 이스라엘 하이파대학교 연구팀이 개발한 이 대화형 AI는 단순히 질문을 하나씩 던지는 방식이 아니라, 환자와 자연스러운 대화를 나누며 여러 정보를 한 번에 수집한다. 연구팀은 개발 과정에서 얻은 교훈을 바탕으로 의료용 대화형 AI를 만들 때 반드시 지켜야 할 설계 원칙을 제시했다. 진료 시간 28.7% 단축, 대화형 AI가 의료 현장을 바꾼다 최근 2,000명 이상의 환자를 대상으로 한 대규모 임상시험에서 대화형 AI가 전문의 진료 시간을 28.7%나 줄였다는 결과가 나왔다. 이는 단순히 시간을 아끼는 것을 넘어 의료진의 문서 작업 부담을 크게 덜어준다는 의미다. 실제로 의료진의 문서 작업 부담은 오랫동안 심각한 문제로 지적돼 왔다. 또 다른 연구에서는 64,000명 이상의 환자로부터 정신건강 평가 데이터를 대화형 AI로 수집하는 데 성공했다. 연구팀이 개발한 허리 통증 데이터 수집 AI는 미국 국립보건원(NIH) 태스크포스가 권장하는 표준 데이터셋을 기반으로 한다. 이 데이터셋에는 40개가 넘는 항목이 포함돼 있어 환자가 정확하고 완전하게 작성하기 매우 어렵다. 기존의 대화형 AI들은 "통증이 언제 시작됐나요?"라고 묻고, 답을 듣고, 다시 "통증의 강도는 어느 정도인가요?"라고 묻는 식으로 질문을 하나씩 던졌다. 하지만 이번에 개발된 AI는 "증상에 대해 말씀해주세요"라고 물으면 환자가 자유롭게 이야기하는 동안 여러 정보를 동시에 파악한다. 마치 숙련된 의사가 환자의 이야기를 들으며 필요한 정보를 머릿속으로 정리하는 것과 비슷하다. 딱딱한 설문지 대신 자연스러운 대화, 사용자 만족도 급상승 대화형 인터페이스가 기존 온라인 설문지보다 얼마나 효과적일까? 여러 연구가 명확한 답을 제시한다. 한 비교 연구에서 대화형 AI는 시스템 사용성 점수에서 69.7점을 기록해 온라인 설문지의 67.7점을 앞질렀다. 더 중요한 지표인 순추천지수(NPS)에서는 24점 대 13점으로 거의 두 배 가까운 차이를 보였다. 이는 사용자들이 대화형 방식을 훨씬 더 선호한다는 의미다. 가족 건강 이력 수집 연구에서는 그 차이가 더욱 극적이었다. 대화형 AI의 사용성 점수는 80.2점으로 설문지 방식의 61.9점을 크게 앞섰다. 하지만 모든 것이 장점만 있는 것은 아니다. 대화가 길어질수록 사용자 만족도가 떨어진다는 연구 결과도 있다. 짧은 대화에서는 호의적이던 사용자들이 긴 대화에서는 피로감을 느낀다. 이는 40개 이상의 항목을 수집해야 하는 허리 통증 데이터 같은 경우 특히 중요한 고려사항이다. 연구팀은 이 문제를 해결하기 위해 대화를 여러 주제로 나누고, 사용자에게 진행 상황을 알려주며, 적절히 격려하는 방식을 도입했다. 공감은 적당히, 의학 조언은 절대 금지…의료 AI의 까다로운 균형 의료용 대화형 AI를 설계할 때 가장 까다로운 부분은 AI의 '성격'을 조율하는 일이다. 너무 무뚝뚝하면 환자가 불편하고, 너무 친근하면 전문성이 떨어져 보인다. 연구팀은 AI가 "재미있지만 적절하고, 속어를 쓰지 않으며, 존중하는 태도"를 유지하도록 지시했다. 또한 환자가 부정적인 반응을 보일 때는 공감하는 톤으로 응답하도록 했다. 예를 들어 환자가 "통증 때문에 밤에 잠을 전혀 못 자요"라고 말하면 AI는 "그건 정말 힘드시겠어요"라고 반응한 뒤 다음 질문으로 넘어간다. 하지만 공감에도 한계가 있다. 연구팀은 AI가 절대로 의학적 조언을 해서는 안 된다고 강조했다. AI의 역할은 오직 데이터를 수집하는 것뿐이다. "허리를 따뜻하게 찜질하세요" 같은 조언은 아무리 상식적으로 들려도 금지된다. 이는 환자 안전을 위한 필수 원칙이다. 실제로 한 연구에서는 임상의가 대화 기록을 정기적으로 검토해 잠재적 위험이 있는 환자에게 연락할 수 있도록 했다. 이처럼 AI가 아무리 발전해도 의료 현장에서는 인간 전문가의 감독이 여전히 필요하다. 신호등 색깔로 보여주는 AI의 확신도, 데이터 품질을 지키는 비결 대화형 AI가 환자의 말을 제대로 이해했는지 어떻게 확인할 수 있을까? 환자가 "허리가 좀 아파요"라고 말했을 때 AI는 이것이 "약간 아픔"인지 "매우 아픔"인지 확신할 수 없을 수 있다. 연구팀은 이 문제를 해결하기 위해 '확신도 시각화' 방법을 제안했다. 마치 신호등처럼 녹색, 노란색, 빨간색으로 AI가 수집한 정보의 확실성을 표시하는 것이다. 녹색은 "확실히 이해했습니다", 노란색은 "이렇게 이해했는데 맞나요?", 빨간색은 "다시 한 번 말씀해주시겠어요?"를 의미한다. 또한 AI는 수집한 정보를 환자에게 다시 보여주고 확인을 받는다. "지금까지 말씀하신 내용을 정리하면, 통증은 3개월 전에 시작됐고 강도는 10점 만점에 7점 정도이며 왼쪽 다리로 퍼진다고 하셨습니다. 맞나요?" 이런 식으로 환자가 직접 확인하고 수정할 기회를 준다. 이는 단순히 정확성을 높이는 것을 넘어 환자에게 통제감을 주고 신뢰를 쌓는 중요한 과정이다. 연구팀은 대화가 길어질수록 나중에 나오는 질문들에 대한 데이터 수집 품질이 떨어질 수 있다는 점도 발견했다. 이는 AI가 긴 대화 내용을 처리하면서 초반에 제시된 지시사항을 '잊어버리는' 경향이 있기 때문이다. 해결책은 대화를 여러 단계로 나누는 것이다. 마치 긴 시험을 여러 섹션으로 나누듯, 데이터 수집도 "증상 단계", "일상생활 영향 단계", "수면 영향 단계" 등으로 분리하면 각 단계에서 더 정확한 데이터를 얻을 수 있다. 설문지, 채팅, 음성…환자가 선택하는 입력 방식의 자유 연구팀이 제시한 핵심 원칙 중 하나는 '상호작용 유연성'이다. 어떤 환자는 전통적인 설문지 형식을 선호할 수 있고, 어떤 환자는 타이핑으로 대화하는 것을 좋아하며, 또 어떤 환자는 음성으로 말하는 것이 편할 수 있다. 이상적인 시스템은 환자가 이 세 가지 방식을 자유롭게 전환할 수 있어야 한다. 예를 들어 집에서는 음성으로 편하게 말하다가 대중교통에서는 타이핑으로, 복잡한 질문에는 설문지 형식으로 답할 수 있는 것이다. 대형 언어모델(LLM)은 본질적으로 유연성을 가지고 있어 이런 다양한 상호작용을 지원하기에 적합하다. 하지만 무제한적인 자유는 오히려 문제가 될 수 있다. 환자가 "의사 선생님은 뭐라고 하던가요?"라고 물으면 AI가 의학 조언을 하려고 할 수 있다. 따라서 프롬프트(AI에게 주는 지시사항)를 신중하게 설계해 필요한 유연성은 유지하되 위험한 행동은 제한해야 한다. 연구팀은 "데이터 수집에만 집중하고 의학적 조언은 절대 하지 말라"는 명확한 제약을 프롬프트에 포함시켰다. 또한 AI는 환자의 대화 스타일에 맞춰 적응해야 한다. 어떤 환자는 간결하게 "3개월 전, 7점, 왼쪽 다리"라고 답할 수 있고, 어떤 환자는 "사실 정확히 언제부터인지는 모르겠는데요, 작년 여름쯤이었던 것 같아요. 처음엔 별로 안 아팠는데 점점 심해져서 지금은 정말 힘들어요"라고 길게 설명할 수 있다. AI는 두 경우 모두에서 필요한 정보를 추출할 수 있어야 한다. 연구팀은 질문을 기술적이고 딱딱하게 제시하지 말고 자연스러운 대화처럼 풀어서 물어보도록 설계했다. 예를 들어 "통증의 시각적 아날로그 척도 점수는?"이 아니라 "통증이 얼마나 심한지 0점부터 10점까지로 표현하면 어느 정도일까요?"라고 묻는 식이다. 복잡한 의학 용어는 쉽게, 선택지는 번호로…명확성의 원칙 의료 설문지에는 일반인이 이해하기 어려운 용어들이 많다. "방사통(radicular pain)"이나 "신경근병증(radiculopathy)" 같은 단어를 환자가 정확히 이해하고 답하기는 어렵다. 연구팀은 질문을 단순하게 유지하고 복잡한 용어의 의미를 함께 제공하라고 권고했다. "방사통이 있나요?" 대신 "통증이 허리에서 시작해서 다리로 퍼지는 느낌이 있나요?"라고 물어야 환자가 정확히 답할 수 있다. 선택지가 많고 복잡할 때는 번호를 매기는 것이 효과적이다. 특히 괄호와 쉼표가 포함된 긴 선택지가 있을 때 AI가 혼란스러워할 수 있다. "1) 전혀 아프지 않음, 2) 약간 아픔, 3) 중간 정도 아픔, 4) 많이 아픔, 5) 극심하게 아픔"처럼 명확히 번호를 매기면 AI가 환자의 답변을 정확히 매칭할 수 있다. 또한 표준 설문지의 선택지를 현지 상황에 맞게 조정하는 것도 중요하다. 예를 들어 인종이나 민족 관련 용어는 나라마다 다르므로 각 지역에 맞게 수정해야 한다. 연구팀은 일관성의 원칙도 강조했다. 같은 개념을 물을 때는 항상 같은 용어와 형식을 사용해야 한다. 한 번은 "통증 강도"라고 하고 다음에는 "얼마나 아픈지"라고 하면 환자도 혼란스럽고 AI의 데이터 처리도 복잡해진다. 또한 의미 있는 색상 체계를 사용해 추가 정보를 전달할 수 있다. 예를 들어 통증 강도를 녹색(경미), 노란색(중간), 빨간색(심각)으로 시각화하면 환자와 의료진 모두 한눈에 상태를 파악할 수 있다. 격려와 진행 상황 알림으로 완료율 높이기 40개가 넘는 질문에 답하는 것은 지루한 일이다. 연구팀은 환자가 설문을 끝까지 완료하도록 격려하는 기능을 설계 원칙에 포함시켰다. 가장 간단한 방법은 진행 상황을 알려주는 것이다. "전체 5개 주제 중 2개를 완료하셨습니다" 같은 메시지는 환자에게 명확한 목표를 제시하고 성취감을 준다. 마라톤을 뛸 때 중간 지점마다 표지판이 있으면 힘이 나는 것과 같은 원리다. 또한 적절한 격려 메시지도 중요하다. "잘하고 계세요. 조금만 더 하면 됩니다"나 "이 정보는 의사 선생님이 더 나은 치료 계획을 세우는 데 큰 도움이 될 거예요" 같은 메시지는 환자에게 동기를 부여한다. 하지만 지나치게 자주 격려하면 오히려 성가실 수 있으므로 적절한 빈도를 찾는 것이 중요하다. 연구팀은 각 주제 섹션을 완료할 때마다 격려 메시지를 제공하는 방식을 채택했다. 환자가 중간에 멈추고 나중에 다시 돌아올 수 있는 기능도 필요하다. 긴 설문을 한 번에 완료하기 어려울 수 있으므로 진행 상황을 저장하고 나중에 이어서 할 수 있어야 한다. 이는 기술적으로는 간단하지만 완료율을 크게 높일 수 있는 기능이다. 스마트폰 앱에서 쇼핑을 하다가 장바구니에 담아두고 나중에 다시 결제하는 것처럼, 의료 데이터 수집도 같은 유연성을 제공해야 한다. 신뢰 구축과 상호운용성, 의료 시스템 통합의 필수 조건 환자가 대화형 AI를 신뢰하려면 그 기반이 탄탄해야 한다. 연구팀은 증거 기반 설문지를 사용하는 것을 핵심 원칙으로 제시했다. NIH 태스크포스가 권장하는 표준 데이터셋처럼 의학적으로 검증된 질문들을 사용하면 환자와 의료진 모두 그 결과를 신뢰할 수 있다. 또한 대화의 톤을 적절히 통제하고 의학적 조언을 하지 않는 것도 신뢰 구축에 중요하다. 환자는 AI가 자신의 역할 범위를 명확히 알고 그 안에서만 행동한다는 것을 느낄 때 더 편안하게 정보를 공유한다. 로그 기록과 정기적 검토도 필수적이다. AI가 수집한 모든 대화와 데이터는 기록되어야 하고, 의료진이 정기적으로 검토해 데이터 품질을 높이고 문제를 조기에 발견할 수 있어야 한다. 이는 환자 안전을 위해서도 중요하다. 예를 들어 환자가 "자살하고 싶다"는 표현을 했다면 즉시 의료진에게 알려져야 한다. 로그를 통해 수집된 데이터를 원래 대화로 추적할 수 있어야 나중에 불명확한 부분을 확인하거나 오류를 수정할 수 있다. 마지막으로 상호운용성(interoperability)은 AI 시스템이 실제 의료 현장에서 사용되기 위한 필수 조건이다. AI가 수집한 데이터는 병원의 전자건강기록(EHR) 시스템으로 자동으로 전송되어야 한다. 의료진이 AI 시스템에서 데이터를 복사해 다시 입력해야 한다면 효율성이 크게 떨어진다. 연구팀은 표준화된 데이터 형식을 사용하고 기존 의료 시스템과의 통합을 설계 초기부터 고려하라고 권고했다. 이는 기술적으로 복잡하지만 대화형 AI가 실험실을 벗어나 실제 병원에서 사용되려면 반드시 해결해야 할 과제다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 대화형 AI로 병원 설문지를 작성하면 정말 더 빠르고 정확한가요? A. 실제 임상시험 결과 대화형 AI를 사용하면 전문의 진료 시간이 28.7% 단축됐고, 사용자 만족도도 기존 온라인 설문지보다 높게 나타났습니다. 특히 순추천지수는 24점 대 13점으로 거의 두 배 차이를 보였습니다. 다만 대화가 너무 길어지면 오히려 만족도가 떨어질 수 있어 적절한 길이 조절이 중요합니다. Q2. AI가 환자의 말을 잘못 이해하면 어떻게 되나요? A. 연구팀은 신호등 색깔처럼 AI의 확신도를 시각적으로 표시하는 방법을 제안했습니다. 녹색은 확실히 이해했다는 뜻이고, 노란색은 확인이 필요하며, 빨간색은 다시 물어봐야 한다는 의미입니다. 또한 AI가 수집한 정보를 환자에게 다시 보여주고 확인받는 과정을 거쳐 정확성을 높입니다. Q3. 의료용 대화형 AI가 환자에게 치료 조언을 해도 되나요? A. 절대 안 됩니다. 연구팀은 AI의 역할을 오직 데이터 수집으로만 제한해야 한다고 강조했습니다. 아무리 상식적으로 들리는 조언이라도 AI가 의학적 조언을 하면 환자 안전에 위험이 될 수 있습니다. 임상의가 대화 기록을 정기적으로 검토해 잠재적 위험을 감지하는 것이 중요합니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Conversational AI for Automated Patient Questionnaire Completion: Development Insights and Design Principles ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.03 21:51AI 에디터

챗GPT가 소설을 먹고 자란다…AI 학습 데이터에 숨겨진 '픽션의 비밀'

챗GPT와 같은 생성형 AI가 사람처럼 자연스럽게 대화하는 비결이 무엇일까? 놀랍게도 그 답은 '소설'에 있다. 일리노이대학교와 듀크대학교 연구진이 발표한 논문에 따르면, 대규모 언어 모델(LLM)의 학습 데이터에는 상당량의 소설이 포함되어 있으며, 이것이 AI의 언어 생성 방식에 결정적인 영향을 미친다는 사실이 밝혀졌다. 메타(Meta)의 인기 모델인 라마(LLaMA)의 경우, 약 17만 권의 책 중 3분의 1이 소설이며, 마거릿 애트우드, 스티븐 킹, 자디 스미스 같은 유명 작가들의 작품이 포함되어 있다. 왜 AI 개발자들은 소설에 집착할까 AI 엔지니어들 사이에는 오래전부터 하나의 믿음이 있었다. 소설 속 언어가 인간의 다양한 사회적, 의사소통적 현상을 모두 담아낼 만큼 풍부하다는 것이다. 논문의 서론(Introduction)에서 연구진은 이 믿음이 직관적으로는 받아들여졌지만, 실제로 검증된 적은 거의 없었다고 지적한다. 생성형 AI는 본질적으로 '다음 단어 예측기'다. 방대한 텍스트 데이터에서 어떤 단어 다음에 어떤 단어가 오는지 패턴을 학습해, 사람이 입력한 질문에 그럴듯한 답변을 만들어낸다. 뉴스 기사는 실제 사건과 인물을 다루지만, 소설은 '무(無)에서 유(有)를 창조'한다. 가상의 세계와 인물을 처음부터 끝까지 언어로만 구축해낸다는 점에서, AI가 학습하기에 이상적인 데이터라는 것이 개발자들의 판단이었다. 하지만 여기에는 위험이 숨어 있다. 특히 로맨스 소설처럼 성별 고정관념이 강한 장르가 포함될 경우, AI 역시 편향된 출력을 생성할 가능성이 크다. 연구진은 소설이 AI에 미치는 영향이 단순한 편향 문제를 넘어, AI가 언어를 이해하고 생산하는 전체 방식에 근본적인 영향을 미칠 수 있다고 경고한다. 소설 없이 학습한 AI는 무엇이 달라지나 연구진은 구글의 오픈소스 모델인 버트(BERT)를 활용해 실험을 진행했다. 소설이 포함된 데이터로 학습한 모델과 소설을 제외한 데이터로 학습한 모델을 비교 분석한 것이다. 이 실험의 핵심은 소설이 AI의 언어 생성 능력에 어떤 구체적인 차이를 만들어내는지 확인하는 것이었다. 결과는 명확했다. 소설로 학습한 AI는 '인물(character)'을 만들어내는 능력이 뛰어났다. 여기서 인물이란 단순히 이름을 가진 존재가 아니라, 사용자가 상호작용하고 세상을 배울 수 있는 '그럴듯한 페르소나'를 의미한다. 문학 이론가 캐서린 갤러거(Catherine Gallagher)가 지적했듯, 소설 속 인물은 '특정한 누구도 아니지만, 누구라도 될 수 있는' 존재다. 이 역설적 특성이 AI에게도 그대로 전달된 것이다. 예를 들어, 챗GPT에게 "조언을 해줘"라고 요청하면, AI는 마치 친절한 상담사처럼 응답한다. 이것은 뉴스 기사나 위키백과만으로는 학습할 수 없는 능력이다. 소설 속 화자나 등장인물들이 독자에게 말을 거는 방식, 감정을 전달하는 방식을 AI가 학습했기 때문에 가능한 일이다. 소설이 만들어낸 AI의 '목소리' 논문의 '픽션성과 커뮤니케이션(Fictionality as Communication)' 섹션에서 연구진은 문학 이론을 AI 분석에 적용한다. 1970년대 이후 문학 학자들은 소설이 어떻게 독자에게 영향을 미치는지 연구해왔다. 존 설(John Searle)과 앤 밴필드(Ann Banfield)는 소설만의 독특한 언어적 특징, 즉 '표지판(signposts)'을 찾아냈다. 갤러거는 소설의 핵심을 '고유명사'에서 찾았다. 소설 속 인물의 이름은 실제 인물을 가리키지 않지만, 특정 지역, 성별, 계층, 민족을 암시한다. 예를 들어 '제인 오스틴'의 소설에 등장하는 '엘리자베스 베넷'이라는 이름은 19세기 영국 중산층 여성을 떠올리게 한다. 이처럼 소설은 실존하지 않는 인물을 통해 실제 사회의 유형을 학습하게 만든다. AI 역시 이 방식을 그대로 따른다. 사용자가 AI와 대화할 때, AI는 마치 특정한 '누군가'처럼 말하지만, 실제로는 아무도 아니다. 이 '목소리'는 수천 권의 소설에서 학습한 화자와 인물들의 혼합체다. 연구진은 이것이 소설이 AI에 제공하는 가장 큰 '어포던스(affordance)', 즉 활용 가능성이라고 설명한다. 리타 펠스키(Rita Felski)와 블레이키 버뮬(Blakey Vermeule)의 통찰을 인용하며, 연구진은 소설의 가장 큰 힘은 '그럴듯하지만 실제로는 존재하지 않는 사람'을 만들어내는 능력이라고 강조한다. AI 시대, 우리가 경계해야 할 것 이 연구가 던지는 질문은 단순히 학문적 호기심을 넘어선다. 만약 우리가 매일 사용하는 챗GPT, 구글 바드, 클로드 같은 AI가 소설을 먹고 자랐다면, 그것이 우리의 일상에 어떤 영향을 미칠까? 논문의 결론 부분에서 연구진은 현대 문화가 점점 더 생성형 AI에 의해 형성되고 있다면, 문화 생산 방식을 분석할 때 '학습 데이터'라는 새로운 차원을 반드시 고려해야 한다고 주장한다. 예를 들어, AI 기반 의료 상담 서비스가 로맨스 소설에서 학습한 성별 고정관념을 재생산한다면? 투자 조언 AI가 특정 계층의 관점만을 반영한 소설 데이터로 학습되었다면? 교육용 AI가 편향된 역사 소설을 기반으로 학생들에게 정보를 제공한다면? 이 모든 시나리오는 단순한 가정이 아니라, 현재 진행 중인 현실이다. 연구진은 앞으로 문화 연구자들이 '데이터 감사(data audit)'와 '알고리즘 감사(algorithmic audit)'를 수행해야 한다고 제안한다. 이는 AI 모델이 어떤 데이터로 학습되었는지, 그 데이터가 어떤 편향을 담고 있는지, 그리고 그것이 최종 출력에 어떻게 반영되는지를 추적하는 작업이다. 이런 감사 작업은 단순히 기술적 문제가 아니라, 문화적·사회적 책임의 문제다. 알렉스 라이스너(Alex Reisner)가 '애틀랜틱(The Atlantic)'에 기고한 연구에 따르면, 라마 모델의 학습 데이터에는 레베카 솔닛, 주노 디아스 같은 현대 작가들의 작품이 포함되어 있다. 이들의 작품이 AI의 '세계관'을 형성하는 데 기여했다는 의미다. 하지만 이 작가들은 자신의 작품이 AI 학습에 사용되는 것에 동의한 적이 없다. 이는 저작권 문제를 넘어, AI가 문화를 어떻게 재구성하는가라는 근본적 질문을 던진다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT는 정말 소설을 읽고 학습한 건가요? A. 정확히는 '읽는다'기보다 소설 텍스트의 패턴을 분석해 학습한다. AI는 수천 권의 소설에서 단어 배열, 문장 구조, 대화 방식을 학습해 사람처럼 자연스러운 언어를 생성할 수 있게 된다. 메타의 라마 모델의 경우 약 17만 권의 책 중 3분의 1이 소설이다. Q2. 소설로 학습한 AI가 위험한 이유는 무엇인가요? A. 소설에는 작가의 세계관과 시대적 편향이 담겨 있다. 특히 로맨스 소설처럼 성별 고정관념이 강한 장르가 학습 데이터에 포함되면, AI도 편향된 답변을 생성할 가능성이 크다. 의료, 교육, 투자 같은 중요한 분야에서 AI를 사용할 때 이런 편향이 실제 피해로 이어질 수 있다. Q3. 앞으로 AI 학습 데이터는 어떻게 관리되어야 하나요? A. 연구진은 '데이터 감사'와 '알고리즘 감사'를 제안한다. AI가 어떤 데이터로 학습되었는지, 그 데이터에 어떤 편향이 있는지, 최종 출력에 어떻게 반영되는지를 투명하게 공개하고 검증하는 작업이 필요하다. 이는 기술적 문제이자 사회적 책임의 문제다. 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 리포트명: Generative AI & Fictionality: How Novels Power Large Language Models ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.03 21:50AI 에디터

"AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법

바이럴 AI 에이전트(AI agent) 오픈클로(OpenClaw)를 만든 개발자 피터 슈타인베르거(Peter Steinberger)가 AI 기술을 실험하는 이들에게 조언을 건넸다. 핵심은 단 두 가지다. 놀이하듯 접근하고, 처음부터 잘하려는 기대는 버려라. 테크크런치(TechCrunch)에 따르면, 최근 오픈에이아이(OpenAI)에 합류한 슈타인베르거는 오픈에이아이의 개발자 경험 총괄 로맹 위에(Romain Huet)와 함께 회사의 새 팟캐스트 '빌더스 언스크립티드(Builders Unscripted)' 첫 번째 에피소드에 출연해 이같은 견해를 밝혔다. 슈타인베르거는 오픈클로를 처음 개발할 당시 처음부터 뚜렷한 계획이 있었던 것은 아니라고 털어놨다. "처음부터 완벽한 계획이 있었다고 말하면 좋겠지만, 사실 많은 부분이 그냥 탐색이었다. 내가 원하는 게 있었는데 그게 세상에 없었고, 그래서 프롬프트로 만들어낸 것"이라고 그는 말했다. 개발 초기, 그는 왓츠앱(WhatsApp)과 연동되는 툴을 만들기 시작했다가 잠시 다른 일에 집중하기도 했다. AI 기업들이 곧 비슷한 걸 내놓을 거라고 생각했기 때문이다. 그러나 지난해 11월, 어떤 AI 기업도 자신이 원하는 것을 만들지 않았다는 사실을 깨달은 그는 현재 오픈클로의 초기 프로토타입(prototype)을 만들기 시작했다. 결정적인 계기는 여행이었다. "모로코 마라케시(Marrakesh)에 주말 여행을 갔을 때, 인터넷이 별로 없었는데 왓츠앱은 어디서든 잘 됐다. 그래서 그 툴을 훨씬 많이 쓰게 됐고, 레스토랑 찾기, 컴퓨터 검색, 친구에게 문자 보내기 같은 것들이 다 편해졌다"고 그는 회상했다. 기술을 가지고 놀면서 슈타인베르거는 현대 AI 모델의 문제 해결 능력이 얼마나 뛰어난지를 실감했다. "직접 프로그래밍하지 않아도 AI가 스스로 해결책을 찾아낸다"는 것이다. 개발 과정에서 자신의 워크플로(workflow)가 점점 발전했다는 그는, 다른 개발자들에게도 이 과정에 시간이 필요하다는 점을 강조했다. "예전 방식으로 소프트웨어를 짜던 사람들이 바이브 코딩(vibe coding)을 시도해 보다가 결과에 실망하고 포기한다"며, "'바이브 코딩'이라는 말 자체가 폄하적인 표현"이라고 꼬집었다. "AI를 써보는 건 좋은데, 이게 하나의 기술이라는 걸 모르는 것"이라고 그는 지적했다. AI로 코딩하는 것을 기타 배우기에 비유한 그는 "기타를 첫날부터 잘 칠 수는 없다"고 말했다. 대신 그는 보다 유쾌하고 탐구적인 태도로 배움에 임할 것을 권했다. 그는 지금은 프롬프트(prompt)를 작성할 때 얼마나 걸릴지 감이 오고, 예상보다 오래 걸리면 무엇이 잘못됐는지 돌아보고 수정한다고 설명했다. "항상 하는 조언은, 놀이하듯이 접근하라는 거다. 만들고 싶었던 걸 만들어봐라. 조금이라도 만드는 사람이라면, 마음 한켠에 꼭 만들고 싶은 게 하나쯤 있을 것이다. 그냥 놀아봐라"라고 그는 강조했다. AI가 일자리를 빼앗을 것이라는 두려움이 높아지는 시대에, 그는 이런 탐구 정신이 더욱 중요하다고 봤다. "무언가를 만들고 싶고, 문제를 해결하고 싶다는 게 내 정체성이라면, 실행력 있고 똑똑한 사람은 그 어느 때보다 더 많은 곳에서 필요로 할 것"이라고 그는 말했다. 자세한 내용은 테크크런치(TechCrunch)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.28 17:30AI 에디터

저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나

마크 저커버그(Mark Zuckerberg) 메타(Meta) 최고경영자가 밀라노 패션 위크(Fashion Week) 프라다(Prada) 2026 가을·겨울 컬렉션 쇼 최전방 좌석에 아내 프리실라(Priscilla)와 함께 앉은 모습이 포착되면서, 메타 AI 안경의 프라다 버전 출시 가능성에 대한 추측이 확산되고 있다. 저커버그는 행사장에서 프라다의 수석 디자이너 미우치아 프라다(Miuccia Prada)의 아들이자 최고 상품화 책임자(Chief Merchandising Officer)인 로렌초 베르텔리(Lorenzo Bertelli)와 대화를 나누는 모습이 목격됐다. 저커버그가 최근 몇 년간 이미지 개선에 공을 들여온 것은 사실이지만, 이번 밀라노 방문의 목적은 패션보다는 브랜드와의 협업 가능성에 무게가 실린다. CNBC는 지난 여름 프라다 AI 안경이 개발 중이라고 보도한 바 있다. 다만 메타는 아직 공식적인 협업 발표를 하지 않았으며, 저커버그의 밀라노 방문과 관련한 언론의 질의에도 응하지 않은 상태다. 메타의 AI 안경 파트너인 에실로룩소티카(EssilorLuxottica)는 프랑스-이탈리아계 안경 브랜드로, 레이밴(Ray-Ban) 제조사이기도 하다. 이 회사는 레이밴 스토리즈(Ray-Ban Stories) 브랜드로 처음 선보인 이후 메타와 함께 AI 안경을 개발해왔다. 에실로룩소티카는 이달 2025년 한 해 동안 레이밴 메타(Ray-Ban Meta)와 오클리 메타(Oakley Meta) 안경을 합산해 총 700만 개 이상을 판매했다고 밝혔다. 전년도 200만 개에서 큰 폭으로 늘어난 수치다. 프라다 AI 안경 출시 가능성에 더욱 힘이 실리는 이유는 에실로룩소티카와 프라다가 이미 프라다(Prada) 및 미우 미우(Miu Miu) 브랜드 안경 라이선스 계약을 향후 10년간 연장했기 때문이다. 2025년 12월 31일 만료된 기존 계약은 2030년 12월 31일까지 연장됐으며, 2035년 12월 31일까지 재연장 조항도 포함됐다. 프라다 AI 안경이 현실화된다면 메타는 오클리나 레이밴으로는 채우지 못했던 하이패션(high-fashion) 시장에 발판을 마련하게 된다. 안경을 럭셔리 상징으로 자리매김하는 것이 메타 브랜드 전반에도 긍정적인 영향을 줄 수 있다는 분석도 나온다. 다만 우려의 시각도 존재한다. 최근 소비자들 사이에서 감시 기기에 대한 반감이 커지는 추세이기 때문이다. 링(Ring) 초인종을 뜯어내거나 플록(Flock) 카메라를 파손하는 사례까지 등장했다. 뉴욕 타임스(The New York Times)는 최근 메타가 AI 안경에 안면 인식(facial-recognition) 기능 탑재 여부를 재검토 중이라고 보도했다. 이 보도는 비교적 순조롭게 성장하던 AI 안경 제품에 논란을 불러일으켰으며, 한 개발자는 주변에 AI 안경을 착용한 사람이 있으면 경고해주는 앱을 직접 만들기도 했다. 자세한 내용은 TechCrunch에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.27 15:33AI 에디터

챗GPT가 강박장애 환자 더 아프게 만든다…'안심 로봇'의 위험한 진실

요즘 많은 사람들이 ChatGPT(챗GPT) 같은 AI에게 궁금한 것을 물어본다. 그런데 이 AI가 특정 환자들에게는 오히려 독이 될 수 있다는 연구 결과가 나왔다. 미국 조지아 공과대학교(Georgia Institute of Technology)의 연구원 그레이스 바크허프(Grace Barkhuff)는 강박장애(OCD) 환자들이 AI를 어떻게 사용하는지 분석했다. 그 결과, AI가 이들의 증상을 오히려 더 나쁘게 만드는 '안심 로봇(Reassurance Robots)' 역할을 하고 있다는 사실을 밝혀냈다. 강박장애란 무엇인가: 미국인 43명 중 1명이 앓는 병 강박장애는 머릿속에서 자꾸 떨쳐낼 수 없는 불안한 생각이 반복되고, 그 불안을 줄이기 위해 특정 행동을 반복하는 정신건강 문제다. 예를 들어 수업 시간에 교수가 "AI를 사용하면 부정행위"라고 말하는 순간, 강박장애가 있는 학생은 "내가 실수로 AI를 썼으면 어쩌지?"라는 생각이 머릿속을 떠나지 않는다. 결국 집에 가서 제출한 과제를 몇 번이고 다시 확인하게 된다. 이처럼 머릿속을 떠나지 않는 불안한 생각을 '강박사고', 불안을 줄이기 위해 반복하는 행동을 '강박행동'이라고 부른다. 이 병은 생각보다 훨씬 흔하다. 강박장애는 보통 50명 중 1명이 앓고 있으며, 우리나라에서만 약 100만 명에 해당하는 수치다. 미국에서는 전체 인구의 약 2.3%가 강박장애를 앓고 있으며, 이 중 약 50%는 심각한 일상 장애를 겪는다. 국내에서는 강박장애로 실제 병원을 찾는 환자 수도 꾸준히 늘고 있는데, 2010년 약 2만 명에서 2014년 약 2만 3천 명으로 연평균 3.1%씩 증가했다. 전문가들은 실제로 증상이 있어도 병원을 찾지 않는 경우가 훨씬 많다고 본다. 미국의 경우 강박장애 환자의 최대 75%가 아직 진단조차 받지 못한 상태이며, 증상이 나타난 뒤 정식 진단을 받기까지 평균 10년이 넘게 걸린다. 많은 사람들이 자신이 강박장애인지도 모른 채 혼자 힘들게 버티고 있다는 뜻이다. 잠깐은 편해지지만 결국 더 나빠지는 이유 강박행동을 하면 그 순간만큼은 불안이 가라앉는 느낌이 든다. 하지만 이건 착각이다. 시간이 지나면 같은 불안이 다시 찾아오고, 더 강하게 반복된다. 전문가들은 이 과정을 '강박장애 순환(OCD Cycle)'이라고 부른다. 강박장애 환자들은 혼자서만 이 행동을 반복하는 게 아니다. 가족이나 친구에게 "내가 잘못한 거 맞지?", "이거 괜찮은 거지?" 하고 반복해서 확인받으려 한다. 이렇게 다른 사람이 환자의 강박행동에 맞춰주는 것을 '강박 수용(OCD accommodation)'이라고 한다. 안타깝게도 이것도 결국 증상을 더 나쁘게 만든다. 그리고 이제 그 역할을 AI가 대신하기 시작했다. 레딧 게시물 100개로 밝혀진 세 가지 AI 강박 패턴 연구자는 강박장애 관련 레딧(Reddit) 커뮤니티에서 'AI' 또는 'ChatGPT'가 언급된 게시물 100개를 직접 모아 분석했다. 레딧은 다양한 주제로 사람들이 자유롭게 글을 올리는 온라인 커뮤니티다. 수집한 게시물은 크게 세 가지로 나뉘었다. AI 때문에 생긴 새로운 불안한 생각을 털어놓는 글, AI를 이용해 강박행동을 하고 있다고 고백하는 글, 그리고 AI와 강박장애에 대한 생각을 나누는 글이었다. 세 종류의 글이 비교적 비슷한 비율로 나왔고, 비슷한 이야기가 계속 반복되어 100개로도 충분히 전체적인 흐름을 파악할 수 있었다. 대부분의 글은 AI에 대해 부정적인 감정을 담고 있었다. "AI한테 안심 얻으려는 걸 어떻게 멈추죠? 진짜 못 참겠어요!!"처럼 절박한 표현이 많았다. 한편으로는 "AI한테 물어보면 강박 악순환에서 벗어나는 데 도움이 돼요"처럼 긍정적으로 보는 글도 일부 있었다. AI 가 만들어낸 새로운 공포들: 직업 걱정부터 표절 의심까지 AI 때문에 생긴 새로운 불안도 다양했다. 가장 많이 나온 것은 "AI가 내 직업을 빼앗아 가면 어쩌지?"라는 두려움이었다. 한 음악가는 "봇이 더 싸게 음악을 만들 수 있는데 누가 나한테 돈을 내겠어요? 굶어 죽을 것 같아요"라고 썼다. 학생들 사이에서는 '표절 강박'이라는 새로운 유형도 나타났다. 분명히 자기가 직접 썼는데도 AI가 쓴 글처럼 보일까봐 제출을 못 하거나, AI 탐지 프로그램에 걸릴까봐 계속 확인하는 경우다. 이 밖에도 "AI가 곧 인간의 감정까지 흉내 낼 텐데, 우리는 그냥 공식에 불과한 존재 아닐까요?"처럼 AI의 발전 자체가 실존적인 공포로 이어지는 경우도 있었다. 심지어 AI 챗봇의 감정을 상하게 했을까봐 걱정하는 글도 있었다. 연구자는 이 모든 새로운 불안들이 기존의 강박장애 유형 안에서 설명될 수 있다고 봤다. 이미 있는 치료법을 적용할 수 있다는 점에서 긍정적인 신호다. ChatGPT 에게 하루에도 수십 번 묻는 사람들: AI는 왜 '안심 로봇'이 되었나 강박행동으로 AI를 사용하는 방식은 크게 세 가지였다. 첫째는 "나 나쁜 사람 맞지?", "이거 도덕적으로 괜찮은 거지?" 같은 질문을 AI에게 반복해서 물어보며 안심을 구하는 것이다. 둘째는 고민거리를 AI에게 털어놓으며 마음을 가라앉히는 것이고, 셋째는 "전공을 뭘 선택해야 할까?", "이 이메일 표현이 괜찮아?" 같은 결정을 AI에게 맡기는 것이다. 왜 가족이나 친구 대신 AI를 선택할까? 한 게시물 작성자는 이렇게 설명했다. "가족한테 자꾸 물어보면 피해를 줄 것 같아서요. AI는 항상 대답해주니까요." AI는 24시간 언제든 쓸 수 있고, 판단하지 않는 것처럼 느껴지며, 바로 답을 준다. 그래서 더 끊기 어렵다. 한 작성자는 "구글 검색도 안심이 되긴 하는데, ChatGPT는 내 상황에 딱 맞게 답해줘서 끊기가 너무 힘들어요. 중독 같아요"라고 고백했다. 더 심각한 문제는 웹 검색 결과에 AI가 자동으로 나타나면서, 원하지도 않았는데 AI의 답변을 보게 되고 새로운 강박으로 이어지는 경우도 있다는 것이다. 연구자는 이 모든 현상을 '안심 로봇'이라고 이름 붙이고, AI 개발자들이 이 문제를 설계 단계부터 고려해야 한다고 주장했다. 예를 들어 같은 질문이 반복되면 답변을 제한하거나, 몇 시간이 넘는 대화는 중단시키거나, 전문가 상담을 권유하는 기능을 넣는 방식이다. AI 연구에서도 강박장애는 '투명 인간': 이제는 바뀌어야 할 때 놀랍게도 AI와 사람의 관계를 연구하는 분야인 인간-컴퓨터 상호작용(HCI, Human-Computer Interaction)에서 강박장애는 거의 다뤄지지 않았다. 2025년 7월 기준으로 관련 학술 데이터베이스에서 '강박장애'를 제목에 포함한 논문은 단 9편뿐이었고, AI와 강박장애((OCD와 기술 사이의 긴장)의 관계를 제대로 파고든 논문은 단 한 편도 없었다. AI와 정신건강을 다룬 연구 대부분은 우울증이나 자살 충동에만 집중해왔다. 이 연구는 그 공백을 처음으로 채운 시도다. 연구자 본인도 강박장애를 직접 겪은 경험이 있어 환자의 시각으로 데이터를 바라볼 수 있었다고 밝혔다. 또한 국제강박장애재단(International OCD Foundation)의 교육 과정을 이수해 의사나 연구자들이 강박장애를 어떻게 다루는지도 함께 공부했다. 다만 이 연구는 의학적 조언이나 치료 지침이 아님을 분명히 했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 생성형 AI가 강박장애 환자에게 왜 위험한가요? A. AI는 언제든 바로 답을 주기 때문에 강박장애 환자가 끊임없이 안심을 구하는 도구로 쓰이기 쉽습니다. 그 순간은 마음이 편해지지만, 결국 같은 불안이 더 강하게 반복돼 증상이 나빠집니다. Q. 강박장애 환자들은 AI를 어떻게 강박행동에 사용하나요? A. 자신이 나쁜 사람인지 AI에게 반복해서 물어보거나, 전공 선택 같은 결정을 AI에게 맡기거나, 자기가 쓴 글이 AI 작성물로 오해받을까봐 계속 확인하는 방식으로 사용합니다. Q. AI 개발자들은 강박장애 환자를 위해 무엇을 해야 하나요? A. 같은 질문이 반복되면 답변을 제한하거나, 대화가 너무 길어지면 잠시 멈추게 하거나, 전문가 상담을 권유하는 기능을 AI에 넣어야 한다고 연구자는 제안합니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Reassurance Robots: OCD in the Age of Generative AI ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.27 15:08AI 에디터

별점 믿다간 낭패…챗GPT가 470만 개 리뷰 분석한 '맛집의 진짜 조건'

"음식은 별로였는데 별점은 4점?" 온라인 리뷰를 보다 보면 이런 의문이 드는 순간이 있다. 별점 하나가 레스토랑 매출을 5~9%나 바꿀 만큼 리뷰의 영향력은 커졌지만, 정작 그 별점이 어디서 나오는지는 잘 알려지지 않았다. 미국 남부 캘리포니아 대학교(University of Southern California) 연구팀이 챗GPT(ChatGPT)를 동원해 무려 17년치 470만 개의 레스토랑 리뷰를 분석했다. 결론은 놀라웠다. 별점을 가장 크게 좌우하는 건 분위기도, 가격도 아니었다. “맛있는데 불친절” 두 가지 감정을 동시에 읽는 AI 사람들이 레스토랑 리뷰를 쓸 때는 보통 한 가지 감정만 표현하지 않는다. "파스타는 환상적이었는데 30분을 기다렸다", "분위기는 좋았지만 가격이 너무 비쌌다"처럼 하나의 리뷰 안에 칭찬과 불만이 뒤섞이는 경우가 훨씬 많다. 그러다 보니 별점 3점짜리 리뷰가 실제로는 음식에 대한 극찬일 수도 있고, 서비스에 대한 혹평일 수도 있다. 연구팀이 주목한 것도 바로 이 지점이다. 리뷰 전체가 좋은지 나쁜지를 판단하는 게 아니라, 음식·서비스·분위기·가격·대기 시간·메뉴 다양성이라는 6가지 항목 각각에 대해 고객이 어떻게 느꼈는지를 따로따로 파악하는 것이다. 이를 전문 용어로 '측면 기반 감정 분석(Aspect-Based Sentiment Analysis)'이라고 부른다. 쉽게 말해, "이 리뷰에서 음식에 대한 감정은 긍정, 서비스에 대한 감정은 부정"처럼 항목별로 감정을 분류하는 기술이다. 470만 개 리뷰를 ChatGPT에 맡기는 현명한 방법 여기서 현실적인 문제가 생긴다. 470만 개의 리뷰를 챗GPT에 하나하나 분석시키면 비용이 어마어마하게 든다. 그래서 연구팀은 영리한 역할 분담을 택했다. 챗GPT는 '어떤 항목을 분석할지'를 결정하는 역할만 맡았다. 600개의 샘플 리뷰를 분석해 고객들이 주로 이야기하는 핵심 주제 6가지를 뽑아낸 것이다. 그 결과 서비스, 음식 품질, 분위기, 대기 시간, 가격, 메뉴 다양성이 선정됐다. 실제로 두 가지 챗GPT 모델이 서비스를 핵심 항목으로 꼽는 비율은 100%였고, 음식 품질은 93% 이상 일치했다. 항목이 정해지자 이후 작업은 훨씬 저렴한 전통적인 머신러닝(Machine Learning) 모델에 넘겼다. 사람이 5,000개의 리뷰에 직접 감정 점수를 매겨 AI를 학습시킨 뒤, 이 AI가 나머지 수백만 건을 자동으로 처리하게 했다. 챗GPT는 방향을 잡고, 머신러닝은 실제 일을 처리하는 팀워크 구조다. 덕분에 비용은 확 줄이면서 실용적인 수준의 분석 정확도(76.6%)를 유지할 수 있었다. 그림 1 두 개의 레스토랑 리뷰로 보는 항목별 감정 분석 예시 별점을 좌우하는 충격적인 요소 연구팀은 AI가 항목별로 분류한 감정 데이터를 실제 별점과 비교 분석했다. 그리고 어떤 항목이 별점에 얼마나 영향을 미치는지를 수치로 뽑아냈다. 결과는 꽤 직관적이면서도 의외였다. 음식 품질이 압도적인 1위였다. 영향력 수치가 1.58~1.59로, 2위인 서비스(0.74~0.78)의 두 배가 넘었다. 메뉴 다양성(0.66~0.70)이 3위를 차지했다. 놀라운 건 가격이다. 가격은 별점에 통계적으로 의미 있는 영향을 거의 미치지 않았다. 즉, 비싸든 싸든 가격 자체는 별점과 크게 상관이 없다는 뜻이다. 더 흥미로운 발견은 대기 시간이다. 오래 기다릴수록 별점이 오히려 올라가는 경향이 나타났다. 연구팀은 이를 '줄이 길면 맛있다는 신호'로 받아들이는 심리, 즉 사회적 증거(Social Proof) 효과로 해석했다. 분위기는 예상과 달리 별점에 부정적인 영향(-0.27~-0.31)을 보였는데, 분위기에 대한 평가는 사람마다 주관적 차이가 커서 결과가 엇갈린 것으로 분석됐다. 이 AI 모델은 별점 변동의 무려 80% 이상을 설명해냈다. 이탈리아 식당은 왜 항상 별점이 높을까? 같은 수준의 레스토랑이라도 어떤 음식을 파느냐, 어느 지역에 있느냐에 따라 별점이 달라진다는 사실도 드러났다. 미국식(American) 레스토랑을 기준으로 비교했을 때 이탈리아 음식점이 가장 높은 별점 프리미엄을 누렸고, 중국 음식점이 그 뒤를 이었다. 반면 태국 음식점은 미세하게 낮은 경향을 보였다. 지역 차이도 뚜렷했다. 뉴저지(New Jersey)와 델라웨어(Delaware) 주는 다른 지역에 비해 통계적으로 유의미하게 높은 별점을 기록했다. 연구팀은 이런 차이가 음식 맛 때문이라기보다는 지역 소비자들의 기대 수준, 경쟁 환경, 경제적 여건이 복합적으로 작용한 결과로 봤다. 결국 별점은 음식만의 문제가 아니라 그 지역의 외식 문화와 맥락을 반영한다는 것이다. 레스토랑에서 시작했지만, 다음 목적지는 병원과 쇼핑몰 이 연구가 단순한 맛집 분석으로 끝나지 않는 이유가 있다. 연구팀이 만든 AI 분석 틀은 어떤 서비스 업종에도 적용할 수 있다. 호텔이라면 객실 청결도·직원 친절도·시설 상태를, 병원이라면 진료 대기 시간·의사 설명·병원 환경을 항목으로 바꾸면 그만이다. 온라인 리뷰를 꼼꼼히 읽는 소비자 비율은 2020년 60%에서 2024년 75%로 빠르게 늘고 있다. 하루에도 수천 건씩 쏟아지는 리뷰를 사람이 일일이 읽는 건 이미 불가능한 일이 됐다. 연구팀은 앞으로 구글 리뷰(Google Reviews)나 트립어드바이저(TripAdvisor) 같은 다른 플랫폼으로도 분석을 확장하고, 코로나19 팬데믹처럼 특정 사건이 고객 감정에 어떤 변화를 일으켰는지도 추적할 계획이다. 별점 하나의 의미를 이렇게까지 파고든 AI 분석이, 이제 우리가 서비스를 경험하고 평가하는 방식 자체를 바꿔놓을지도 모른다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 별점이 높은 레스토랑은 무조건 음식이 맛있는 건가요? A. 이번 연구에 따르면 음식 품질이 별점에 가장 큰 영향을 미치는 건 사실입니다. 하지만 서비스, 메뉴 다양성, 대기 시간도 함께 작용합니다. 특히 줄이 길수록 별점이 올라가는 경향도 확인됐는데, 이는 '많이 기다리는 곳 = 맛있는 곳'이라는 심리가 반영된 결과입니다. Q. 가격이 비싸면 별점이 낮아지지 않나요? A. 이번 연구 결과는 의외였습니다. 가격은 별점에 통계적으로 의미 있는 영향을 거의 미치지 않았습니다. 즉, 소비자들은 가격 자체보다 음식 맛과 서비스 품질을 훨씬 중요하게 평가한다는 뜻입니다. Q. 이런 AI 리뷰 분석 기술을 일반 소비자도 활용할 수 있나요? A. 현재는 연구 및 기업용 수준이지만, 이 기술이 상용화되면 리뷰 플랫폼에서 "이 식당은 음식 ★★★★☆, 서비스 ★★☆☆☆"처럼 항목별 점수를 자동으로 보여주는 서비스가 가능해집니다. 구글 리뷰나 네이버 플레이스 같은 플랫폼에서 머지않아 만나볼 수 있을 것으로 기대됩니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Beyond the Star Rating: A Scalable FRAMEwork for Aspect-Based Sentiment Analysis Using LLMs and Text Classification ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.27 14:07AI 에디터

챗GPT, 통계학 교육 뒤흔든다…대학 강의실의 AI 혁명

챗GPT가 대학 강의실을 뒤흔들고 있다. 학생들이 제출한 과제가 직접 작성한 것인지, AI가 만들어준 것인지 교수들이 구분하기 어려워진 시대가 됐다. 글래스고 대학교(University of Glasgow) 통계학과 연구진이 2026년 2월 발표한 논문 "기술 시대의 통계학 교육의 미래에 대한 성찰(Reflections on the Future of Statistics Education in a Technological Era)"은 생성형 AI의 등장으로 통계학 교육 현장이 근본적인 전환점을 맞이하고 있음을 경고한다. 단순히 새 기술을 가르치는 문제를 넘어, 무엇을 배워야 하고 어떻게 평가해야 하는지 전면 재검토가 필요한 시점이다. R이냐 파이썬이냐, 두 언어 사이에서 길 잃은 통계학 교육 통계학을 배우는 학생들에게 프로그래밍 언어는 이제 선택이 아닌 필수다. 과거에는 메뉴를 클릭해서 분석하는 SPSS나 미니탭(Minitab) 같은 소프트웨어로 충분했지만, 현대 통계학은 직접 코드를 작성하는 능력을 요구한다. 논문에 따르면 현재 대학 통계학 교육에서 널리 쓰이는 언어는 R이다. 2000년에 등장한 오픈소스 프로그래밍 언어인 R은 무료로 사용할 수 있고 통계 분석에 특화된 도구를 풍부하게 제공한다. R의 인기는 특히 타이디버스(tidyverse)라는 패키지 모음 덕분에 더욱 높아졌다. 타이디버스는 데이터를 정리하고 분석하는 과정을 마치 레고 블록을 조립하듯 단계별로 진행할 수 있게 해주는 도구 모음이다. 복잡한 데이터 변환 작업을 여러 함수를 중첩시키지 않고 "데이터를 불러온다 → 필요한 열만 선택한다 → 조건에 맞는 행만 필터링한다"처럼 순서대로 나열할 수 있어 초보자도 이해하기 훨씬 쉽다. 그런데 최근 들어 파이썬(Python)도 통계학 교육에 빠르게 파고들고 있다. 파이썬은 원래 범용 프로그래밍 언어지만 머신러닝(Machine Learning)과 AI 분야에서 압도적인 점유율을 차지하면서 통계학자들도 무시하기 어려운 존재가 됐다. 텐서플로(TensorFlow), 파이토치(PyTorch) 같은 딥러닝 프레임워크가 모두 파이썬 기반이기 때문이다. 논문은 R과 파이썬을 함께 가르치는 다중 언어 교육의 필요성을 제시하면서도, 두 언어를 동시에 가르치면 학생들의 인지 부담이 커져 학습 효과가 떨어질 수 있다는 딜레마를 지적한다. 연구진은 초반에 한 가지 언어로 통계의 기본 개념을 탄탄하게 다진 후 점진적으로 다른 언어를 도입하는 방식을 권장한다. 소셜미디어, IoT, 웹 스크레이핑... 데이터의 세계가 달라졌다 현대 통계학자들이 다루는 데이터는 과거와 차원이 다르다. 예전에는 깔끔하게 정리된 엑셀 파일로 데이터를 받아 분석하면 됐지만, 이제는 소셜미디어 게시물, 웹사이트 정보, 사물인터넷(IoT) 센서 데이터처럼 구조화되지 않은 데이터를 직접 수집하고 정리하는 능력이 필수가 됐다. 이를 위해 API(application Programming Interface, 애플리케이션 프로그래밍 인터페이스)와 웹 스크레이핑(web scraping) 같은 기술이 중요해졌다. API는 쉽게 말해 다른 서비스의 데이터를 가져올 수 있도록 만들어진 일종의 '데이터 수도꼭지'다. 날씨 정보 제공 웹사이트가 API를 공개하면, 프로그래머는 코드 몇 줄만으로 실시간 날씨 데이터를 가져올 수 있다. 웹 스크레이핑은 API가 없는 웹사이트에서 직접 정보를 자동으로 수집하는 기술로, 부동산 사이트의 매물 정보를 긁어와 가격을 분석하는 식으로 활용된다. 코드 버전 관리(version control) 시스템인 깃(Git)과 깃허브(GitHub)의 중요성도 커졌다. 깃은 코드의 변경 이력을 자동으로 저장해주는 도구로, 여러 사람이 함께 프로젝트를 진행할 때 누가 언제 무엇을 수정했는지 추적하고 문제가 생기면 이전 버전으로 돌아갈 수 있다. 논문은 깃허브가 단순한 코드 저장소를 넘어 협업과 재현 가능한 연구의 핵심 도구가 됐다고 강조한다. 연구진은 이러한 현대적 데이터 기술들을 별도 과목으로 분리하기보다 여러 통계 과목에 걸쳐 점진적으로 통합하는 방식을 권장한다. "왜"를 묻는 통계학 vs "얼마나 정확한가"를 묻는 머신러닝 통계학과 머신러닝, 그리고 AI의 경계가 점점 모호해지고 있다. 전통적인 통계학은 데이터에서 패턴을 찾아 "왜 이런 결과가 나왔는가"를 설명하는 데 중점을 둔다. 반면 머신러닝은 훨씬 복잡한 모델을 사용해 "얼마나 정확하게 예측하는가"에 집중한다. 예를 들어 은행에서 대출 신청자의 신용도를 평가할 때 통계학자는 소득, 직업, 신용 기록 같은 변수들이 신용도에 어떤 영향을 미치는지 분석하지만, 머신러닝 엔지니어는 수백 개의 변수를 복잡한 알고리즘에 넣어 채무 불이행을 가장 정확하게 예측하는 모델을 만드는 데 집중한다. 두 접근법 모두 장단점이 있고, 현대 데이터 과학자는 상황에 따라 적절한 방법을 선택할 수 있어야 한다. 논문은 통계학과 교육과정에 머신러닝과 AI를 어느 정도 깊이로 포함시킬지는 졸업 후 진로에 따라 달라져야 한다고 주장한다. 전통적인 통계학 연구자를 양성하는 프로그램이라면 머신러닝의 기본 개념 소개로 충분할 수 있다. 하지만 데이터 과학자나 AI 엔지니어를 목표로 하는 학생들에게는 신경망(neural network), 딥러닝(deep learning) 같은 고급 주제까지 다뤄야 한다. 연구진은 기존 통계 과목에 머신러닝 내용을 일부 통합하고, 별도의 머신러닝 전문 과목도 개설하는 절충안을 제안한다. 챗GPT가 쓴 과제인지 학생이 쓴 과제인지, 이제 아무도 모른다 가장 시급하고 논란이 되는 문제는 생성형 AI의 등장이 평가 방식에 미치는 충격이다. 챗GPT는 자연어로 질문을 입력하면 코드를 작성해주고, 통계 개념을 설명해주며, 심지어 데이터 분석 보고서까지 작성해준다. 학생 입장에서는 유용한 학습 도구지만, 교수 입장에서는 평가의 신뢰성을 근본적으로 위협하는 존재다. 많은 통계학과 학생들이 이미 챗GPT를 과제 작성에 활용하고 있다. 문제는 학생이 직접 문제를 해결한 것인지, AI의 도움을 받은 것인지 구분하기 어렵다는 점이다. 전통적인 표절 검사 도구는 다른 사람의 글을 복사한 경우만 잡아낼 수 있지만, AI가 생성한 새로운 코드나 텍스트는 탐지하기 훨씬 어렵다. 연구진은 교육자들이 생성형 AI에 대해 크게 세 가지 태도를 보인다고 분석한다. AI 사용을 부정행위로 간주해 엄격히 금지하는 입장, 계산기처럼 당연히 사용할 수 있는 도구로 받아들이는 입장, 어떤 과제에서는 허용하고 다른 과제에서는 금지하는 조건부 허용 입장이 그것이다. 논문은 단순한 금지보다 평가 방식 자체를 근본적으로 재설계해야 한다고 주장한다. 집에서 하는 과제 비중을 줄이고 감독 하에 진행되는 시험이나 실시간 프로젝트 발표 비중을 늘리거나, AI가 쉽게 답할 수 없는 창의적이고 개방형 질문을 더 많이 출제해야 한다는 것이다. 흥미롭게도 연구진은 생성형 AI를 오히려 교육에 적극 활용하는 방안도 제시한다. 학생들에게 챗GPT가 생성한 코드의 오류를 찾아 수정하게 하거나, AI의 설명이 왜 부정확한지 비판적으로 평가하게 하는 과제를 내는 것이다. 실제 직장에서도 AI 도구를 사용하되 그 결과를 검증하고 책임지는 능력이 점점 중요해지기 때문에, 이러한 비판적 활용 능력을 교육 단계에서부터 키워야 한다는 논리다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 통계학을 배우려면 R과 파이썬을 둘 다 배워야 하나요? A. 처음에는 한 가지 언어로 통계의 기본 개념을 확실히 익히는 것이 좋습니다. R은 통계 분석에 특화되어 있고, 파이썬은 머신러닝과 AI 분야에서 더 널리 쓰입니다. 두 언어를 동시에 배우면 혼란스러울 수 있으므로, R을 먼저 익힌 후 점진적으로 파이썬을 추가하는 단계적 접근이 효과적입니다. Q. 챗GPT로 통계 과제를 하면 안 되나요? A. 대학마다 정책이 다르지만, AI를 학습 도구로 활용하되 그 과정을 명확히 밝히는 것이 중요합니다. 챗GPT가 생성한 코드를 그대로 제출하는 것은 문제가 될 수 있지만, AI의 도움을 받아 개념을 이해하고 자신의 방식으로 재작성하는 것은 유용한 학습 방법입니다. 과제 지침을 확인하고 불확실하면 교수에게 직접 물어보는 것이 좋겠습니다. Q. 통계학과 머신러닝의 차이는 무엇인가요? A. 통계학은 데이터에서 패턴을 찾아 '왜' 그런 결과가 나왔는지 설명하는 데 중점을 둡니다. 반면 머신러닝은 복잡한 알고리즘을 사용해 '얼마나 정확하게' 예측할 수 있는지에 집중합니다. 두 접근법은 상호보완적이며, 현대 데이터 과학자는 둘 다 이해해야 합니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. (리포트명: Reflections on the Future of Statistics Education in a Technological Era) ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.26 22:20AI 에디터

'월 20달러' 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험

수학은 오랫동안 AI가 넘기 어려운 벽으로 여겨졌다. 논리적 완결성이 요구되는 수학 증명은 단 하나의 오류도 전체를 무효화할 수 있기 때문이다. 그런데 벨기에 브뤼셀자유대학교(Vrije Universiteit Brussel) 연구팀이 이 벽을 허물었다. 누구나 사용할 수 있는 일반 챗GPT(ChatGPT) 구독 계정만으로 최근 제기된 활성 연구 문제를 해결한 것이다. 이들이 제안한 방법론은 '바이브 증명(vibe-proving)'이라는 이름으로, AI와 인간이 협력하는 새로운 학술 연구의 방향을 제시하고 있다. 코딩에서 수학으로…'바이브'의 확장 프로그래머 세계에서는 이미 '바이브 코딩(vibe-coding)'이라는 개념이 자리 잡고 있다. 코드를 한 줄씩 직접 짜는 대신 "이런 기능을 만들어줘"라고 AI에게 자연어로 요청하면, AI가 알아서 프로그램을 생성해주는 방식이다. 브뤼셀자유대학교 데이터 분석 연구소(Data Analytics Lab)의 브레흐트 베르베켄(Brecht Verbeken) 박사 연구팀은 이 개념을 수학 증명에 그대로 적용했다. 연구팀이 도전한 문제는 란과 텡(Ran and Teng)이 2024년에 제시한 '추측 20번(Conjecture 20)'이다. 이는 특정 구조를 가진 4×4 행렬(matrix)에서 나타날 수 있는 고유값(eigenvalue)의 범위를 정확히 규정하는 문제다. 고유값이란 쉽게 말해, 수학적 변환이 일어날 때 방향은 바뀌지 않고 크기만 변하는 특별한 수치다. 사진을 확대하거나 축소할 때 이미지의 형태는 유지되는 것과 유사한 개념이다. 연구팀은 이 문제를 챗GPT-5.2(Thinking) 버전과 7개의 공유 가능한 대화 스레드와 4개 버전의 증명 초안을 거쳐 풀어냈다. 전문화된 수학 전용 시스템이 아닌, 개인 구독 계정으로 접근 가능한 일반 챗GPT를 사용했다는 점이 이번 연구의 핵심이다. 논문의 초록(Abstract)에서 연구팀은 "소비자 구독 수준의 대형 언어 모델(LLM)로 감사 가능한 연구 수준의 수학 작업이 가능함을 보여준다"고 강조했다. AI는 전략가, 인간은 감독관…역할 분담의 발견 연구 과정에서 AI와 인간의 역할이 자연스럽게 나뉘었다. 챗GPT는 증명의 큰 그림, 즉 전체적인 접근 전략을 제시하는 데 뛰어난 역량을 발휘했다. 구체적으로는 1946년 드미트리예프와 딘킨(Dmitriev and Dynkin)이 개발한 삼각함수 방법(trigonometric method)이라는 고전적 수학 기법을 찾아내, 2024년의 미해결 문제에 맞게 변형하여 적용하는 전략을 제안했다. AI가 1946년 드미트리예프–딘킨의 삼각함수 방법을 적용하는 전략을 제시한 것이다. 반면 인간 연구자의 역할은 AI가 제안한 논리를 검증하고 오류를 수정하는 데 집중됐다. 논문의 토론(Discussion) 섹션에 따르면, AI가 생성한 초기 증명 초안에는 역삼각함수의 분기(branch) 및 사분면 처리 오류, 부호 조건 누락, 중간 계산 단계 생략 등 여러 결함이 있었다. 연구팀은 이를 발견하고 수정하는 과정을 반복하며 최종 증명을 완성했다. 이 과정은 연구팀이 '생성(generate), 심사(referee), 수리(repair)'라고 이름 붙인 순환 구조로 정리된다. AI가 아이디어와 증명 초안을 생성하면, 인간이 논리적 오류를 찾아 심사하고, 문제가 있으면 AI에게 다시 수정을 요청하는 반복 과정이다. 이 구조는 단순한 도구 사용을 넘어, AI와 인간이 각자의 강점을 살려 협력하는 새로운 연구 모델을 제시한다. 수학 올림피아드를 넘어 실전 연구로…AI 수학의 새 지평 최근 AI의 수학 능력은 눈부시게 발전하고 있다. 알파지오메트리(AlphaGeometry), 알파프루프(AlphaProof) 같은 특수 제작 시스템은 국제수학올림피아드(IMO) 문제에서 금메달 수준의 성과를 냈다. 그러나 이들은 대규모 컴퓨팅 자원과 전문적으로 설계된 시스템을 기반으로 한다는 한계가 있다. 이번 연구가 주목받는 이유는 바로 '접근성'이다. 란과 텡의 추측 20번은 교과서에 나오는 연습 문제가 아니라, 2024년에 현역 수학자들이 제시한 활성 연구 문제(active research problem)였다. 논문의 논의(Discussion) 섹션에서 연구팀은 "이 사례는 전문화된 시스템이 아닌 소비자 접근 가능한 모델로 감사 가능한 수학적 성과가 가능함을 보여준다"고 명시했다. (논문 p.5) 수학 증명은 AI 능력의 특별한 시험대다. 소프트웨어는 실행해보면 작동 여부를 즉시 확인할 수 있지만, 수학 증명은 모든 논리 단계가 완벽해야 하며 단 하나의 빈틈도 전체를 무효화한다. 이번 연구는 이런 엄격한 기준에서도 일반 AI 도구가 실질적인 학술 기여 가능성을 보여주는 초기 증거를 제시한다 점에서 의미가 깊다. 투명성이 핵심…모든 대화 기록을 공개한 이유 연구팀은 투명성을 연구의 핵심 원칙으로 삼았다. 챗GPT와 나눈 7개의 대화 세션 전체를 공유 링크로 공개하고, 4개 버전의 증명 초안도 논문 부록으로 모두 첨부했다. 이는 AI 연구에서 흔히 제기되는 재현 가능성(reproducibility) 문제를 정면으로 다룬 것이다. 다른 연구자들이 같은 방식으로 검증하고, 증명 과정의 오류 수정 과정까지 모두 추적할 수 있도록 한 것이다. 연구팀은 솔직하게 한계도 인정했다. 초기 탐색 단계의 대화는 체계적으로 보존하지 못했고, 이후에 챗GPT-5.2를 이용해 초기 프롬프트를 재구성했다. 또한 AI가 제안한 증명 전략은 근본적으로 새로운 방법이 아니라 기존 고전적 틀을 재적용한 것이었다고 밝혔다. 이 연구가 제시하는 더 큰 시사점은 학술 연구 도구의 민주화다. 대형 연구기관이나 막대한 컴퓨팅 자원 없이도, 개인 연구자가 AI를 활용해 의미 있는 학술 성과를 낼 수 있는 환경이 열렸다는 것이다. 의사가 복잡한 진단을 내릴 때, 변호사가 판례를 분석할 때, 엔지니어가 설계 문제를 해결할 때 AI와 대화하며 접근하는 방식이 표준이 되는 미래를 이번 연구는 예고하고 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 바이브 증명(vibe-proving)이란 무엇인가요? A. 바이브 증명은 수학자가 AI와 자연어로 대화하며 수학 증명을 완성해 나가는 방식입니다. 수식을 직접 전개하는 대신 "이 문제를 어떻게 접근할까?"라고 AI에게 물으며 아이디어를 얻고, 그것을 검증하고 수정하는 과정을 반복합니다. 프로그래머가 AI에게 코드 작성을 맡기는 '바이브 코딩'에서 착안한 개념입니다. Q. 일반 챗GPT로 정말 어려운 수학 문제를 풀 수 있나요? A. 전문 지식이 있는 연구자라면 가능합니다. 이번 연구는 월 구독료만 내면 누구나 쓸 수 있는 챗GPT로 현역 수학자들의 미해결 문제를 풀었습니다. 단, AI는 전략과 방향을 제시할 뿐, 논리적 오류를 찾아내고 최종 검증하는 것은 여전히 인간 전문가의 몫입니다. Q. 이 연구 방식을 수학 외 다른 분야에도 적용할 수 있나요? A. 네, 논리적 검증이 중요한 모든 분야에 응용 가능합니다. 의료 진단, 법률 분석, 엔지니어링 설계 등에서 AI가 여러 가능성을 제시하고 전문가가 비판적으로 검증하는 '생성-심사-수리' 구조를 활용할 수 있습니다. 핵심은 AI를 최종 의사결정자가 아닌 아이디어 제안자로 활용하는 것입니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. (리포트명: Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking) ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.26 22:18AI 에디터

GPT-5도 이런 실수 한다고?…AI가 '알면서도 틀리는' 황당한 이유

챗GPT에게 질문했다가 틀린 답변을 받아본 적 있을 것이다. 그때 드는 생각은 보통 하나다. "AI가 이것도 몰라?" 그런데 구글 리서치(Google Research) 연구팀이 발표한 최신 논문은 이 상식을 완전히 뒤집는다. AI가 틀리는 이유는 대부분 '몰라서'가 아니라 '알면서도 꺼내지 못해서'라는 것이다. GPT-5, 제미나이-3-프로(Gemini-3-Pro) 등 최첨단 AI 13개를 대상으로 약 450만 건의 응답을 분석한 결과다. 냉장고에 음식이 있는데 꺼내지 못하는 AI 연구팀은 AI가 사실을 틀릴 때 그 원인을 두 가지로 나눴다. 하나는 처음부터 그 정보를 학습하지 못한 경우, 즉 냉장고에 음식 자체가 없는 것이다. 연구팀은 이를 '빈 선반(empty shelves)'이라고 불렀다. 다른 하나는 정보가 분명히 저장되어 있는데 막상 질문을 받으면 꺼내지 못하는 경우, 즉 냉장고 안에 음식이 있는데 어디 뒀는지 찾지 못하는 것이다. 이를 '잃어버린 열쇠(lost keys)'라고 불렀다. 분석 결과는 놀라웠다. GPT-5와 제미나이-3-프로 같은 최첨단 모델들은 테스트에 등장한 사실의 95~98%를 이미 내부에 저장하고 있었다. 냉장고는 거의 꽉 차 있었던 것이다. 그런데도 추가 추론 없이는 25~33%의 질문에서 틀렸다. GPT-5.2 기준으로 오류의 70% 이상이 '몰라서'가 아니라 '꺼내지 못해서' 발생했다. AI 모델을 더 크게 만들어도 이 문제는 잘 해결되지 않았다는 점도 함께 확인됐다. 그림 4. AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율 AI가 앞에서 물어보면 맞히고, 뒤에서 물어보면 틀리는 이유 출력 실패는 특히 두 가지 상황에서 심하게 나타났다. 첫 번째는 덜 알려진 정보일수록 틀리는 문제다. 유명한 정보와 잘 알려지지 않은 정보를 비교했을 때, 저장된 비율은 거의 비슷했다. 제미나이-3-플래시(Gemini-3-Flash) 기준으로 인기 있는 정보는 99.5%, 희귀한 정보도 94.5%가 저장되어 있었다. 하지만 막상 답변할 수 있는 비율은 84.7% 대 63.3%로 격차가 21.4%포인트나 벌어졌다. 알고는 있는데, 잘 떠올리지 못하는 것이다. 기존에는 "AI가 희귀한 정보를 틀리는 건 애초에 배우지 못했기 때문"이라는 게 정설이었는데, 이번 연구가 그걸 뒤집었다. 두 번째는 질문 방향을 바꾸면 갑자기 틀리는 문제다. 예를 들어 AI에게 "오아시스(Oasis) 밴드가 처음 공연한 장소는?"이라고 물으면 "보드워크 클럽(Boardwalk Club)"이라고 잘 맞힌다. 그런데 "보드워크 클럽에서 처음 공연한 밴드는?"이라고 방향만 바꿔 물으면 같은 AI가 틀리는 경우가 많다. GPT-5 기준으로 정방향 질문은 82.9% 정답률이었지만, 역방향은 74%로 뚝 떨어졌다. 더 흥미로운 건, 보기를 주고 고르게 하면 역방향도 정방향만큼 잘 맞혔다는 점이다. AI는 분명히 알고 있다. 다만 질문 방향이 바뀌면 스스로 꺼내지 못할 뿐이다. "잠깐, 생각해볼게요"가 실제로 효과가 있다 이 문제를 해결하는 데 도움이 되는 기능이 바로 '싱킹(thinking)'이다. AI가 즉각적으로 답변하지 않고 잠깐 멈춰서 단계별로 생각을 정리한 뒤 답하는 방식이다. 우리가 어떤 사실이 혀 끝에서 맴도는 느낌이 들 때, 관련된 기억을 하나씩 떠올리다 보면 결국 생각해내는 것과 비슷하다. 연구에 따르면 싱킹은 "저장은 되어 있지만 곧바로 답하지 못했던" 사실의 40~65%를 추가로 맞히게 해줬다. 반면 애초에 저장되지 않은 정보에 대해서는 싱킹을 써도 회수율이 5~20%에 그쳤다. 결국 싱킹은 없는 지식을 만들어내는 게 아니라, 있는 지식을 더 잘 꺼내도록 돕는 기능이라는 것이다. 특히 덜 알려진 정보나 역방향 질문처럼 AI가 가장 약한 부분에서 효과가 컸다. 제미나이-3-프로의 경우, 싱킹을 적용하자 희귀 정보와 인기 정보 사이의 답변 격차가 21.4%포인트에서 12.5%포인트로 줄었다. 물론 단점도 있다. 싱킹은 추가 연산이 필요해 응답이 느려지고 비용도 올라간다. 그리고 AI가 스스로 "지금 싱킹이 필요한 순간이다"를 판단하는 게 아직 완벽하지 않다는 점도 한계로 지적됐다. AI의 '진짜 실력'을 재는 새로운 성적표 연구팀은 이번 연구를 위해 '위키프로파일(WikiProfile)'이라는 새로운 평가 도구도 만들었다. 기존 AI 평가 방식은 단순했다. 맞으면 1점, 틀리면 0점. 그런데 이 방식으로는 AI가 왜 틀렸는지 알 수 없다. 몰라서 틀렸는지, 알면서도 못 꺼냈는지 구분이 안 되는 것이다. 위키프로파일은 이 두 가지를 나눠서 측정할 수 있도록 설계됐다. 2,150개의 사실에 대해 각각 10개의 질문을 만들었는데, 정보가 저장됐는지 확인하는 질문, 실제로 답할 수 있는지 확인하는 질문, 객관식으로 골라낼 수 있는지 확인하는 질문이 모두 포함됐다. 모든 사실은 위키피디아(Wikipedia)에서 추출됐고, 구글 검색(Google Search)과 연동된 AI 파이프라인이 검증을 담당했다. 두 AI 채점자가 98.2%의 일치율을 보일 만큼 신뢰도도 높았다. 그림 3. 위키프로파일 파이프라인 플로우차트 FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다. Q. AI가 사실을 틀리는 이유가 단순히 '모르기 때문'이 아닌가요? A. 이번 연구에 따르면, GPT-5 같은 최신 모델들은 테스트된 사실의 95~98%를 이미 내부에 저장하고 있었습니다. 오류의 70% 이상은 지식이 없어서가 아니라, 저장된 정보를 제때 꺼내지 못해서 발생했습니다. Q. AI의 '싱킹(thinking)' 기능이 정확도를 높인다는데, 항상 켜두면 되나요? A. 싱킹은 놓쳤던 답변의 40~65%를 추가로 맞힐 수 있어 효과적이지만, 응답이 느려지고 비용도 올라갑니다. AI가 스스로 "지금 싱킹이 필요하다"를 판단하는 능력도 아직 완벽하지 않아서, 현재로서는 상황에 따라 선택적으로 쓰는 편이 좋습니다. Q. AI 모델 크기를 키우면 사실 오류 문제가 해결되지 않나요? A. 모델을 크게 만들수록 정보를 저장하는 능력은 좋아집니다. 하지만 저장된 정보를 꺼내는 능력은 그만큼 따라오지 않았습니다. 연구팀은 앞으로의 AI 발전이 모델 크기보다 '이미 아는 것을 잘 꺼내는 방법' 개선에 달려 있다고 봤습니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.26 13:12AI 에디터

AI도 못 깨는 게임이 있다…챗GPT·클로드·제미나이, 1970년대 텍스트 게임 줄줄이 실패

최신 AI가 바둑을 정복하고 코드를 짜고 소설을 쓰는 시대, 1977년에 만들어진 텍스트 게임을 클리어하는 수준이 평균 10%도 미치는 못한다면 믿겠는가. 네덜란드 트벤테 대학교(University of Twente) 연구팀이 챗GPT(ChatGPT), 클로드(Claude), 제미나이(Gemini) 등 최첨단 대형 언어 모델(LLM, Large Language Model)을 1977년 텍스트 어드벤처 게임 '조크(Zork)'에 투입해 실험한 결과, 모든 AI가 평균 완료율 10% 미만이라는 초라한 성적표를 받아 들었다. 이 연구는 현재 AI의 추론 능력에 대한 근본적인 질문을 다시 던진다. 왜 하필 1977년 게임인가: 조크가 AI의 진짜 실력을 드러내는 이유 조크(Zork)는 미국 MIT에서 개발되어 1977년 처음 출시된 텍스트 기반 어드벤처 게임이다. 화면에 그림이나 영상이 전혀 없고, 오직 글자로만 상황이 묘사된다. 예를 들어 "당신은 흰 집 서쪽 열린 들판에 서 있습니다"라는 문장이 나오면 플레이어는 "북쪽으로 가라" 혹은 "칼을 집어라" 같은 명령어를 타이핑해 게임을 진행한다. 최대 350점을 획득하면 클리어다. 이 게임이 AI 테스트에 적합한 이유는 명확하다. 화면을 보고 패턴을 인식하는 능력이 아니라, 글로 묘사된 공간을 머릿속으로 지도처럼 구성하고, 이전에 실패한 행동을 기억해 전략을 바꾸고, 아이템들 사이의 인과관계를 파악하는 능력이 요구되기 때문이다. 즉 단순한 언어 생성이 아닌 '진짜 이해'와 '적응적 문제 해결'이 필요하다. 연구팀은 이 게임이 AI가 흔히 쓰는 '패턴 매칭 요령'이 통하지 않는 환경이라는 점에 주목했다. 챗GPT는 빈 우편함을 계속 열었다: AI가 드러낸 황당한 실수들 연구팀은 앤트로픽(Anthropic)의 클로드 오퍼스 4.5(Claude Opus 4.5), 클로드 소넷 4.5(Claude Sonnet 4.5), 오픈AI(OpenAI)의 챗GPT 5.2, 구글(Google)의 제미나이 3(Gemini 3)을 포함해 총 3개 기업의 6개 LLM 기반 챗봇 설정을 테스트했다. 각 모델은 게임 설명을 최소한으로 제공한 '기본 프롬프트'와 게임 매뉴얼 수준의 상세한 설명을 제공한 '고급 프롬프트' 두 가지 조건 아래 각 5회씩, 총 40회 실험을 진행했다. 가장 저조한 성적을 낸 챗GPT 5.2는 특히 흥미로운 실패 패턴을 보였다. 게임 초반에 우편함을 열고 안에 있는 전단지를 읽는 것은 합리적인 행동이다. 그런데 챗GPT는 이미 비어 있는 우편함을 반복해서 다시 열려는 시도를 여러 차례 했다. 내용물이 없다는 사실을 이미 확인했음에도 같은 행동을 되풀이한 것이다. 인간 플레이어라면 반복하지 않을 행동이다. 더불어 챗GPT는 포기 명령을 거의 내리지 않아 게임 내 이동 횟수는 많았지만 실질적 진전은 거의 없는 '제자리걸음'을 반복했다. 클로드 오퍼스 4.5는 최고 성적인 약 75점(350점 만점)을 기록했지만, 이 역시 전체의 약 20%에 그쳤다. 클로드가 미로 구간에서 보인 사고 과정을 살펴보면, "미로에는 특정 해법이 있다, 방향을 체계적으로 시도해보겠다"고 언급하면서도 동시에 아이템을 바닥에 놓아 경로를 표시하겠다고 했다. 그런데 대화 기록만 봐도 자기 발자국을 추적할 수 있는 AI가 굳이 아이템을 버릴 이유가 없다. 심지어 한 실험에서는 경로 표시용으로 랜턴을 바닥에 떨어뜨렸다가, 이후 어두운 지역에서 빛이 필요한 순간 랜턴이 없어 곤란에 빠지기도 했다. [그림 1] 왼쪽: 모델별 평균 획득 점수(표준 오차 포함). 오른쪽: 게임당 평균 이동 횟수(표준 오차 포함). (I)은 기본 프롬프트, (II)는 고급 프롬프트 조건을 나타낸다. '생각하기' 기능을 켜도 달라지지 않았다: AI의 '사고 모드'는 진짜 사고가 아닌가 이번 연구에서 가장 충격적인 발견 중 하나는 '확장 사고(Extended Thinking)' 기능이 게임 성과에 아무런 도움이 되지 않았다는 점이다. 클로드의 '확장 사고' 옵션, 챗GPT의 '확장 사고' 설정, 제미나이의 '사고' 모드를 각각 활성화했지만, 세 모델 모두 해당 기능을 켰을 때와 끄지 않았을 때 사이에 유의미한 성적 차이가 없었다. 또 하나 흥미로운 결과는 상세한 게임 설명을 제공해도 성적이 오르지 않았다는 점이다. 연구팀은 이동 명령어, 전투 방법, 게임 목표, 핵심 전략 등을 담은 고급 프롬프트를 별도로 제작해 제공했다. 인간 플레이어라면 이 정도 가이드만으로도 훨씬 높은 점수를 낼 수 있을 것이다. 그러나 AI에게는 아무 차이가 없었다. 정보 자체를 갖고 있느냐보다 그 정보를 상황에 맞게 적용하고 자신의 행동을 돌아보는 능력이 부재하기 때문이라는 것이 연구팀의 해석이다. AI가 없는 것: 자기 생각을 돌아보는 '메타인지' 능력 연구팀이 이 실험을 통해 지목한 핵심 한계는 '메타인지(Metacognition)'의 부재다. 메타인지란 쉽게 말해 '내가 지금 잘 하고 있는지 스스로 점검하는 능력'이다. 인간은 같은 방법이 계속 실패하면 "이건 안 되는구나, 다른 방법을 써야겠다"고 스스로 판단한다. 그런데 실험 속 AI들은 실패한 행동을 반복했고, 이전 대화 기록에 접근할 수 있음에도 이전 시도에서 배운 흔적을 보이지 않았다. 연구팀은 이를 LLM이 긴 문맥 속 중간 부분의 정보를 잘 활용하지 못하는 이른바 '중간에서 길을 잃다(Lost in the Middle)' 현상과도 연결지어 설명했다. 즉 대화가 길어질수록 앞서 일어났던 실패들을 효과적으로 참고하지 못하는 것이다. 연구팀은 현재 AI의 이 같은 한계가 단순히 모델 크기나 학습 데이터를 늘린다고 해결될 양적 문제가 아니라, 인간의 인지 방식과 AI의 정보 처리 방식 사이의 질적 차이에서 비롯된 것일 수 있다고 지적했다. 유창하게 말을 만들어내는 능력이 진짜 이해나 문제 해결 능력과는 다르다는 것이다. FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다. Q. 조크(Zork)가 뭔가요? 왜 AI 테스트에 사용했나요? A. 조크는 1977년 MIT에서 개발된 텍스트 기반 어드벤처 게임으로, 글로만 상황이 묘사되고 글로만 명령을 입력해 진행하는 게임입니다. 시각적 힌트 없이 공간 파악, 기억, 전략 수정이 필요해 AI의 진짜 추론 능력을 테스트하기에 적합한 환경으로 평가받았습니다. Q. 클로드, 챗GPT, 제미나이 중 어느 AI가 가장 잘했나요? A. 클로드 오퍼스 4.5가 약 75점(350점 만점)으로 가장 높은 점수를 기록했습니다. 그러나 이 역시 전체 게임의 약 20% 수준에 불과했고, 나머지 모델들은 평균 10% 미만의 완료율을 보였습니다. Q. AI에게 상세한 게임 설명을 줘도 왜 성적이 오르지 않나요? A. 정보를 받는 것과 그 정보를 실시간 상황에 맞게 유연하게 적용하는 것은 다른 능력입니다. AI는 상세한 매뉴얼을 받았어도 상황에 따라 전략을 수정하거나 실패로부터 배우는 '메타인지' 능력이 부족해 실질적인 성과 향상으로 이어지지 않은 것으로 분석됩니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork? ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.25 17:02AI 에디터

AI가 교사보다 공정한 채점자 될 수 있을까…GPT·클로드·제미나이 실험했더니

AI가 학교 수업 자료를 평가한다면 어떤 일이 벌어질까. 미국 워싱턴주립대와 뉴욕주립대 버팔로 캠퍼스 공동 연구팀이 GPT-4o, 클로드 소넷 4(Claude Sonnet 4), 제미나이 2.5 프로(Gemini 2.5 Pro) 세 가지 AI 모델에게 미국 초중등 과학 수업 자료를 평가하게 한 뒤, 그 결과를 교육 전문가의 판단과 비교하는 실험을 진행했다. 결과는 예상보다 훨씬 복잡하고 흥미로웠다. AI 채점관 등장: 648개의 평가 데이터가 말해주는 것 연구팀은 미국 전역에서 검증된 초중등 과학 교육과정 12개 단원을 선정했다. 생명과학, 물리과학, 지구과학 분야에 걸쳐 있는 이 자료들은 모두 미국 과학교육 국가표준(NGSS, Next Generation Science Standards)에 맞게 설계된 고품질 커리큘럼이다. 연구팀은 세 AI 모델에게 동일한 기준표—교육 자료 품질을 9가지 항목으로 평가하는 이퀴프(EQuIP) 루브릭—를 적용해 각 수업 자료를 평가하도록 했다. AI는 각 항목에 0~3점 사이의 점수를 매기고, 그 이유를 글로 설명한 뒤 개선 방향까지 제시했다. 이 과정에서 총 648개의 평가 결과물이 생성됐다. 두 명의 과학교육 전문가가 이 결과물 전체를 검토하며 동의 여부를 판단했다. 점수보다 이유가 더 믿을 만하다: 전문가 동의율의 반전 실험 결과에서 가장 눈에 띄는 점은 AI가 매긴 숫자 점수보다 그 이유 설명에 전문가들이 훨씬 더 많이 동의했다는 사실이다. 점수에 대한 전문가 평균 동의율은 69.6%에 그쳤지만, AI가 작성한 이유 설명에 대한 동의율은 86.1%, 개선 제안에 대한 동의율은 82.5%에 달했다. 모델별로 살펴보면 개선 제안 동의율은 제미나이(Gemini)가 88.9%로 가장 높았고, 클로드(Claude)가 81.3%, GPT가 77.2% 순이었다. 즉, AI가 내린 결론(점수)보다 그 결론에 이르는 과정(논리와 설명)이 인간 전문가의 눈에 더 타당하게 보였다는 뜻이다. 이는 AI를 교육 평가에 활용할 때 단순히 점수를 자동화하는 방식보다, AI의 설명을 교사가 참고하는 방식이 훨씬 유용할 수 있음을 시사한다. 제미나이는 후하고, 클로드는 엄격하고, GPT는 그 사이: AI마다 다른 채점 철학 세 모델의 성격 차이는 데이터에서 뚜렷하게 드러났다. 제미나이는 평균 2.96점(3점 만점)을 부여하며 가장 후한 평가자였고, GPT-4o는 2.81점으로 그 뒤를 이었다. 반면 클로드는 2.18점으로 훨씬 엄격한 채점 성향을 보였다. 전문가 동의율도 극명하게 갈렸다. 점수 항목에서 제미나이의 전문가 동의율은 87.1%, GPT는 84.3%였지만, 클로드는 고작 37%에 불과했다. 흥미롭게도 클로드의 개선 제안에 대한 동의율은 81.3%로 다른 두 모델과 비슷한 수준이었다. 즉 클로드는 점수는 너무 짜게 줬지만 조언의 내용 자체는 전문가들이 납득할 만했다는 것이다. 연구팀은 이 차이를 각 모델의 설계 철학에서 찾는다. GPT-4o와 제미나이는 텍스트, 이미지, 오디오 등 다양한 정보를 통합적으로 처리하는 멀티모달(multimodal) 기반 모델로, 전반적인 패턴을 인식하는 방식으로 평가한다. 반면 클로드는 '헌법적 AI(Constitutional AI)'라는 방식으로 훈련되어 안전하고 정확하며 해롭지 않은 출력을 우선시한다. 이 특성이 교육 평가에서는 규칙 기반의 엄격한 채점으로 나타났다는 분석이다. 그림 2. 과학 분야별(위), AI 모델별(아래) 전문가 동의율(%) 비교 막대그래프 같은 수업, 전혀 다른 점수: AI와 인간 모두 '판단 기준'이 다르다 연구팀이 제시한 두 가지 실제 사례는 이 문제를 더 구체적으로 보여준다. 첫 번째는 초등학교 3학년 물리과학 수업으로, 학생들이 일상 재료로 균형 잡힌 조각품을 만드는 활동이었다. 전문가 A는 이 수업에 3점 만점을 부여하며 학생들의 탐구적 사고를 높이 평가했지만, 전문가 B는 1점을 주며 "과학 개념을 명시적으로 요구하지 않는 미술 활동에 가깝다"고 비판했다. 두 번째는 5학년 물리과학 수업으로, 단열재를 설계해 물의 온도를 유지하는 실험이었다. 클로드는 1점을 주며 표준 기준에 맞는 명시적 설명이 없다고 지적했고, GPT는 2점을 주며 무난한 평가를 내렸으며, 제미나이는 3점을 부여하며 학생들이 실제 데이터를 분석하고 모델을 수정하는 과정에서 충분한 과학적 사고가 일어난다고 판단했다. 연구팀은 이를 세 가지 AI 인식론으로 정리한다. 클로드는 규칙 중심의 정밀한 평가자, GPT는 중립적이지만 얕은 평가자, 제미나이는 맥락을 통합하는 전체론적 평가자라는 것이다. AI 채점은 '정답'이 아니라 '다양한 관점'을 제공하는 도구다 이 연구는 AI가 교육 평가에 활용될 때 단일한 정답을 내놓는 방식보다 여러 관점을 함께 보여주는 방식이 훨씬 가치 있다는 점을 시사한다. 인간 전문가들 사이에서도 점수 불일치가 빈번하게 나타났는데, 물리과학 분야에서 두 전문가의 일치도(코헨 카파 약 0.29)가 가장 낮았고, 지구과학(약 0.49)과 생명과학(약 0.47)은 중간 수준의 일치도를 보였다. 이는 "좋은 수업이란 무엇인가"에 대한 판단 자체가 본질적으로 주관적이고 복잡하다는 뜻이다. 따라서 AI를 도입할 때 하나의 모델이 내린 점수를 그대로 신뢰하기보다, 여러 모델의 평가를 비교하며 교사가 스스로 판단하는 데 참고 자료로 활용하는 것이 바람직하다. 연구팀도 AI가 교사의 판단을 대체하는 것이 아니라 교사의 전문적 성찰을 돕는 파트너가 되어야 한다고 강조한다. 앞으로의 AI 교육 평가 시스템은 숫자 하나를 내놓는 채점기가 아니라, 다양한 해석의 근거를 투명하게 제시하는 방향으로 설계되어야 한다는 것이 이 연구의 핵심 메시지다. FAQ(※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. AI가 교육 자료를 평가하면 인간 전문가와 얼마나 일치하나요? A. 이번 연구에 따르면 AI가 부여한 점수에 대한 전문가 평균 동의율은 약 70%이며, AI의 이유 설명에 대한 동의율은 86%로 더 높습니다. AI의 숫자 점수보다 설명이 더 신뢰할 만하다는 뜻입니다. Q. GPT, 클로드, 제미나이 중 교육 평가에 가장 적합한 AI는 무엇인가요? A. 전문가와의 일치도 면에서는 제미나이(Gemini)가 점수 87.1%, 이유 설명 92.1%로 가장 높았습니다. 그러나 어떤 모델이 "최선"인지는 교육의 목적과 평가 기준에 따라 다를 수 있으며, 세 모델을 함께 활용해 다양한 관점을 비교하는 방식이 더 효과적입니다. Q. AI 채점 결과를 교사가 그대로 믿어도 되나요? A. 아직은 그렇지 않습니다. 같은 수업에 대해 AI마다 점수가 크게 다를 수 있고, 인간 전문가들 사이에서도 의견이 갈리는 경우가 많습니다. AI 평가는 교사의 판단을 보조하는 참고 자료로 활용하되, 최종 판단은 교사가 내리는 것이 바람직합니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Judging the Judges: Human Validation of Multi-LLM evaluation for High-Quality K–12 Science Instructional Materials ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.24 19:45AI 에디터

오픈AI, 스마트 스피커·안경·조명까지…AI 하드웨어 제국 꿈꾼다

오픈AI(OpenAI)가 스마트 스피커를 포함한 AI 기반 기기 라인업 개발에 본격적으로 나섰다. 로이터에 따르면, 정보기술 전문매체 더 인포메이션(The Information)은 오픈AI가 스마트 스피커, 스마트 안경, 스마트 조명 등 다양한 AI 기기 개발에 200명 이상의 인력을 투입하고 있다고 20일(현지시간) 보도했다. 해당 매체는 관련 계획을 잘 아는 관계자를 인용해 이같이 전했다. 더 인포메이션에 따르면, 오픈AI가 가장 먼저 출시할 제품은 스마트 스피커로, 출고가는 200달러에서 300달러(한화 약 29만~44만 원) 수준이 될 것으로 예상된다. 이 스피커에는 카메라가 탑재되어 사용자와 주변 환경 정보를 인식할 수 있는 기능을 갖출 예정이다. 다만 출시 시점은 빠르면 2027년 2월이 될 것으로 보인다. 스마트 안경은 양산 준비까지 2028년은 돼야 할 것이라고 더 인포메이션은 전망했다. 오픈AI는 지난해 전 애플(Apple) 수석 디자이너 조니 아이브(Jony Ive)가 설립한 스타트업 아이오 프로덕츠(io Products)를 65억 달러에 인수하며 하드웨어 시장에 뛰어들었다. 물리적 AI와 증강현실(AR) 기기에 대한 수요 증가를 선점하겠다는 전략이다. 한편 페이스북(Facebook) 모회사 메타(Meta)는 레이밴(Ray-Ban) 스마트 안경으로 시장에서 두각을 나타내고 있다. 해당 제품은 소형 카메라를 통해 촬영, 사진 촬영, 콘텐츠 스트리밍 등의 기능을 지원한다. 애플과 구글(Google)도 자체 스마트 안경 개발에 나선 것으로 알려졌다. 오픈AI는 로이터의 논평 요청에 즉각 응하지 않았다. 자세한 내용은 로이터(Reuters)에서 확인할 수 있다. 이미지 출처: 이디오그램 생성 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.02.24 17:36AI 에디터

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

[유미's 픽] AI가 들러리인가…하정우·임문영 두 축 선거판으로

광고 속 그 연예인, 진짜일까…'AI 무단 합성' 칼 빼든 미국

한강 뒤덮은 5000여 잉어킹…'포켓몬런 2026 in 서울' 가보니

애플 '아이폰17', 1Q 세계 판매 1위...삼성 갤럭시는

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.