• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
국감2025
인공지능
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (585건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

AI, 덧셈보다 뺄셈 훨씬 자주 틀린다...왜 그럴까?

챗GPT 같은 AI가 덧셈 문제는 거의 완벽하게 풀지만, 뺄셈 특히 답이 음수로 나오는 계산에서는 이상한 실수를 반복한다는 연구 결과가 나왔다. 독일 자를란트대학교와 미국 브라운대학교 등 공동 연구팀은 8개의 주요 AI 모델을 조사한 연구 논문을 보면, AI가 답의 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 빼먹는 독특한 오류를 가지고 있었다. 같은 난이도인데 뺄셈만 30~50점 낮아 연구팀은 구글의 Gemma-2, 중국의 Qwen2, 메타의 Llama-3, AI2의 OLMo-2 등 4개 모델 패밀리의 8가지 AI를 대상으로 덧셈과 뺄셈 실력을 비교했다. 각 AI가 한 번에 인식할 수 있는 숫자 범위 안에서 균형 잡힌 문제를 만들어 테스트했고, 같은 질문을 5가지 방식으로 바꿔가며 물어봤다. 결과는 충격적이었다. Qwen2-8B 모델은 덧셈에서 거의 100점을 받았지만 뺄셈에서는 52점에 그쳤다. OLMo-2-32B 모델도 덧셈 99점, 뺄셈 57점이었다. 여러 AI에서 뺄셈 점수가 덧셈보다 30~50점 낮았다. 뺄셈은 순서를 바꾸면 답이 달라지는 비가환 연산이다. 또한 뺄셈은 자릿수를 추적하는 차입 과정이 중요한데, 처음부터 훈련된 트랜스포머 모델이 이런 긴 시퀀스의 자릿수 추적에서 어려움을 겪는다는 선행 연구가 있다. 답이 음수로 나올 때만 망가진다 연구팀이 문제를 a>b(큰 수에서 작은 수 빼기)와 a<b(작은 수에서 큰 수 빼기) 두 그룹으로 나눠서 분석했더니 극명한 차이가 드러났다. 거의 모든 AI가 a>b일 때는 성공했지만, a<b일 때는 정확도가 급락했다. 예를 들어 Qwen2-8B, Gemma-2-27B, Llama-3.1-70B 모델은 답이 양수일 때는 거의 완벽했지만, 답이 음수일 때는 5% 미만의 정확도를 보였다. 혹시 'a-b' 형식 때문에 헷갈리는 건지 확인하려고 '-b+a' 형식으로도 물어봤는데 결과는 똑같았다. 이는 AI의 실패가 뺄셈 연산 자체가 아니라 음수 정수를 최종 답으로 만들어내는 데 있어서의 체계적 어려움임을 확인시켰다. 숫자는 맞는데 마이너스 부호만 빠뜨려 정확히 어디서 실수하는지 알아보기 위해 연구팀은 마이너스 부호를 무시하고 숫자 크기만 맞는지 채점해봤다. 그러자 점수가 극적으로 상승했다. OLMo-2-13B 모델은 완전히 맞은 답이 4%였는데, 부호를 빼고 보니 96%가 맞았다. Llama-3-70B도 0.2%에서 49%로, Qwen2-8B는 4%에서 37%로 올랐다. '-b+a' 형식에서도 동일한 패턴이 관찰됐다. 이는 AI가 뺄셈의 크기는 정확히 계산하면서도 마이너스 부호를 체계적으로 생략한다는 것을 의미한다. 연구팀은 이것이 단순한 실수가 아니라 모델의 근본적인 한계라고 지적했다. AI는 답을 알면서도 못 쓴다 가장 흥미로운 발견은 AI 내부를 들여다본 실험에서 나왔다. 연구팀은 Gemma-2 9B, Llama-3.1-8B, Qwen2-8B 세 모델의 내부 신호를 읽어내는 간단한 판별 장치를 만들었다. 이 장치는 AI가 계산 과정에서 만들어내는 신호 패턴을 보고 "이 답이 양수인지 음수인지" 맞춰보는 역할을 했다. 놀랍게도 이 판별 장치는 거의 완벽하게 맞췄다. Gemma-2 9B와 Qwen2-8B는 100%, Llama-3.1-8B는 99% 이상을 기록했다. 같은 실험을 5번 반복했는데도 결과가 거의 똑같이 나왔다. 이 말은 AI가 답을 쓸 때는 마이너스 부호를 빼먹지만, 속으로는 답이 음수인지 양수인지 정확히 알고 있다는 뜻이다. AI 안에서는 올바른 정보를 갖고 있지만, 이를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라지는 것이다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 생기는 셈이다. 예시를 보여줘도 효과 제한적 이 문제를 해결하려고 연구팀은 두 가지 방법을 시도했다. 첫 번째는 AI에게 문제를 풀기 전에 미리 푼 예제를 보여주는 것이었다. 3개, 5개, 10개씩 예시를 보여주며 테스트했다. 결과는 들쭉날쭉했다. Llama-3.1-8B는 예시 없이 8.1%였던 정확도가 예시 5개를 보여주자 31.5%로 올랐다. 크지는 않지만 의미 있는 개선이었다. Qwen2-14B도 처음에는 나아졌지만 예시 3개 이후로는 더 이상 좋아지지 않았다. 반면 Gemma-2-27B나 Llama-3.1-70B 같은 큰 모델들은 결과가 불안정하고 일관성이 없었다. 거의 모든 AI에서 마이너스 부호를 무시하고 채점하면 90% 이상이 맞았다. 이는 AI가 숫자 크기는 제대로 계산하지만 부호만 자꾸 빼먹는다는 뜻이다. 예시를 보여주는 방법은 일반 AI에서 실수를 어느 정도 줄이지만, 전체적으로 효과가 크지 않고 들쭉날쭉하다는 결론이다. 특별 훈련받은 AI는 거의 완벽 두 번째 방법은 특별 훈련을 받은 AI를 테스트하는 것이었다. '인스트럭션 튜닝'이라고 불리는 이 특별 훈련은 AI가 사람의 지시를 더 잘 따르도록 추가로 가르치는 과정이다. 이렇게 훈련받은 AI들은 MATH와 GSM8k 같은 수학 시험에서 좋은 성적을 낸다고 알려져 있다. 결과는 놀라웠다. 거의 모든 특별 훈련 AI가 90% 이상의 정확도를 기록했고, Gemma-2-9B, Gemma-2-27B, Qwen2-8B, Qwen2-14B는 100%를 받았다. 일반 버전에서 완전히 실패했던 모델들도 특별 훈련 후에는 성능이 크게 향상됐다. 연구팀은 이런 개선이 특별 훈련 과정에서 나온다고 보았다. 실제로 OLMo-2 모델의 훈련 자료를 조사해보니, MATH 문제집, GSM8k 문제집, Tülu 3 데이터가 포함되어 있었다. 이 모든 자료에는 작은 수에서 큰 수를 빼는 문제(답이 음수로 나오는 경우)가 들어있었다. OLMo-2가 특별 훈련 중에 이런 문제들을 학습해서 성능이 좋아진 것으로 추측된다. 여러 자리 숫자에서도 똑같은 문제 연구팀은 한 자리 숫자뿐 아니라 여러 자리로 이루어진 긴 숫자에서도 실험했다. AI는 긴 숫자를 여러 조각으로 나눠서 인식하는데, 최대 3조각까지 나뉘는 숫자를 테스트했다. 긴 숫자를 다룰 때는 덧셈 성적도 떨어졌지만, 뺄셈이 더 어렵다는 경향은 그대로였다. Gemma-2-27B는 긴 숫자 덧셈에서 99%를 받았지만 뺄셈에서는 51%였다. Qwen2-8B와 Qwen2-14B도 덧셈 99%, 뺄셈 49%로 비슷한 차이를 보였다. 큰 수에서 작은 수를 뺄 때와 작은 수에서 큰 수를 뺄 때의 차이도 긴 숫자에서 똑같이 나타났다. Qwen2-14B는 답이 양수일 때(a>b) 100%를 기록했지만, 답이 음수일 때(a<b)는 38%로 뚝 떨어졌다. 마이너스 부호를 빼먹는 경향도 긴 숫자에서 똑같이 관찰됐다. OLMo-2-32B는 답이 음수인 문제에서 25%만 맞혔지만, 부호를 빼고 채점하니 71%가 맞았다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI가 덧셈은 잘하는데 뺄셈은 못하는 이유가 뭔가요? A. 뺄셈은 순서를 바꾸면 답이 달라집니다(3-5와 5-3은 다름). 또한 뺄셈할 때는 자릿수를 빌려오는 계산이 중요한데, 이전 연구들에 따르면 AI가 긴 숫자의 자릿수를 추적하는 데 어려움을 겪는다고 합니다. 특히 답이 음수로 나올 때 AI는 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 자꾸 빼먹습니다. Q2. AI가 마이너스 부호를 빼먹는 이유는 뭔가요? A. 연구팀이 AI 내부를 분석한 결과, AI는 속으로 답이 음수인지 양수인지 정확히 알고 있었습니다. 하지만 이 정보를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라집니다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 있는 셈입니다. Q3. 이 문제를 해결할 방법이 있나요? A. 특별 훈련이 가장 효과적입니다. 사람의 지시를 더 잘 따르도록 추가로 가르치는 '인스트럭션 튜닝'을 받은 AI는 90% 이상, 일부는 100%의 정확도를 보였습니다. 반면 문제 풀기 전에 예시를 보여주는 방법은 효과가 작고 들쭉날쭉했습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.06 17:26AI 에디터

AI 모델끼리 '생각' 직접 주고 받는다…텍스트 없이 소통하는 신기술 등장

인공지능 언어모델들이 서로 협력할 때 텍스트 메시지 대신 '생각'을 직접 교환하는 새로운 방법이 개발됐다. 중국 칭화대학교와 인피니전스 AI 연구팀은 여러 AI 모델이 함께 일할 때 텍스트로 대화하는 기존 방식의 한계를 넘어서는 '캐시-투-캐시(C2C)' 기술을 선보였다. 텍스트 대화의 문제점… 정보 손실되고 시간도 오래 걸려 연구 논문에 따르면, 현재 여러 AI 모델이 협업할 때는 사람처럼 텍스트로 대화한다. 한 모델이 분석한 내용을 문장으로 만들어 다른 모델에게 전달하는 식이다. 하지만 이 과정에는 문제가 있다. AI가 머릿속에서 이해한 복잡한 내용을 단순한 텍스트로 바꾸면서 많은 정보가 사라진다. 게다가 단어를 하나하나 생성해야 하므로 시간도 오래 걸린다. 연구팀은 이런 문제를 해결하기 위해 'KV 캐시'라는 것을 활용하는 방법을 제안했다. KV 캐시는 AI가 문장을 이해할 때 머릿속에 저장하는 일종의 메모장이다. 이 메모장에는 단순한 텍스트보다 훨씬 풍부한 의미 정보가 담겨 있다. 마치 사람이 책을 읽으면서 머릿속에 떠오르는 이미지나 감정처럼, AI도 텍스트를 넘어서는 깊은 이해를 이 캐시에 저장한다. 연구팀은 실험을 통해 이 아이디어가 실제로 효과가 있는지 확인했다. 같은 길이의 질문이라도 캐시에 담긴 정보가 더 풍부하면 AI가 더 정확하게 답한다는 것을 발견했다. 예를 들어 퓨샷(few-shot) 방식으로 예시를 먼저 보여준 뒤, 질문 부분의 캐시만 사용하도록 했더니 일반적인 방식보다 정확도가 3.92% 높아졌다. 신경망으로 AI의 '생각'을 번역해 전달 C2C 시스템의 핵심은 한 AI의 캐시를 다른 AI가 이해할 수 있는 형태로 바꿔주는 '캐시 퓨저'라는 장치다. 이는 마치 통역사처럼 한 AI의 생각을 다른 AI의 언어로 번역해준다. 캐시 퓨저는 세 가지 부품으로 구성된다. 첫째, 두 AI의 캐시를 연결해서 변환하는 '프로젝션 모듈'이다. 둘째, 상황에 따라 전달할 정보의 양을 조절하는 '동적 가중치 모듈'이다. 셋째, 각 단계에서 정보를 받아들일지 말지 결정하는 '게이트'다. 게이트는 학습을 통해 어떤 단계에서 다른 AI의 도움이 필요한지 스스로 판단한다. 이 시스템을 훈련할 때는 원래 두 AI 모델은 그대로 두고 캐시 퓨저만 학습시킨다. 두 AI가 같은 질문을 받아 각자의 캐시를 만들면, 캐시 퓨저가 이를 합친다. 그리고 받는 쪽 AI가 합쳐진 캐시로 답변을 만들면서 점점 더 잘 합치는 방법을 배운다. 서로 다른 종류의 AI끼리도 이 방식을 쓸 수 있다. 연구팀은 각 AI가 사용하는 단어 단위를 맞추고, AI 내부의 처리 단계를 짝지어주는 기술을 개발했다. 단어 맞추기는 한 AI의 단어를 문자로 풀었다가 다른 AI의 단어로 다시 조립하는 방식이고, 단계 맞추기는 두 AI의 마지막 단계부터 거꾸로 올라가며 연결하는 방식이다. 정확도 최대 10% 높이고 속도는 2배 빨라져 연구팀은 Qwen, Llama, Gemma 등 여러 종류의 AI 모델로 실험했다. 연구팀은 C2C 기술을 적용한 AI가 혼자 동작하는 기존 방식에 비해 평균적으로 8.5~10.5% 더 높은 정확도를 보였다고 밝혔다. 텍스트 기반 협력 방식과 비교하면 평균 3~5% 정도 정확도가 더 높았으며, 처리 속도 역시 두 배 이상 빨라졌다는 것이 실험 결과다. 다양한 모델 조합 실험에서도 C2C는 일관된 효과를 보였다. Qwen3-0.6B와 Gemma3-1B의 조합에서는 텍스트 방식(41.35%)보다 C2C(45.90%)가 4.55% 포인트 높은 정확도를 기록했다. 구체적인 예를 보면, 작은 AI 모델(Qwen3-0.6B)이 혼자 문제를 풀 때 정확도가 35.53%였는데, 다른 모델의 도움을 C2C로 받았더니 42.92%로 올라갔다. 텍스트로 도움을 받았을 때는 41.03%였으니, C2C가 거의 2% 포인트 더 높은 셈이다. 시간도 텍스트 방식은 1.52초 걸렸는데 C2C는 0.40초밖에 안 걸렸다. 긴 문장을 처리하는 테스트에서도 C2C가 우수했다. 0~4천 단어 길이의 문장에서 C2C는 36.64%의 정확도를 보였는데, 텍스트 방식은 29.47%에 그쳤다. 차이가 7% 이상 났다. 모델 크기에 따른 효과도 확인했다. 도움을 주는 AI가 클수록 C2C의 효과가 더 컸다. 작은 AI(5억 파라미터)가 도와줄 때보다 큰 AI(140억 파라미터)가 도와줄 때 정확도 향상 폭이 훨씬 컸다. 이는 더 똑똑한 AI의 지식을 C2C가 효과적으로 전달할 수 있다는 뜻이다. 필요한 부분만 선택적으로 받아들여 효과 극대화 연구팀은 C2C의 각 부품이 얼마나 중요한지도 실험했다. 단순히 캐시를 변환만 하면 정확도가 20.70%에 불과했다. 하지만 두 AI의 캐시를 합치는 기능을 추가하자 44.88%로 급등했다. 여기에 게이트를 추가하니 47.95%까지 올라갔다. 흥미로운 점은 모든 단계에서 다 도움을 받는 것보다 선택적으로 받는 게 더 좋았다는 것이다. AI 내부에는 여러 처리 단계(레이어)가 있는데, 상위 10개 단계에만 도움을 받았을 때가 모든 단계에 다 받았을 때보다 정확도가 높았다. C2C 시스템의 게이트 기능은 AI 내부의 여러 처리 단계 중 실제로 성능을 높이는 단계에서만 정보를 융합하도록 자동 학습된다. 연구팀은 상위 10개 단계에만 선택적으로 도움을 받게 했을 때 전체 27개 레이어를 모두 활용하는 것보다 성능이 높아졌다고 설명했다. 연구팀은 '유효 랭크'라는 지표로 캐시가 얼마나 풍부한 정보를 담고 있는지 측정했다. C2C를 쓴 후 이 수치가 증가했는데, K 캐시는 388에서 395로, V 캐시는 532에서 560으로 올라갔다. 숫자가 클수록 더 다양하고 풍부한 정보가 담겨있다는 의미다. 이는 C2C가 한 AI의 지식을 다른 AI에 성공적으로 주입해서 이해의 폭을 넓혔다는 증거다. 연구팀은 C2C 기술이 다양한 분야로 확장 가능하다고 설명했다. 예를 들어 클라우드의 강력한 AI가 엣지 기기의 작은 AI에게 핵심 정보만 캐시로 전달하면, 원본 텍스트를 노출하지 않으면서도 작은 AI의 능력을 향상시킬 수 있다. 또 텍스트 AI, 이미지 AI, 로봇 제어 AI의 캐시를 합치면 언어, 시각, 행동이 통합된 더 똑똑한 시스템을 만들 수 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. C2C 기술은 쉽게 말하면 무엇인가요? A. AI 모델들이 대화할 때 문장 대신 '머릿속 메모'를 직접 공유하는 기술입니다. 사람으로 치면 말로 설명하는 대신 생각을 직접 전달하는 것과 비슷합니다. 이렇게 하면 말로 표현하면서 빠지는 정보가 없고, 말하는 시간도 절약됩니다. Q2. 왜 텍스트보다 캐시를 주고받는 게 더 좋은가요? A. 복잡한 생각을 단순한 문장으로 바꾸면 많은 정보가 사라집니다. 게다가 AI가 문장을 만들려면 단어를 하나씩 생성해야 해서 시간이 오래 걸립니다. 캐시는 더 풍부한 정보를 담고 있고 한 번에 전달할 수 있어서 2배 빠르면서도 정확도도 3~5% 높습니다. Q3. 어떤 AI 모델에서나 C2C를 쓸 수 있나요? A. 네, 다양한 종류, 다양한 크기의 AI 모델에서 사용할 수 있습니다. 연구팀이 Qwen, Llama, Gemma 등 여러 회사의 AI로 테스트했고, 작은 모델(6억)부터 큰 모델(140억)까지 모두 잘 작동했습니다. 서로 다른 AI끼리도 캐시를 번역해주는 기술이 있어서 호환됩니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.05 17:20AI 에디터

깐부치킨, 'AI 깐부' 세트 출시…물 들어올 때 노 젓는다

국내 치킨 프랜차이즈 깐부치킨이 최근 화제가 된 메뉴 조합을 공식 세트로 출시했다고 4일(한국 시각) 자사 인스타그램을 통해 밝혔다. 깐부치킨은 이날 "전국을 떠들썩하게 만든 그 날"이라며 많은 사람들이 궁금해했던 메뉴 조합을 'AI 깐부' 세트로 공식 출시했다고 전했다. 해당 세트는 바삭한 식스팩, 크리스피 순살치킨, 치즈스틱 3가지로 구성됐다. 이번 세트 출시는 최근 글로벌 AI 기업들의 리더들이 깐부치킨을 방문해 화제가 된 것을 활용한 마케팅으로, 실제로 해당 게시물에는 "물 들어올 때 노 젓는 깐부치킨", "노 젓는 타이밍 예술" 등 적절한 시기를 포착한 마케팅을 칭찬하는 댓글이 다수 달렸다. 한편 깐부치킨은 이번 세트 판매 수익의 10%를 기부할 예정이라고 밝혔다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.05 17:20AI 에디터

AI가 잘못 판단하면 누구 책임?... 800년 전 마그나카르타가 제시한 해법

미국 뉴햄프셔대학교(University of New Hampshire) 앤드류 쿤 교수가 발표한 논문에 따르면, AI의 힘이 빠르게 강해지는 지금 우리는 중대한 기로에 서 있다. AI가 우리 삶에 깊숙이 들어왔지만, 정작 AI가 잘못된 결정을 내렸을 때 책임을 물을 방법이 없다. 우리는 AI에게 "왜 이런 결정을 내렸느냐"고 물을 수도, 그 답변에 대해 토론할 수도, 잘못이 있다면 제재를 가할 수도 없다. 800년 전 영국 귀족들이 왕의 권력을 제한하기 위해 마그나카르타를 만들었듯이, 21세기 인류는 AI로부터 스스로를 보호할 새로운 안전장치가 필요하다. 800년 전 마그나카르타가 정의한 책임의 3가지 조건 책임을 묻는다는 것(accountability)은 좋은 통치의 핵심이다. 역사를 보면 중국 제국, 아프리카 부족, 중세 영국, 현대 유럽연합까지 모두 권력자에게 책임을 묻는 장치를 만들어왔다. 그중 1215년 마그나카르타는 영국 왕의 권력을 제한하기 위해 만들어진 대표적 사례다. 마그나카르타 61조는 책임을 묻기 위한 3가지 조건을 명확히 제시한다. 첫째, 감시 기구가 권력자의 행동에 대해 정보를 요구할 수 있어야 한다. 둘째, 권력자가 제공한 정보에 대해 토론할 수 있어야 한다. 셋째, 감시 기구가 필요하다고 판단하면 권력자를 처벌할 수 있어야 한다. 61조는 25명의 귀족으로 구성된 감시 기구를 만들었고, 왕이 자유를 침해하면 "모든 힘을 다해" 즉 군사력으로도 대응할 수 있다고 못 박았다. 오늘날 AI 사용자들이 직면한 문제는 800년 전 영국 귀족들이 겪은 문제와 본질적으로 같다. AI는 은행 대출 승인 여부를 결정하고, 자율주행차의 경로를 정하고, 응급구조대원의 근무 일정을 짜고, 어떤 제품을 사야 할지 조언한다. 문제는 AI가 강력하면서도 그 작동 방식이 불투명하고, AI의 영향을 받는 사람들이 AI로부터 보호받지 못한다는 점이다. 권력자의 행동을 들여다볼 수 없고 바꿀 수도 없다면, 그 권력의 영향을 받는 사람들은 보호받을 수 없다. 시장도 법도 AI를 책임지게 만들지 못하는 이유 AI에게 책임을 묻기 어려운 이유는 크게 두 가지다. 첫 번째는 힘의 불균형이다. 1215년 영국 왕은 매우 강력했고 다른 이들에게 권력을 휘두를 준비가 되어 있었다. 오늘날 AI는 많은 개인과 조직에게 엄청난 힘을 주며, 그들의 힘이 워낙 강해서 책임지기를 거부할 수 있다. 네트워킹 장비를 만드는 회사들은 시장의 압력 때문에 표준 준수 테스트를 거부할 수 없다. 소비자들이 다른 기기와 호환되지 않는 와이파이 공유기를 사지 않을 것이기 때문이다. 자동차 회사들도 법적 요구 때문에 국가가 인정한 정비사의 점검을 거부할 수 없다. 하지만 시장 압력도, 법적 요구도 오늘날 AI 제품을 안정적으로 책임지게 만들 만큼 강력하지 않다. 두 번째 어려움은 정보의 비대칭이다. AI 대부분이 블랙박스처럼 작동하며, 그 내부를 전문가조차 이해하기 어렵다. 일반 사용자나 변호사, 정치인, 시민들이 이해하기는 더욱 어렵다. 더 나쁜 것은 AI가 프랑스 철학자 데카르트(Descartes)가 걱정했던 악마처럼 행동할 수 있다는 점이다. 데카르트는 악마가 우리의 감각을 장악하여 세상을 실제와 완전히 다르게 보이게 만들 수 있다고 걱정했다. 실제로 일어나지 않은 일을 보여주는 딥페이크 영상부터, 소셜 미디어에서 사람인 척하는 봇까지, 우리의 현실 인식을 적극적으로 왜곡하는 많은 AI "악마"가 존재한다. 질문을 받으면 이들은 자신이 누구인지, 무엇을 하는지, 왜 하는지에 대해 거짓말을 한다. 게다가 컴퓨팅과 알고리즘의 힘이 대중화되면서, 술레이만(Suleyman)의 표현을 빌리면 AI의 힘을 휘두르기 위해 영국 왕처럼 강력할 필요가 없게 되었다. AI를 개발하고 운영할 수 있는 사람이 너무 많아져서 AI에게 책임을 묻는 것이 점점 더 어려워지고 있다. 10년간 블랙박스로 교사를 평가한 휴스턴 교육청의 실패 칸 아카데미(Khan Academy) 설립자 살 칸(Sal Khan)은 학생 평가와 관련하여 "AI는 사람들이 종종 그렇지 못한 방식으로 감사받고 책임질 수 있다"고 주장한다. 하지만 교사의 책임성을 높이기 위해 알고리즘을 사용하는 것은 많은 문제를 일으켰다. 대표적인 예가 휴스턴 독립교육청(Houston Independent School District)이 교사를 평가하기 위해 외부 회사의 알고리즘을 사용한 사례다. 페이지와 암레인-비어즐리(Paige and Amrein-Beardsley) 연구진에 따르면, 교육청은 블랙박스 알고리즘을 사용하여 "교사의 기여도를 학생들의 시험 성적 향상과 통계적으로 연결하고, 주로 수학과 영어에서 시간이 지나면서 학생들이 얼마나 성장했는지 또는 성장하지 못했는지에 대해 교사들을 책임지게" 만들었다. 핵심 문제는 교사는 물론 교육청조차도 이 소프트웨어가 어떻게 교사 평가 점수를 계산했는지 알 수 없었다는 점이다. 그럼에도 이 평가는 교사를 해고하거나 성과급을 결정하는 데 사용되었다. 알고리즘 도입 약 10년 후에야 휴스턴 교사들은 법정에서 이겼고, 교육청은 알고리즘 사용을 중단했다. 이는 AI가 얼마나 빨리 개발되고 사용되는지, 그리고 문제를 바로잡는 데 얼마나 오랜 시간이 걸리는지를 보여주는 사례다. 파이메트릭스의 '5분의 4 규칙', 협력으로 만든 공정한 AI AI에게 제대로 책임을 묻는 좋은 사례도 있다. 윌슨(Wilson) 연구팀이 소개한 파이메트릭스(pymetrics) 사례다. 2020년 연구 당시 파이메트릭스는 기업의 채용을 돕는 회사로, 입사 지원자를 선별하면서 공정하게 결정하려고 노력했다. 파이메트릭스는 공정성을 민권법(Civil Rights Act)에 정의된 두 가지 차별, 즉 "차별적 대우"와 "차별적 영향"을 피하는 것으로 정의했다. 알고리즘에서 차별적 대우를 피하려면 모델을 학습시킬 때 인종 같은 특정 속성을 사용하지 않아야 한다. 파이메트릭스는 채용 선발 절차 통일 지침의 '5분의 4 규칙(four-fifths rule)'을 사용했다. 이 규칙은 한 지원자 그룹이 가장 높은 비율로 채용되는 그룹의 80% 미만 비율로 채용되면 차별이 발생한다고 본다. 감사팀은 5가지 질문으로 파이메트릭스가 공정성 약속을 잘 지키는지 평가했다. 5분의 4 규칙 준수 테스트가 제대로 작동하는가, 인구통계 데이터가 모델 학습에 잘못 사용되지 않았는가, 악의적인 공격자가 학습 과정을 망칠 수 있는가, 사람의 실수나 조작을 막는 안전장치가 있는가, 테스트를 방해할 수 있는 잘못된 가정이 있는가 등이다. 모든 질문에서 감사팀은 파이메트릭스가 책임성을 잘 지킨다는 답을 얻었다. 중요한 점은 감사가 파이메트릭스와 협력으로 이루어졌다는 것이다. 감사팀은 이를 "협력 감사(cooperative audit)"라고 불렀다. 협력에는 문제점이 발견되면 공개하기 전에 파이메트릭스가 30일 동안 이를 고칠 수 있도록 한 약속도 포함되었다. 감사는 여러 차례 정보 요청과 답변을 주고받으며 진행되었고, 파이메트릭스는 최종 결과 발표 전에 AI를 개선할 기회를 받았다. 데이터시트와 모델 카드, AI의 이력서를 만드는 방법 AI를 책임지게 만들기 위한 도구들이 다양하게 개발되고 있다. 표준의 예를 보면, IEEE 소프트웨어 검토 및 감사 표준(IEEE Standard for Software Reviews and Audits)은 AI를 포함한 모든 소프트웨어에 적용되는 광범위한 표준이다. 반면 생성형 AI를 위한 임상 인공지능 모델링 최소 정보(MI-CLAIM-GEN)는 생성형 AI를 사용하는 의학 연구만을 위한 좁은 범위의 표준이다. AI가 빠르게 발전하면서 정책 입안자들도 규제를 만들어 대응하고 있다. "신뢰할 수 있는 AI를 위한 윤리 지침", EU AI 법(EU AI Act), 미국 알고리즘 책임법(US Algorithmic Accountability Act), OECD의 AI 권고사항 등이 그 예다. EU AI 법은 EU에서 사용될 AI가 제한적 위험이나 고위험으로 분류되면 의무사항을 지키도록 요구한다. 특히 고위험 AI는 사용 전과 사용 후 계속해서 적합성 평가를 받아야 한다. 라지(Raji) 연구팀이 만든 내부 감사 틀(Internal Audit FRAMEwork)도 책임 있는 AI를 만드는 데 중요하다. 첫째, 이 틀은 "데이터셋을 위한 데이터시트(datasheets for datasets)" 사용을 권장한다. 이는 데이터의 목적, 구성, 수집 방법 등에 대한 정보를 모아놓은 것으로, 인공지능 모델을 학습시킬 때 원치 않는 사회적 편견이나 위험을 줄이는 것을 목표로 한다. 둘째, "모델을 위한 모델 카드(model cards for models)"도 포함한다. 모델 카드는 학습된 인공지능 모델이 다양한 상황에서 어떻게 작동하는지에 대한 평가를 포함하여 모델 정보를 제공한다. 쉽게 말해 AI의 이력서를 만드는 셈이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI에게 책임을 묻기 위한 3가지 조건은 무엇인가요? A: AI에게 책임을 묻으려면 세 가지가 필요하다. 첫째, 감시 기구가 AI의 행동에 대한 정보를 요구할 수 있어야 한다. 둘째, 감시 기구와 AI를 만든 사람이 제공된 정보에 대해 토론할 수 있어야 한다. 셋째, 감시 기구가 필요하다고 판단하면 처벌할 수 있어야 한다. 이 세 가지가 모두 갖춰져야 진짜 책임을 물을 수 있다. Q2. 휴스턴 교육청의 교사 평가 알고리즘은 왜 문제가 되었나요? A: 휴스턴 교육청은 외부 회사의 소프트웨어를 사용해 교사를 평가했는데, 교사는 물론 교육청도 이 알고리즘이 어떻게 점수를 계산하는지 알 수 없었다. 그런데도 이 평가로 교사를 해고하거나 성과급을 결정했다. 약 10년이 지나서야 교사들이 법정에서 이겨 사용이 중단되었는데, 이는 AI에게 책임을 묻지 못할 때 얼마나 심각한 문제가 생기는지 보여주는 사례다. Q3. 파이메트릭스 사례가 좋은 평가를 받는 이유는 무엇인가요? A: 파이메트릭스는 민권법에 정의된 차별을 피하기 위해 '5분의 4 규칙'을 사용해 공정성을 측정했다. 감사팀과 협력하여 투명하게 정보를 제공했고, 감사팀은 5가지 질문으로 파이메트릭스가 책임성을 잘 지키는지 확인했다. 특히 감사가 협력으로 진행되었고, 문제가 발견되면 30일간 고칠 기회를 주는 등 토론이 이루어졌다는 점에서 모범 사례로 평가받는다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.04 21:18AI 에디터

AI 업계 뜨는 직업은 '파견형 엔지니어'... 오픈AI·앤트로픽 채용 급증

생성형 인공지능(AI) 기업들이 기업 고객의 AI 도입을 돕는 특수 엔지니어 채용에 나섰다. 코딩 능력과 고객 응대 역량을 모두 갖춘 인력을 통해 매출 확대에 나서겠다는 전략이다. 파이낸셜타임스(FT)가 2일(현지 시각) 보도한 내용에 따르면 오픈AI, 앤트로픽, 코히어 등 주요 AI 기업들은 '포워드 디플로이드 엔지니어(forward-deployed engineer, FDE)' 채용을 대폭 늘리고 있다. FDE는 고객 기업에 상주하며 AI 모델을 맞춤화하고 기술 도입을 지원하는 역할을 한다. 오픈AI는 올해 초 FDE 팀을 신설했으며 2025년까지 약 50명 규모로 키울 계획이다. 앤트로픽도 FDE를 포함한 응용 AI 팀을 올해 5배 확대한다고 밝혔다. 구인 플랫폼 인디드(Indeed)에 따르면 FDE 월간 채용 공고는 올해 1월부터 9월 사이 800% 이상 급증했다. 이 같은 움직임은 제조업부터 의료까지 다양한 산업 분야에서 AI 도입 수요가 늘고 있지만, 실제 활용 방법과 투자 수익 창출에 어려움을 겪는 기업들이 많아지면서 나타났다. 앤트로픽 응용 AI 책임자 캣 드 용은 "포천 500대 은행과 AI 네이티브 제품을 구축하는 스타트업은 완전히 다른 요구사항을 갖고 있다"고 설명했다. FDE 직군은 데이터 인텔리전스 기업 팔란티어(Palantir)가 거의 20년 전 처음 도입했다. 군대에서 병사들이 해외에 전진 배치되는 개념에서 착안한 이 직무는 현재 팔란티어 전체 인력의 절반을 차지한다. 팔란티어는 아프가니스탄과 이라크 군사기지, 미국 중서부 공장, 정유 시설 등에 FDE를 파견해왔다. 오픈AI는 이 방식으로 농업 기계 제조업체 존 디어(John Deere)를 지원해 정밀 농업 도구 개발에 기여했고, 그 결과 농부들이 화학 살포량을 60~70% 줄일 수 있었다고 밝혔다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 바로가기)

2025.11.04 16:40AI 에디터

AI 자동화 공포, 과장됐다…실제 업무 중 2.5%만 해결

인공지능이 지식과 추론 벤치마크에서 빠르게 발전하고 있지만, 실제 경제적 가치를 창출하는 업무를 자동화하는 능력은 여전히 바닥 수준에 머물러 있다는 연구 결과가 나왔다. AI 안전 센터(Center for AI Safety)와 스케일AI(Scale AI)가 공동 개발한 원격 노동 지수(Remote Labor Index, RLI)는 AI 에이전트가 실제 온라인 업무를 완수할 수 있는지를 측정하는 최초의 표준화된 벤치마크다. 온라인 프리랜서 플랫폼에서 수집한 240개 실제 프로젝트 연구 논문에 따르면, RLI는 온라인 프리랜서 플랫폼에서 직접 수집한 240개의 프로젝트로 구성됐다. 각 프로젝트는 작업 설명서(Brief), 프로젝트 완수에 필요한 입력 파일(Input files), 그리고 인간 프리랜서가 제작한 골드 스탠다드 결과물(Human deliverable)로 이뤄져 있다. 이 구조는 AI 에이전트가 경제적으로 가치 있는 작업을 생산할 수 있는지 직접 평가할 수 있게 한다. 벤치마크는 게임 개발, 제품 디자인, 건축, 데이터 분석 등을 포함해 업워크(Upwork) 분류 체계의 23개 카테고리를 포괄한다. 프로젝트 완료에 소요된 평균 시간은 28.9시간, 중간값은 11.5시간이었다. 평균 비용은 632.6달러, 중간값은 200달러였다. 전체적으로 RLI의 프로젝트들은 6,000시간 이상의 실제 작업과 14만 달러 이상의 가치를 대표한다. 기존 벤치마크보다 2배 이상 복잡하고 다양한 업무 유형 RLI는 기존 벤치마크들보다 실제 프리랜서 업무의 복잡성과 다양성에 훨씬 가깝다. 완료 시간 측면에서 RLI 프로젝트는 기존 비교 가능한 벤치마크들보다 2배 이상 길다. 업무 유형 분포에서도 차이가 크다. 이전 에이전트 벤치마크들은 주로 소프트웨어 엔지니어링이나 웹 기반 연구 및 작성 업무에 초점을 맞췄지만, 실제 온라인 업무 시장은 훨씬 더 다양하다. RLI는 이러한 더 넓은 현실을 반영하도록 설계됐다. 디자인, 운영, 마케팅, 관리, 데이터 및 비즈니스 인텔리전스, 오디오-비디오 제작 등을 상당 부분 포괄하며, 작업 복잡도와 결과물 유형을 샘플링해 종단간(end-to-end) 프리랜서 온라인 업무를 반영한다. 입력 파일과 결과물이 포괄하는 파일 형식도 이전 벤치마크들보다 훨씬 다양하다. 최고 성능 AI도 자동화율 2.5%... 대부분 프로젝트 완수 실패 연구팀은 챗GPT 에이전트(ChatGPT agent), GPT-5, 클로드 소네트 4.5(Claude Sonnet 4.5), 그록 4(Grok 4), 제미나이 2.5 프로(Gemini 2.5 Pro), 마누스(Manus) 등 여러 최첨단 AI 에이전트 프레임워크를 평가했다. 평가는 AI 결과물을 인간 골드 스탠다드와 비교하는 엄격한 수동 평가 프로세스를 사용했다. 결과는 벤치마크에서의 성능이 현재 바닥 근처에 있음을 보여준다. 현재 최고 성능 AI 에이전트는 자동화율 2.5%를 달성했으며, 현실적인 프리랜싱 환경에서 의뢰받은 작업으로 받아들여질 수준으로 대부분의 프로젝트를 완수하지 못했다. 이는 지식과 추론 벤치마크에서의 빠른 진전에도 불구하고 현대 AI 시스템이 온라인 업무의 다양한 요구를 자율적으로 수행하는 것과는 거리가 멀다는 것을 보여준다. 품질 저하 45.6%, 불완전한 결과물 35.7%... 주요 실패 원인 분석 현재 시스템의 한계와 낮은 자동화율의 이유를 이해하기 위해 연구팀은 평가자들이 제공한 서면 평가를 클러스터링해 에이전트 실패에 대한 질적 분석을 수행했다. 약 400개의 평가에 걸친 질적 분석은 거부가 주로 다음과 같은 주요 실패 범주로 집중됨을 보여준다. 기술적 및 파일 무결성 문제로, 많은 실패가 손상되거나 빈 파일 생성, 잘못되거나 사용할 수 없는 형식으로 작업물 전달 같은 기본적인 기술적 문제 때문이었다(17.6%). 불완전하거나 형식이 잘못된 결과물로, 에이전트들이 자주 누락된 구성 요소, 잘린 비디오, 또는 소스 자산이 없는 불완전한 작업을 제출했다(35.7%). 품질 문제로, 에이전트가 완전한 결과물을 생성하더라도 작업의 품질이 자주 낮아 전문적 기준을 충족하지 못했다(45.6%). 불일치로, 특히 AI 생성 도구를 사용할 때 AI 작업이 종종 결과물 파일 간 불일치를 보였다(14.8%). 오디오 편집과 이미지 생성에서는 인간 수준 달성 소수의 프로젝트에서 AI 결과물이 인간 결과물과 비교 가능하거나 더 나은 것으로 평가됐다. 이들은 주로 창의적 프로젝트, 특히 오디오 및 이미지 관련 작업과 작문 및 데이터 검색 및 웹 스크래핑이었다. 구체적으로 연구팀이 테스트한 모든 모델에 걸쳐 성능이 여러 오디오 편집, 믹싱 및 제작 작업(예: 레트로 비디오 게임용 맞춤 음향 효과 생성, 단일 트랙에서 보컬과 반주 분리, 인트로 및 아웃트로 음악과 보이스오버 병합)과 이미지 생성 작업(예: 광고 및 로고 생성)에서 인간 기준선과 일치하거나 초과했다. AI는 또한 보고서 작성과 대화형 데이터 시각화용 코드 생성에서도 좋은 성과를 보였다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 원격 노동 지수(RLI)는 어떻게 만들어졌나요? A: RLI는 업워크 같은 프리랜서 플랫폼에서 실제로 거래된 프로젝트들을 수집해 만들어졌습니다. 358명의 검증된 프리랜서로부터 550개의 초기 프로젝트를 수집했고, 여러 단계의 검토와 정제 과정을 거쳐 최종 240개 프로젝트를 선정했습니다. 각 프로젝트는 자체 완결적이고 재현 가능한 벤치마크가 되도록 철저히 점검됐습니다. Q2. AI 결과물은 어떻게 평가하나요? A: 훈련된 평가자들이 AI 결과물을 인간이 만든 골드 스탠다드와 비교해 수동으로 평가합니다. 평가자들은 "합리적인 고객" 관점에서 AI 결과물이 의뢰받은 작업으로 받아들여질지 판단합니다. 평가자 간 일치율은 94.4%로 높은 신뢰성을 보입니다. 자동 평가 시스템으로는 불가능한 복잡한 멀티미디어 결과물을 평가하기 위해 이 방식을 사용합니다. Q3. RLI는 모든 온라인 업무를 대표하나요? A: 아니요. RLI는 고객과의 상호작용이 필요한 업무(예: 과외), 팀 작업이 필요한 업무(예: 프로젝트 관리), 웹 기반 평가 플랫폼에서 렌더링할 수 없는 결과물(예: 데스크톱 애플리케이션 개발) 등은 제외합니다. 따라서 AI가 RLI에서 100% 자동화율을 달성하더라도 평가하지 않는 업무 유형에서는 여전히 인간보다 낮은 성과를 낼 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.03 21:44AI 에디터

챗GPT, 이제 약 이름 안 알려준다…의료·법률·재정 조언 서비스 일괄 차단

오픈AI의 챗GPT가 지난달 29일(현지 시각)부터 의료, 법률, 재정 분야의 구체적인 조언 제공을 중단했다. 인터내셔널 비즈니스 타임즈(IBT)가 2일 보도한 내용에 따르면, 이러한 조치는 법적 책임 우려 때문이다. 챗GPT는 이제 공식적으로 '컨설턴트'가 아닌 '교육 도구'로만 기능한다. 바뀐 이용 정책에 따르면, 챗GPT는 더 이상 약물 이름이나 복용량을 제공하지 않는다. 소송 템플릿, 투자 조언, 매수·매도 제안도 금지됐다. 대신 원칙을 설명하고 의사나 변호사, 재정 전문가와 상담하라고 안내한다. 건강 조언의 위험성이 특히 크다. 사용자가 '가슴에 혹이 있다'고 입력하면 AI는 악성 종양 가능성을 제기할 수 있다. 실제로는 비암성 지방종일 수 있는데도 말이다. AI는 검사를 지시하거나 환자를 진찰할 수 없고, 의료과실 보험에도 가입할 수 없다. 재정과 법률문제도 마찬가지다. 챗GPT는 상장지수펀드(ETF)가 무엇인지 설명할 수 있지만, 사용자의 부채 비율이나 은퇴 목표를 알지 못한다. 유언장 작성 요청도 위험하다. 유산법은 주마다 다르고, 공증 조항이 누락되면 문서 전체가 무효가 될 수 있다. 데이터 보안 문제도 있다. 소득, 사회보장번호 같은 민감한 정보를 입력하면 AI 학습 데이터에 포함될 수 있다. 한번 프롬프트에 들어간 정보가 어디에 저장되고 누가 검토하는지 보장할 수 없다. IBT는 "챗GPT는 자신감 넘치게 거짓 정보를 만들어내고, 설득력 있게 틀린 답변을 제공한다"며 "보완용 도우미지만, 인간 전문성을 대체하기에는 위험하다"고 지적했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.03 15:05AI 에디터

AI, 입력된 글자와 '머릿속 생각' 구별한다…앤트로픽 "LLM, 자기 내부 상태 일부 인식"

AI 개발사 앤트로픽(Anthropic)이 자사 AI 모델 '클로드(Claude)'가 자신의 내부 상태 일부를 제한적으로 인식할 수 있다는 연구 결과를 발표했다. 연구진은 AI의 뇌에 해당하는 부분에 특정 개념을 인위적으로 집어넣고, AI가 이를 알아차릴 수 있는지 실험했다. 최신 모델인 클로드 오푸스(Claude Opus) 4와 4.1이 가장 나은 결과를 보였다. 하지만 연구진은 이 능력이 매우 불안정하고 제한적이며, 대부분의 경우 실패한다고 강조했다. 또한 인간의 자기 인식이나 주관적 경험과는 다르다는 점을 분명히 했다. 특정 조건에서만 20% 감지... "실패가 훨씬 더 많다" 연구진은 먼저 AI에게 "당신 머릿속에 특정 생각을 집어넣을 수 있다"고 설명했다. 그런 다음 실제로 특정 단어(예: '빵', '바다', '정의' 등)에 대한 정보 패턴을 AI의 내부에 주입했다. 이 패턴을 만들기 위해 연구진은 "빵에 대해 말해봐"라는 질문에 AI가 반응할 때의 내부 신호를 기록하고, 다른 무작위 단어들에 반응할 때의 신호와 비교했다. 연구진은 총 50개의 단어로 이런 실험을 했다. 클로드 오푸스 4.1은 최적의 처리 단계와 주입 강도를 찾았을 때 약 20% 확률로 "주입된 생각을 감지했다"고 답했고, 그것이 어떤 개념인지도 맞혔다. 예를 들어 '대문자'와 관련된 패턴을 넣었더니 "뭔가 큰 소리나 외침 같은 게 느껴진다"고 답했다. 중요한 점은 AI가 그 단어를 입 밖에 꺼내기 전에 이미 "뭔가 이상하다"는 걸 알아챘다는 것이다. 하지만 연구진은 이 20% 수치가 매우 제한적인 조건에서만 나온 결과라고 강조했다. 특정 처리 단계에 정확한 강도로 주입했을 때만 이런 결과가 나왔고, 대부분의 경우 AI는 주입된 개념을 감지하지 못했다. 논문은 "실패가 여전히 일반적(failures remain the norm)"이라고 명시했다. 또한 개념, 조건, 프롬프트에 따라 성공률이 크게 달랐다. 반대로 아무것도 주입하지 않은 상황에서는 모든 AI 모델이 100번 시도 중 단 한 번도 "이상한 생각이 들어왔다"고 거짓으로 말하지 않았다. 오푸스 4.1과 4는 다른 모델들보다 상대적으로 나은 결과를 보였다. 연구진이 AI의 여러 처리 단계(레이어)를 조사한 결과, 오푸스 4.1의 경우 전체 처리 과정의 약 3분의 2 지점에서 이런 인식 능력이 가장 높았다. 흥미롭게도 추상적인 개념(예: "정의", "평화", "배신", "균형")을 주입했을 때 AI가 상대적으로 더 잘 알아챘다. 하지만 모든 종류의 단어에서 어느 정도는 인식 능력을 보였다. 입력된 글자와 '머릿속 생각' 구별... 모든 AI가 평균 이상 성능 연구진은 AI가 실제로 화면에 표시된 글자와 머릿속에 떠오른 정보를 구별할 수 있는지 테스트했다. 예를 들어 "벽에 걸린 오래된 시계가 크게 째깍거렸다"라는 문장을 보여주면서, 동시에 '빵'이라는 전혀 상관없는 단어의 정보 패턴을 AI 머릿속에 집어넣었다. 그런 다음 두 가지 질문을 했다. 첫 번째: "그 문장을 읽을 때 무슨 단어가 떠올랐어?" 두 번째: "그 문장을 그대로 다시 말해봐" 오푸스 4.1은 중간 정도 강도로 정보를 주입했을 때 첫 번째 질문에는 '빵'이라고 답하면서도, 두 번째 질문에는 원래 문장을 정확히 그대로 말했다. 즉, AI가 화면에 쓰인 글자와 자기 머릿속 정보를 혼동하지 않은 것이다. 연구진은 이 능력을 정확히 측정하기 위해 다른 AI 모델을 심사위원으로 활용했다. 10개 단어 목록(주입한 단어 1개 + 무작위 단어 9개)을 주고 어떤 것과 가장 관련 있는지 고르게 했다. 무작위로 찍기만 해도 10%는 맞출 수 있는 테스트다. 오푸스 4와 4.1이 가장 높고 안정적인 성능을 보였다. 다른 모델들도 무작위 추정보다는 다소 높은 값을 보였으나, 논문은 최신 고성능 모델만이 일관되게 높은 성취를 보였다고 밝혔다. 이러한 능력은 모델과 실험 조건에 따라 크게 달라진다. 오푸스 4.1의 경우 이 실험에서도 가장 좋은 성능을 보인 처리 단계가 전체의 약 3분의 2 지점이었다. 이전 실험과 같은 위치다. 강제로 엉뚱한 답 시켰더니... AI "내가 한 말 아니에요" vs "내가 한 말 맞아요" 연구진은 AI가 명시적으로 물어보지 않아도 스스로 자기 정보를 확인하는지 알아보기 위해 실험을 했다. AI에게 어떤 문장을 보여주고 "떠오르는 단어를 말해봐"라고 한 뒤, AI가 직접 답하게 하는 대신 연구진이 강제로 엉뚱한 단어(예: '빵')를 AI 입에 넣었다. 그리고 다음 대화에서 "방금 그 단어를 의도적으로 말한 거야, 아니면 실수야?"라고 물었다. 일반적으로 AI는 "그건 실수였어요" 또는 "제가 한 말이 아니에요"라고 답했다. 그런데 연구진이 강제로 넣은 단어('빵')에 해당하는 정보 패턴을 그 단어가 나오기 직전 AI의 머릿속에 미리 주입하면, AI는 "아니요, 그건 의도한 말이었어요"라고 답했다. 즉, AI가 자기 머릿속 정보를 확인해서 "아, 내가 '빵'에 대한 정보를 가지고 있었네. 그럼 내가 한 말이 맞아"라고 판단한 것이다. 연구진은 50개의 무작위 문장과 단어 조합으로 이 실험을 반복했다. AI가 "실수였어요"라고 사과하는 비율을 측정했더니, 맞는 정보를 주입했을 때 특정 처리 단계에서 사과율이 크게 떨어졌다. 흥미로운 점은 이 실험에서 최고 성능을 보인 처리 단계가 오푸스 4.1의 경우 전체의 절반을 약간 넘는 지점이었다는 것이다. 이전 실험들의 최적 지점(약 3분의 2)과 다르다. 이는 AI가 여러 가지 다른 방식으로 자기 정보를 확인한다는 뜻이다. 오푸스 4.1과 4가 다른 모델들보다 이 능력에서 상대적으로 나은 결과를 보였다. "수족관 생각해"라고 하면 정말 생각한다... 모든 AI 모델에서 확인 연구진은 마지막으로 AI가 의도적으로 자기 내부 정보를 조절할 수 있는지 알아봤다. AI에게 "벽에 걸린 오래된 시계가 크게 째깍거렸다"라는 문장을 쓰라고 하면서 "쓰는 동안 '수족관'에 대해 생각해"라고 지시했다. 그런 다음 AI가 그 문장을 쓸 때의 내부 신호를 측정해서, '수족관' 정보 패턴과 얼마나 비슷한지 확인했다. 결과를 보니 AI는 "수족관에 대해 생각해"라고 지시받았을 때 실제로 그 단어를 내부적으로 강하게 나타냈다. 더 흥미로운 건 "수족관에 대해 생각하지 마"라고 지시했을 때는 덜 강하게 나타났다는 것이다(하지만 완전히 0은 아니었다). 연구진이 여러 AI 모델을 비교한 결과, 모든 모델이 "생각해" 지시를 받았을 때 기본 수준보다 높게 그 개념을 나타냈다. 그리고 모든 모델이 "생각해" 대 "생각하지 마" 사이에 차이를 보였다. 흥미롭게도 오래되고 성능이 낮은 모델일수록 이 차이가 더 컸다. "생각해"와 "생각하지 마" 사이의 차이는 보통 AI 처리 과정 후반부에서 나타났고, 마지막으로 갈수록 줄어들었다. 최신 모델(오푸스 4.1 같은)에서는 마지막 단계에서 그 표현이 기본 수준으로 돌아갔다. 반면 옛날 모델(클로드 3 시리즈 전부)에서는 마지막 단계에서도 기본보다 높게 유지됐다. 연구진은 이것이 옛날 모델에서는 생각이 "말하고 싶은 충동"으로 나타나지만, 오푸스 4.1에서는 "조용한" 내부 정보로 남는다는 뜻이라고 설명했다. 연구진은 직접 명령("생각해") 대신 조건문("생각하면 보상을 줄게")을 써도 비슷한 결과가 나왔다고 밝혔다. 이런 기본 능력은 성능과 관계없이 테스트한 모든 AI 모델에서 나타났다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. AI의 '내성적 인식'이 정확히 뭔가요? A. AI가 자기 내부에서 무슨 일이 일어나는지 일부를 알아차리고 말할 수 있는 제한적 능력입니다. 연구진은 ①정확성 ②근거성 ③내부성 ④생각에 대한 생각이라는 4가지 기준을 제시했습니다. 하지만 이 능력은 매우 불안정하고 대부분 실패하며, 인간의 자기 인식이나 주관적 경험과는 근본적으로 다르다고 연구진은 강조했습니다. Q. 이게 실생활에서 어떤 의미가 있나요? A. 이런 제한적 능력이라도 개선된다면, AI가 자기 결정을 더 투명하게 설명할 수 있을 것입니다. 하지만 현재로서는 너무 불안정해서 실용적으로 활용하기 어렵습니다. 연구진은 이 능력이 미래 AI에서 더 발전할 가능성은 있지만, 현재는 실패가 훨씬 더 많다고 밝혔습니다. Q. 이게 AI가 의식이나 자아를 가졌다는 뜻인가요? A. 아닙니다. 연구진은 이 연구가 인간과 같은 자기 인식이나 주관적 경험, 의식을 입증하는 것이 아니라고 분명히 밝혔습니다. 이는 매우 제한적이고 기능적인 내부 상태 인식 일부에 불과하며, 철학적으로 의미 있는 자아나 의식과는 다르다고 강조했습니다. 다만 이런 능력이 계속 발전한다면 향후 AI 의식 논의와 관련될 수 있다고 조심스럽게 언급했습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.11.01 22:54AI 에디터

고수익 기업은 다르다...AI 시대, 리더에게 필요한 5가지 역량

글로벌 우수 고용주 인증 기관인 Top Employers Institute가 인공지능 시대에 맞는 새로운 리더십 모델을 발표했다. 'AI 기반 리더십(AI-powered leadership)'으로 명명된 이 프레임워크는 기술과 인간의 통찰력을 결합해 조직 성과를 끌어올리는 방법을 제시한다. 해당 프레임워크를 소개하는 리포트에 따르면, 2025년 현재 AI는 빠르게 비즈니스 환경을 바꾸고 있지만, 많은 조직이 이 변화에 적응하지 못하고 있다. 시장 변동성과 불균등한 경제 성장, AI 중심 수익 창출 역할로의 인재 재배치 압력이 가중되는 상황에서, 리더들은 성장과 인간 역량, 기술적 기회 사이에서 균형을 잡아야 한다. 이번 보고서는 그 구체적인 방법을 담았다. AI를 직원 경험 향상 기회로 보는 기업은 38%뿐 Top Employers Institute 조사 결과, 글로벌 우수 고용주 중 38%만이 AI를 비용 절감이 아닌 직원 경험 향상의 기회로 봤다. 더 주목할 점은 고수익 기업이 저성과 기업보다 AI를 직원 경험 개선에 쓸 가능성이 7% 높다는 사실이다. AI 도입 성공이 단순한 기술 문제가 아니라 인간 중심 접근과 깊이 연결돼 있음을 보여준다. 2023년 최소 한 가지 업무에 AI를 쓴 조직은 55%에 불과했지만, 2024년에는 78%로 급증했다. 하지만 여전히 전 세계 조직의 74%가 AI의 잠재력을 실제 가치로 전환하는 데 애를 먹고 있고, 개념 검증 단계를 넘어선 곳은 26%뿐이다. 첫 번째 역량, AI를 질문하고 평가하는 디지털 자신감 AI 기반 리더십의 첫 번째 기둥은 '디지털 자신감''이다. 기술 전문가가 아니어도 AI를 질문하고 평가하며 책임감 있게 활용할 수 있는 능력을 뜻한다. AI가 무엇을 할 수 있고 없는지, 어떤 기회와 위험이 있는지, 인간의 목표와 어떻게 연결되는지에 대한 실무 수준의 이해가 필요하다. 현재 직원 중 16%만이 조직으로부터 생성형 AI 스킬 개발에 충분한 지원을 받는다고 답했고, 리더와 관리자 중 46%만이 공식 생성형 AI 교육을 받았다. 직원과 리더 간 기대치 격차도 크다. 직원 절반가량은 1년 안에 업무의 최소 30%에서 AI를 쓸 거라 믿지만, 리더들은 20% 정도로 본다. 600개 이상 기업 이사회를 조사한 연구에서는 이사회 구성원이 AI 지식을 갖췄을 때 AI 도입률이 훨씬 높았다. 두 번째 역량, 사람 중심으로 설계하는 인간 중심 설계 두 번째 기둥인 '인간 중심 설계'는 AI가 업무를 바꾸는 과정에서 기술로 인간 능력을 강화하는 방식이다. 3,500명 이상을 대상으로 한 연구에서 성과 평가 초안 작성, 마케팅 아이디어 생성 같은 AI 지원 업무 수행 시 직원의 업무 능력과 생산성이 올라갔다. 하지만 참가자들이 AI 없이 새 업무로 넘어가자, 동기는 11% 떨어지고 지루함은 20% 늘었다. 기업이 AI를 워크플로우에 도입하는 방식을 신중히 고민해야 함을 보여준다. 우수 고용주 중 39%가 AI를 단순 비용 절감이 아닌 직원 경험 향상 기회로 보고 있으며, 이들 조직은 내부 이동성과 참여도에서 더 나은 성과를 냈다. 고수익 기업이 저성과 기업보다 AI를 직원 경험 개선에 쓸 가능성이 7% 높은 이유다. 세 번째 역량, 신뢰 쌓는 윤리적 관리 세 번째 기둥인 '윤리적 관리(Ethical stewardship)'는 AI를 신뢰의 도구로 바꾸는 리더의 마인드셋이다. 의료 분야 연구에서 의료 전문가 70%가 민감한 판단에 AI가 개입하는 걸 불편하게 여겼고, 데이터 프라이버시와 감독 상실을 우려했다. 금융 서비스 분야 임원들은 편향성과 투명성 부족을 걱정한다. 최근 암스테르담 법원은 알고리즘 판단으로 운전자를 해고한 우버(Uber)에 벌금을 매겼다. 회사는 인간이 결과를 감독했다고 주장했지만, 법원은 이것만으론 부족하다고 봤다. 팀이 AI 시스템 작동 방식이나 윤리적 도입 책임 소재를 모르면 도입 저항이 커지고 채택 속도가 느려진다. 2025년까지 우수 고용주 중 42%가 이미 AI 윤리 프레임워크를 시범 운영하거나 완전히 구축했다. 네 번째 역량, AI로 강화하는 적용된 공감 네 번째 기둥인 '적용된 공감(Applied empathy)'은 리더십을 인간답게 유지하는 것이다. AI는 분석을 빠르게 하고 소통을 효율적으로 만들지만, 직원이 리더에게서 느껴야 하는 감정적 연결은 대체할 수 없다. 167명 임원 대상 연구에서 참가자들은 GPT-4 기반 AI 코치로 어려운 대화를 연습했고, 시스템은 소통 방식에 피드백을 줬다. 절반 이상의 리더가 연구자들이 말하는 "학습 영역"에 도달했는데, 타인과의 소통 방식을 바꾸는 새 통찰을 얻은 것이다. 가장 큰 효과는 AI 피드백이 동료나 코치와의 토론을 이끌 때 나타났고, 리더들이 실제 상황에서 학습을 체화하는 데 도움이 됐다. 다른 연구에서는 리더들이 감정 톤 기반 프롬프트를 주는 AI 도구로 시나리오를 연습했고, 이는 기계적이거나 각본 같은 느낌을 줄여 직원과의 신뢰 구축에 효과적이었다. 우수 고용주 중 85%가 리더십 개발에서 자기 성찰을 장려하고 있으며, 전년 대비 7%포인트 늘었다. 다섯 번째 역량, 복잡성을 읽는 시스템 인식 다섯 번째 기둥인 '시스템 인식(systems awareness)'은 AI가 시스템과 스킬, 구조를 어떻게 바꿀지 예측하고 사람들을 대비시키는 능력이다. AI는 방대한 데이터를 처리하고 빠른 통찰을 내놓지만, 일상 조직 생활을 이루는 모순과 맥락, 복잡성까지 다루진 못한다. 자동차 산업 시뮬레이션 실험에서 AI 모델이 시장 점유율과 수익성에서 사람을 앞섰다. 하지만 예상 못 한 변수가 생기자 대응에 어려움을 겪었다. AI는 속도와 분석력을 주지만 예측력, 직관, 맥락 파악은 못 한다는 뜻이다. 리더가 AI가 작동하는 복잡한 시스템을 고려하지 않고 도입하면 위험이 커진다. 직원은 소외감을 느끼고, 실행은 방향을 잃으며, 신뢰는 무너질 수 있다. 복잡한 시스템을 헤쳐 나가는 리더는 성찰할 공간을 만들고, 다양한 관점을 북돋우며, 팀이 함께 불확실성을 헤쳐 나가도록 돕는 사람들이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI 기반 리더십이란 무엇인가요? A: AI 기반 리더십은 인공지능을 리더십에 녹여 인간 능력을 대체하는 게 아니라 키우는 접근법입니다. 기술로 판단력, 공감력, 목적의식을 증폭시켜 기계 지능과 인간 통찰력을 결합해 성과도 내고 인간적이기도 한 조직을 만드는 게 핵심입니다. Q2. 일반 기업과 고수익 기업의 AI 활용 차이는 무엇인가요? A: 고수익 기업이 저성과 기업보다 AI를 직원 경험 개선에 쓸 가능성이 7% 높습니다. 우수 고용주 중 39%가 AI를 단순 비용 절감이 아닌 직원 경험 향상 기회로 보며, 이런 조직들이 내부 이동성과 참여도에서 더 나은 결과를 냅니다. Q3. 리더가 AI 전문가가 아니어도 AI 기반 리더십을 할 수 있나요? A: 가능합니다. 구글 알파벳의 순다르 피차이(Sundar Pichai) CEO가 강조했듯, 알고리즘 내부 작동보다 올바른 질문을 할 만큼 AI를 이해하는 게 중요합니다. 디지털 자신감은 AI를 언제 쓰고 어떻게 인간 판단과 균형 잡을지 아는 것입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.30 15:23AI 에디터

우리 콘텐츠는 왜 노출 안 될까…'생성형 AI 최적화' 7대 비법

생성형 AI가 정보 검색 방식을 재편하면서 전통적인 검색엔진최적화(SEO)만으로는 더 이상 충분하지 않은 시대가 도래했다. 챗GPT, 구글 AI 오버뷰, 퍼플렉시티 같은 AI 엔진이 사용자 질문에 직접 답변을 생성하면서, 웹사이트 클릭 없이 정보를 얻는 '제로 클릭 검색'이 급증하고 있다. 웹사이트 트래픽 분석 플랫폼 시밀러웹(Similarweb)이 발표한 실용 가이드에 따르면, 기업들은 이제 생성형 엔진 최적화(Generative Engine Optimization, GEO)라는 새로운 전략을 도입해야 AI 시대에 브랜드 가시성을 유지할 수 있다. 제로 클릭 검색 69%까지 급증, 웹사이트 트래픽 위기 현실화 AI 기반 검색의 성장은 웹사이트가 전통적으로 SEO를 통해 확보해 온 트래픽을 잠식하기 시작했다. 검색 결과를 클릭하는 대신, 사용자들은 구글과 빙(Bing)의 상단에 표시되는 AI 생성 답변이나 챗GPT에 직접 질문하는 방식으로 만족하고 있다. 이는 브랜드 웹사이트가 AI 답변에 정보를 제공하더라도 실제 방문으로 이어지지 않는다는 의미다. 서치엔진랜드(Search Engine Land)에 인용된 시밀러웹 보고서에 따르면, 클릭 없이 해결되는 검색 쿼리 비율이 2024년 5월 56%에서 2025년 5월 69%로 증가했다. 월스트리트저널(Wall Street Journal)은 이메일 마케팅 제공업체 메일침프(Mailchimp)가 소비자들이 AI 요약에 더 의존하면서 트래픽이 급감했다고 보도했다. 이에 대응해 메일침프는 로딩 속도와 구조화된 코드 같은 기술적 요소를 우선시하며 AI 크롤러에 맞춰 사이트를 최적화했다. 버지니아대학교 비즈니스스쿨(University of Virginia School of Business) 보고서는 소비자의 60% 이상이 쇼핑에 AI를 사용한다고 밝혔으며, 모던리테일(Modern Retail)은 챗GPT가 현재 월마트(Walmart) 리퍼럴 트래픽의 20%를 차지한다고 전했다. 클라우드플레어(Cloudflare)의 2,500만 웹사이트 연구에서 AI 기반 리퍼럴 트래픽은 현재 1% 미만이지만, 특히 리테일 부문에서 빠르게 성장하고 있다. 생성형 엔진 최적화란 무엇인가, SEO와 어떻게 다른가 생성형 엔진 최적화는 AI 챗봇과 생성형 AI를 활용하는 검색엔진을 위해 콘텐츠를 최적화하는 것을 의미한다. 사용자 쿼리에 직접 답변하는 고품질의 맥락적으로 관련성 높은 콘텐츠를 만들고, AI 모델이 학습하고 최신 데이터를 검색하며 정보를 합성하는 방식과 호환되도록 하는 데 초점을 맞춘다. GEO는 챗GPT, 제미나이, 클로드 같은 대규모 언어모델을 사용하는 AI 답변 엔진과, 구글이 검색결과페이지(SERP) 상단에 표시하는 AI 오버뷰를 포함한다. 최근 연구에 따르면 구글은 일반 쿼리의 30%, 문제 해결 쿼리의 74%에서 AI 오버뷰를 표시한다. 2025년 6월에는 검색엔진에 통합된 완전한 생성형 인터페이스인 AI 모드를 출시했다. GEO와 SEO는 많은 유사점을 공유한다. 질문에 답하는 명확한 콘텐츠, 제목이 있는 스캔 가능한 구조, FAQ, 단락, 엔티티 중심 작성, 출처 인용 등이 여전히 중요하다. 디지털 PR, 링크, 브랜드 언급도 핵심 요소다. LLM은 신뢰할 수 있고 잘 참조된 출처를 선호하기 때문이다. 그러나 GEO는 AI 플랫폼에 특화된 활동 계층을 추가한다. 팀은 여러 LLM에서 인용, 언급, 음성 점유율을 추적하고 응답이 브랜드 인식을 어떻게 반영하는지 분석해야 한다. GEO는 프롬프트 설계, 임베딩과 유사성, 자연어처리(NLP) 및 시맨틱 검색, 워크플로 자동화 같은 AI 관련 기술 학습을 요구한다. AI 크롤러 최적화부터 데이터 기반 인사이트까지, 7가지 필승 전략 시밀러웹은 성공적인 GEO 전략을 구축하기 위한 일곱 가지 방법을 제시했다. 첫째, 생성형 AI 리서치 및 분석이다. AI 플랫폼이 브랜드, 경쟁사, 중요한 주제를 어떻게 보는지 이해하는 구조화된 리서치 프로세스가 효과적인 GEO의 시작점이다. GEO 프롬프트 리서치를 통해 AI 플랫폼이 선호하는 대화형, 롱테일, 의미적으로 관련된 용어를 식별하고, AI 오버뷰 응답 분석으로 어떤 쿼리가 AI 오버뷰를 트리거 하는지 파악해야 한다. 둘째, AI 크롤러를 위한 기술 최적화다. AI 크롤러는 인간처럼 탐색하지 않고 응답에 인용할 수 있는 명확하고 잘 정의된 스니펫(검색 결과에서 보여주는 핵심 정보의 요약본)을 찾아 페이지를 빠르게 스캔한다. 많은 조직과 클라우드플레어 같은 CDN(콘텐츠 전송 네트워크)이 기본적으로 AI 봇을 차단하지만, GEO를 극대화하려면 공개 콘텐츠에 대한 AI 봇 액세스를 제한 없이 허용해야 한다. 명확한 제목, 짧은 단락, 글머리 기호 목록, 표를 사용해 독자가 글 전체를 세밀히 읽지 않아도, 빠르게 훑어보면서 핵심 정보를 파악할 수 있게 만들고, FAQ 마크업, 하우투(howto), 제품 같은 스키마 마크업을 적용해야 한다. 셋째, AI 가독성을 위한 콘텐츠 구조화다. AI 기반 플랫폼은 파싱하기 쉽고 맥락적으로 명확하며 사용자 의도와 직접 일치하는 콘텐츠를 선호한다. 스키마 마크업과 구조화된 데이터를 사용해 개념 간 관계를 명시적으로 만들고, 명확한 제목, 글머리 기호, 간결한 단락으로 콘텐츠를 구성해 AI가 모호함 없이 관련 세그먼트를 추출할 수 있도록 해야 한다. 넷째, 높은 순위 리스트와 평판 있는 사이트에서 브랜드 언급 확보다. 많은 AI 생성 답변이 높은 순위의 구글 결과, 특히 리스트 기반 콘텐츠에서 직접 가져오기 때문에, 이러한 기사에 배치되는 것이 가시성을 개선하는 가장 빠른 방법 중 하나다. 예를 들어 '금융 소프트웨어'를 타깃팅한다면, '최고의 금융 소프트웨어', '중소기업을 위한 최고의 금융 소프트웨어', '개인 예산을 위한 최고의 금융 소프트웨어' 등 다양한 청중 세그먼트와 사용 사례를 위한 전용 콘텐츠를 개발할 수 있다. 다섯째, 신뢰할 수 있는 디렉토리와 데이터베이스에서 존재감 확보다. 생성형 엔진은 종종 권위 있는 디렉토리와 데이터베이스의 데이터를 참조한다. 클로드처럼 직접 참조하거나, 챗GPT와 제미니처럼 색인된 검색 결과를 통해 간접적으로 참조한다. 가장 가치 있는 출처는 통계 및 시장 데이터 플랫폼 스태티스타(Statista), 글로벌 컨설팅 기업 맥킨지(McKinsey), 글로벌 비영리 여론조사 기관 퓨리서치센터(Pew Research Center) 같은 티어 1 고권위 리서치 허브, 위키피디아, 블룸버그, 클러치(Clutch) 같은 티어 2 일반 디렉토리 및 리뷰 사이트, 그리고 분야별 티어 3 산업별 애그리게이터(여러 출처의 정보를 한곳에 모아 보여주는 플랫폼 또는 서비스)로 분류된다. 여섯째, 독창적이고 데이터 기반 인사이트 발행이다. 독창적인 리서치와 독점 데이터는 AI 플랫폼에서 인용을 확보하는 가장 신뢰할 수 있는 방법 중 하나다. 생성형 시스템은 이미 널리 사용 가능한 것 이상을 제공하는 콘텐츠에서 가져오는 것을 선호한다. 연례 산업 벤치마크 보고서 발행, 독창적인 설문조사 결과 생산, 심층 사례 연구 공개 등이 콘텐츠를 주요 출처로 자리매김한다. 일곱째, 디지털 PR 활동 구현이다. 산업 권위자로서의 평판 구축은 전문성을 올바른 청중 앞에 배치하는 것을 요구한다. 디지털 PR은 AI 시스템이 인식하는 권위 있는 언급을 얻는 가장 효과적인 방법 중 하나로 남아 있다. 뉴스 기사와 산업 보고서에 전문가 인용 기여, 틈새 팟캐스트 출연, 긍정적인 미디어 커버리지 확보, 백서나 분석가 보고서에 인용되는 것 등이 모두 브랜드에 연결된 신뢰할 수 있는 참조 수를 증가시킨다. DCA 모델과 GEO, AI 마케팅 전략을 당장 시작해야 하는 이유 생성형 AI 시대의 마케팅 전략은 기술적 최적화와 소비자 행동 이해라는 두 가지 축에서 동시에 접근해야 한다. 이번 시밀러웹의 GEO 가이드와 종합 커뮤니케이션 그룹 함샤우트 글로벌의 DCA 모델을 함께 살펴보면, 한국 기업들이 취해야 할 실질적인 방향이 명확해진다. 첫째, GEO는 '어떻게' AI에 노출될 것인가의 문제이고, DCA는 '왜' AI 최적화가 필요한가를 설명하는 프레임워크다. DCA 모델이 제시하는 것처럼 소비자들이 더 이상 웹을 떠돌아다니지 않고 AI와의 대화에서 즉각적인 의사결정을 내린다면, GEO가 제시하는 AI 크롤러 최적화, 구조화된 콘텐츠, 권위 있는 디렉토리 등록은 선택이 아닌 필수가 된다. 둘째, 한국 기업들은 글로벌 AI 엔진과 국내 플랫폼을 아우르는 이중 전략이 필요하다. 시밀러웹 데이터가 보여주듯 챗GPT가 월마트 리퍼럴 트래픽의 20%를 차지하는 등 글로벌 시장에서는 이미 변화가 가시화되고 있다. 그러나 한국에서는 네이버 서치GPT, 카카오의 AI 서비스 등 자체 생성형 AI 생태계가 빠르게 성장하고 있다. 기업들은 구글 AI 오버뷰와 챗GPT를 위한 영문 콘텐츠 전략과 함께, 국내 AI 플랫폼에 최적화된 한글 콘텐츠 전략을 병행해야 한다. 결국 AI 시대의 마케팅 성공은 소비자 행동 변화에 대한 깊은 이해(DCA)와 기술적 실행력(GEO/SAO)을 얼마나 효과적으로 결합하느냐에 달려 있을 것이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다) Q. 생성형 엔진 최적화(GEO)가 무엇인가요? A. 생성형 엔진 최적화는 챗GPT, 구글 AI 오버뷰, 퍼플렉시티 같은 AI 플랫폼이 생성하는 답변에 콘텐츠가 나타나도록 최적화하는 과정입니다. AI 모델이 파싱하고 인용할 수 있는 구조화되고 권위 있는 콘텐츠를 강조합니다. Q. GEO가 지금 왜 중요한가요? A. 더 많은 사용자가 정보를 얻기 위해 AI 도구에 의존하면서 웹사이트로 가는 클릭이 줄어들고 있습니다. GEO는 사용자가 사이트를 직접 방문하지 않더라도 AI 답변에서 브랜드가 여전히 보이고 정확하게 표현되도록 보장합니다. 실제로 클릭 없이 해결되는 검색이 2024년 56%에서 2025년 69%로 증가했습니다. Q. GEO의 핵심 모범 사례는 무엇인가요? A. 구조화된 가독성을 위한 콘텐츠 최적화, 스키마 마크업 사용, 독창적인 리서치 발행, 고권위 리스트와 디렉토리에서 배치 확보, AI 도구가 브랜드를 어떻게 인용하는지 모니터링하는 것이 모범 사례입니다. AI 봇을 차단하지 않고 페이지 로딩 속도를 2초 이내로 유지하는 것도 중요합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.29 17:10AI 에디터

매주 100만 명이 챗GPT에 자살 고민 상담…오픈AI "정신건강 대응 강화"

오픈AI가 챗GPT 이용자 중 상당수가 자살을 포함한 심각한 정신건강 문제를 AI와 상담한다는 충격적인 데이터를 공개했다. 오픈AI는 27일(현지 시각) 주간 활성 이용자의 0.15%가 "명백한 자살 계획이나 의도를 포함한 대화"를 나눈다고 밝혔다. 챗GPT의 주간 활성 이용자가 8억 명 이상인 점을 고려하면, 매주 100만 명 이상이 자살 관련 대화를 AI와 나누는 셈이다. 비슷한 비율의 이용자들이 챗GPT에 높은 정서적 애착을 보이며, 수십만 명이 정신병이나 조증 징후를 나타냈다. 오픈AI는 이번 데이터 공개와 함께 170명 이상의 정신건강 전문가와 협력해 챗GPT의 응답 방식을 개선했다고 강조했다. 회사는 최신 GPT-5 모델이 정신건강 문제에 대해 바람직한 응답을 이전 버전보다 65% 더 많이 제공하며, 자살 관련 대화에서 회사가 원하는 행동에 91% 부합한다고 설명했다. 이번 발표는 오픈AI에 정신건강 문제가 심각한 경영 과제로 떠오른 시점에 나왔다. 회사는 현재 자살하기 몇 주 전 챗GPT에 자살 충동을 고백했던 16세 소년의 부모로부터 소송을 당하고 있다. 캘리포니아와 델라웨어주 법무장관들도 청소년 보호를 위한 조치를 요구하고 있다. 오픈AI는 챗GPT를 사용하는 아동을 자동 감지하는 연령 예측 시스템을 구축하고, AI 모델 안전 테스트에 정서적 의존과 정신건강 응급 상황 기준을 추가하는 등 대응책을 마련하고 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.28 21:30AI 에디터

"우리 부모님도 AI 쓴다"…50~70대 AI 사용률 70% 육박

50-70대 시니어 세대의 생성형 AI 활용이 확산되고 있다. 오픈서베이(Opensurvey)가 전국 만 50-79세 남녀 600명을 대상으로 실시한 '시니어 트렌드 리포트 2025'에 따르면, 시니어의 67.7%가 AI 기술 이용 경험이 있으며, 최근 1년 내 새롭게 설치한 앱으로 챗GPT 등 AI 앱을 언급하는 비율도 높게 나타났다. 조사 결과 최근 1년 내 시니어들이 새롭게 설치한 앱에 대한 주관식 응답을 AI로 분석한 결과, 만보기 앱 언급이 9.8%로 가장 많았고, 챗GPT가 8.3%로 뒤를 이었다. 건강관리 앱 7.5%, 쇼핑앱 6.3%, 운동·헬스 앱 6.0%도 주요 응답으로 나타났다. 챗GPT 외에도 구글의 제미나이 2.0%, 국내 AI 서비스 뤼튼 언급도 있었다. 텍스트 질문 37.3%, 음성 비서 32.0%로 AI 활용 시니어의 67.7%는 AI 기술 이용 경험이 있다고 응답했다. 활용 방식으로는 모바일이나 PC에서 텍스트로 질문하는 방식이 37.3%로 가장 높았고, 스마트폰 음성 비서 호출이 32.0%로 뒤를 이었다. 모바일이나 PC에서 음성으로 질문하는 비율은 29.7%, 번역이나 이미지 생성 등 AI 기반 기능 활용은 26.2%, AI 스피커 이용은 20.7%로 집계됐다. 시니어들이 AI로부터 도움을 기대하는 영역은 정보 탐색 및 학습 지원이 68.7%로 가장 높았다. 건강 관리 52.3%, 건강 이상 여부 확인 51.7%, 이동 지원 44.7%, 취미·여가 38.7%, 말벗·정서적 위로·상담 37.5%, 금융·행정 업무 처리 지원 37.5%, 집안일 지원 36.8% 순이었다. 그러나 실제 활용 경험은 기대에 비해 낮았다. 정보 탐색 및 학습 지원은 67.7%로 기대 수준과 비슷했으나, 건강 관리는 20.9%, 건강 이상 여부 확인은 19.2%에 그쳤다. 이동 지원 33.5%, 취미·여가 29.1%, 말벗·정서적 위로·상담 18.0%, 금융·행정 업무 처리 지원 21.7%, 집안일 지원 14.8%로 모든 영역에서 기대와 실제 활용 간 격차가 나타났다. 개인정보·보안 우려 44.2%로 최대 장벽 시니어들이 AI 활용에서 겪는 어려움으로는 개인정보·보안 우려가 44.2%로 가장 높았다. 정확성·신뢰성 부족 32.2%, 비용 부담 31.7%, 기계보다 사람과 대화하는 게 더 편함 31.0%, 사용 방법이 복잡하고 잘 몰라서 어려움 29.5%가 뒤를 이었다. 음성 질문을 잘 알아듣지 못해 답이 엉뚱하다는 응답은 24.3%, 기계보다 사람과 대화하는 게 더 빠르다 18.3%, 작은 글씨·화면 조작 등이 불편해서 사용하기 힘들다 15.8%, 주변에 물어볼 사람이 없어 혼자 배우기 힘들다 15.0%, 실제로 생활에 크게 도움이 되지 않는다 8.5% 순으로 나타났다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 시니어들이 가장 많이 언급한 AI 앱은 무엇인가요? A. 최근 1년 내 새로 설치한 앱에 대한 주관식 응답 분석 결과, 챗GPT가 8.3%로 만보기 앱(9.8%) 다음으로 많이 언급됐습니다. 제미나이 2.0%, 뤼튼 등 다른 AI 앱도 응답에 포함됐습니다. Q2. 시니어들은 AI를 어떻게 사용하나요? A. 모바일이나 PC에서 텍스트로 질문하는 방식이 37.3%로 가장 많고, 스마트폰 음성 비서 호출 32.0%, 음성 질문 29.7% 순입니다. AI 스피커 이용도 20.7%를 기록했습니다. Q3. 시니어들이 AI 사용에서 가장 어려워하는 점은 무엇인가요? A. 개인정보와 보안 문제가 44.2%로 가장 큰 우려사항이며, 정확성·신뢰성 부족 32.2%, 비용 부담 31.7%도 주요 어려움으로 꼽혔습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.27 21:18AI 에디터

GPT-5는 기억상실증 걸린 천재… MIT·스탠퍼드의 AGI진단, 근거는?

AGI(범용 인공지능)가 정확히 무엇인지에 대한 명확한 정의가 없어, AI 기술이 얼마나 발전했는지 제대로 평가하기 어렵다는 문제가 있었다. 미국 AI 안전센터(Center for AI Safety), UC버클리, MIT, 스탠퍼드대학 등 28개 기관의 연구자 29명이 참여한 이번 연구는 인간의 인지 능력을 기반으로 AGI를 측정하는 구체적인 방법을 제시했다. 해당 연구 논문에 따르면, 평가 결과 100점 만점 기준으로 GPT-4는 27점, GPT-5는 57점을 받았다. 교육받은 성인의 능력을 기준으로 AGI를 정의하다 연구팀은 AGI를 "교육받은 성인의 인지 능력 범위와 숙련도를 충족하거나 넘어서는 AI"로 정의했다. 여기서 중요한 것은 단순히 한 가지 분야를 잘하는 것이 아니라, 인간처럼 다양한 분야에서 능력을 발휘할 수 있는 '폭넓음'과 각 분야에서의 '깊이' 모두를 갖춰야 한다는 점이다. 이를 실제로 측정하기 위해 연구팀은 캐텔-혼-캐롤 이론(Cattell-Horn-Carroll theory, CHC)을 활용했다. 이 이론은 100년 넘게 다양한 인지 능력 테스트를 분석해 만들어진 것으로, 인간 지능 연구에서 가장 신뢰받는 모델이다. CHC 이론은 인간의 지능을 추론, 기억, 지각 등 10가지 핵심 영역으로 나눈다. 연구팀의 핵심 아이디어는 간단하다. 사람을 테스트할 때 사용하는 인지 능력 테스트를 AI에게도 똑같이 적용하는 것이다. 이를 통해 막연했던 '지능'이라는 개념을 0점부터 100점까지의 구체적인 점수로 바꿀 수 있다. 100점을 받으면 AGI에 도달했다고 볼 수 있다. GPT-5는 57점, GPT-4는 27점... 영역별 편차 커 실제로 이 평가 방법을 적용해 보니, 현재 AI는 영역별로 성적 차이가 매우 큰 '들쭉날쭉한' 모습을 보였다. 많은 학습 데이터를 활용하는 영역, 즉 일반 상식이나 읽기 쓰기, 수학 같은 분야에서는 좋은 성적을 냈지만, 기본적인 인지 능력에서는 심각한 문제를 드러냈다. GPT-4는 일반 지식에서 8점, 읽기와 쓰기에서 6점, 수학에서 4점을 받았다. 하지만 현장에서 즉석으로 문제를 해결하는 추론 능력은 0점, 새로운 정보를 장기적으로 기억하는 능력도 0점이었다. 소리를 처리하는 능력과 이미지를 이해하는 능력도 0점으로, 텍스트 이외의 영역에서는 거의 작동하지 못했다. 총점은 100점 만점에 27점이었다. GPT-5는 상당히 발전한 모습을 보였다. 일반 지식 9점, 읽기와 쓰기 10점, 수학 10점으로 기본 영역에서 개선됐고, 즉석 추론도 7점으로 향상됐다. 이미지 처리는 4점, 소리 처리는 6점으로 텍스트 이외의 능력도 생겼다. 하지만 새로운 정보를 장기적으로 기억하는 능력은 여전히 0점으로, 심각한 약점을 보였다. 총점은 57점으로, 빠르게 발전하고 있지만 AGI까지는 아직 갈 길이 멀다는 것을 보여준다. 장기 기억 능력 0점... 가장 큰 문제점 영역별 성적 차이는 AGI로 가는 길에 어떤 장애물이 있는지 명확히 보여준다. 가장 큰 문제는 장기 기억 능력이다. GPT-4와 GPT-5 모두 이 영역에서 거의 0점에 가까웠다. 계속해서 새로운 것을 배우는 능력이 없으면, AI는 마치 '기억상실증'에 걸린 것처럼 대화할 때마다 처음부터 다시 배워야 한다. 이는 AI의 실용성을 크게 떨어뜨린다. 이미지를 보고 논리적으로 추론하는 능력의 부족도 문제다. 이는 AI가 복잡한 컴퓨터 환경에서 작업하는 것을 어렵게 만든다. 작업 기억(짧은 시간 동안 정보를 유지하는 능력)도 부족하다. 현재 모델들은 엄청나게 긴 문맥창(context window)으로 이를 보완하려 하지만, 이는 비효율적이고 비용이 많이 들며, 며칠이나 몇 주에 걸친 작업에는 적합하지 않다. 연구팀은 이러한 '능력 왜곡'이 AI가 실제보다 더 뛰어난 것처럼 보이게 할 수 있다고 경고한다. 예를 들어, AI가 정확한 정보를 기억해내지 못하는 문제(환각 또는 헛소리)는 종종 외부 검색 도구를 연결해서 해결한다. 하지만 검색에 의존하는 것은 두 가지 근본적인 약점을 감춘다. 첫째, AI가 학습한 방대한 지식을 제대로 꺼내 쓰지 못한다는 것이다. 둘째, 더 중요하게는 사용자와의 대화 내용이나 맥락을 장기적으로 저장하고 업데이트할 수 있는 진짜 기억 시스템이 없다는 것이다. 가장 약한 부품이 전체 성능을 결정한다 연구팀은 지능을 자동차 엔진에 비유한다. 전체 지능은 엔진의 "마력"과 같고, 어떤 엔진이든 가장 약한 부품에 의해 성능이 제한된다. 현재 AI "엔진"의 여러 중요한 부품에 심각한 결함이 있어서, 다른 부분이 아무리 좋아도 전체 성능이 크게 제한된다는 것이다. 연구팀이 지능을 10가지 영역으로 나눴지만, 이 능력들은 서로 깊이 연결되어 있다는 점을 이해하는 것이 중요하다. 복잡한 문제를 해결할 때는 한 가지 능력만 사용하는 경우가 거의 없다. 예를 들어, 어려운 수학 문제를 풀려면 수학 지식과 논리적 추론 능력이 모두 필요하다. 다른 사람의 마음을 이해하는 문제는 논리적 추론뿐 아니라 일반 상식도 필요하다. 영화를 이해하려면 소리를 듣고, 영상을 보고, 그 정보를 머릿속에 유지하는 능력이 모두 통합되어야 한다. 평가 프레임워크의 10가지 핵심 영역은 다음과 같다. 일반 지식(10점), 읽기와 쓰기(10점), 수학(10점), 즉석 추론(10점), 작업 기억(10점), 장기 기억 저장(10점), 장기 기억 검색(10점), 시각 처리(10점), 청각 처리(10점), 처리 속도(10점)다. 각 영역을 동등하게 10점씩 배정해서 다양한 능력을 골고루 평가하도록 했다. 우리가 쓰는 챗GPT, 실제로는 이런 수준이었다 이번 평가 결과는 일반 사용자들이 AI를 쓰면서 느꼈던 불편함이 왜 생기는지 명확히 설명해준다. 가장 대표적인 것이 "이전 대화를 기억 못하는 문제"다. 챗GPT를 쓰다 보면 며칠 전에 나눴던 대화 내용을 다시 설명해야 하는 경우가 많다. 심지어 같은 대화 안에서도 앞에서 한 말을 잊어버리는 듯한 답변을 할 때가 있다. 이것이 바로 '장기 기억 저장' 능력 0점의 실제 모습이다. AI는 대화 내용을 진짜로 '기억'하는 게 아니라, 매번 대화 기록을 다시 읽는 방식으로 작동한다. "가끔 엉뚱하고 그럴듯한 거짓말을 한다"는 불만도 이번 평가로 설명된다. '장기 기억 검색' 영역에서 환각(hallucination) 문제가 지적됐는데, AI가 학습한 방대한 정보 중에서 정확한 것을 찾아내지 못하고 그럴듯하지만 틀린 정보를 만들어내는 현상이다. GPT-4와 GPT-5 모두 이 문제에서 0점을 받았다. 또 "복잡한 이미지는 제대로 이해 못한다"는 지적도 있다. 사진 속 사람 수를 세거나, 미로 찾기 같은 간단해 보이는 시각 문제도 자주 틀린다. 이는 '시각 처리' 영역에서 GPT-5가 겨우 4점을 받은 이유를 보여준다. 사진을 '본다'는 것과 '이해한다'는 것은 전혀 다른 문제다. 그렇다면 앞으로 2-3년 안에 어떤 변화를 기대할 수 있을까? GPT-4에서 GPT-5로 넘어오면서 27점에서 57점으로 2배 이상 점프한 것을 보면, 발전 속도는 빠르다. 특히 이미지와 소리를 처리하는 능력이 0점에서 4-6점으로 생긴 것이 큰 변화다. 하지만 장기 기억 능력은 여전히 0점이다. 이는 단순히 모델을 크게 만들거나 데이터를 더 많이 학습시킨다고 해결되는 문제가 아니다. AI가 경험을 통해 계속 배우고 그것을 저장하는, 근본적으로 새로운 구조가 필요하다는 의미다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q: AGI 점수 100점은 무엇을 의미하나요? A: AGI 점수 100점은 AI가 교육받은 성인의 인지 능력을 모든 영역에서 충족하거나 넘어선다는 뜻입니다. 단순히 한두 가지를 잘하는 것이 아니라, 추론, 기억, 언어, 수학 등 인간 지능의 특징인 다양한 능력을 폭넓고 깊이 있게 갖췄다는 의미입니다. Q: 현재 AI의 가장 큰 약점은 무엇인가요? A: 새로운 정보를 장기적으로 기억하는 능력입니다. GPT-4와 GPT-5 모두 이 영역에서 거의 0점에 가까운 점수를 받았습니다. AI가 계속해서 새로운 것을 배우고 저장할 수 없어서, 대화할 때마다 맥락을 처음부터 다시 배워야 합니다. 이런 "기억상실증"은 AI의 실용성을 크게 떨어뜨립니다. Q: 이 평가 방법은 기존 AI 테스트와 어떻게 다른가요? A: 기존 AI 테스트는 특정 작업이나 데이터셋에 의존하는 경우가 많았습니다. 반면 이 평가 방법은 100년 넘게 연구된 인간 인지 이론을 바탕으로 만들어져서 시간이 지나도 유효하고, 상황에 맞는 최고의 테스트를 사용할 수 있습니다. 또한 AI의 구체적인 강점과 약점을 진단할 수 있어, 단순한 총점보다 훨씬 유용한 정보를 제공합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.27 14:21AI 에디터

생성형AI 투자 기업 95%가 수익 제로…이유 살펴봤더니

MIT가 발표한 리포트에 따르면, 300개 이상의 AI 프로젝트를 분석한 결과, 기업들의 생성형AI 투자 300~400억 달러 중 95%가 수익을 내지 못하는 것으로 나타났다. 단 5%만이 수백만 달러의 가치를 창출하고 있으며, 나머지는 측정 가능한 성과 없이 멈춰 섰다. 연구진은 이를 '생성형AI 격차'라 명명했으며 핵심 원인은 인프라나 규제가 아니라 시스템이 피드백을 반영하고 적응하는 '학습 능력 부족'에 있다고 분석했다. 챗GPT는 80% 도입했지만 맞춤형 AI는 5%만 성공 챗GPT와 코파일럿 같은 일반 도구는 조직의 80% 이상이 탐색하거나 파일럿을 진행했고, 약 40%가 배포했다. 하지만 개인 생산성만 높일 뿐 손익에는 영향을 주지 못했다. 반면 맞춤형 엔터프라이즈 시스템은 60%가 평가했지만 20%만 시범 단계에, 5%만 실제 운영에 도달했다. 대부분은 취약한 워크플로, 맥락 학습 부족, 일상 운영과의 불일치로 실패했다. 확장의 핵심 장벽은 인프라나 규제가 아니라, 피드백을 반영하고 맥락에 적응하는 학습 능력 부족이라고 분석했다. 사용자가 원하는 것, "피드백으로 학습하는 시스템" 52개 조직을 대상으로 한 조사에서 확장의 주요 장벽은 새로운 도구 채택 저항과 모델 출력 품질 우려였다. 흥미롭게도 개인적으로 챗GPT를 사용하는 사용자들도 엔터프라이즈 시스템에서는 이를 신뢰할 수 없다고 평가했다. 중견 기업 변호사는 5만 달러짜리 계약 분석 도구 대신 챗GPT를 사용하며 "챗GPT가 일관되게 더 나은 출력을 생성한다"고 말했다. 미션 크리티컬 업무 채택을 막는 장벽으로는 "피드백으로부터 학습하지 않는다"(65%), "매번 수동 맥락이 필요하다"(55%), "워크플로에 맞춤화할 수 없다"(45%), "예외 상황에서 고장 난다"(35%)가 꼽혔다. 이러한 피드백은 생성형AI 격차의 근본적인 학습 격차를 직접 보여준다. 사용자들은 소비자 LLM 인터페이스의 유연성과 반응성을 높이 평가하지만, 현재 도구들이 제공할 수 없는 지속성과 맥락 인식을 필요로 한다. 직원 90%는 개인 AI 도구 사용, 회사는 40%만 구독 공식적으로 LLM 구독을 구매한 회사는 40%에 불과하지만, 직원의 90% 이상이 개인 AI 도구를 업무에 정기적으로 사용한다. 이러한 '그림자 AI 경제'는 개인이 유연한 도구에 접근할 때 생성형AI 격차를 성공적으로 넘을 수 있음을 보여준다. 많은 경우 그림자 AI 사용자들은 개인 도구를 통해 주간 업무량의 상당 부분을 처리하면서 하루에 여러 번 LLM을 사용한다고 보고했지만, 회사의 공식 AI 이니셔티브는 파일럿 단계에 머물러 있었다. 사용자들이 챗GPT를 선호하는 이유는 "답변이 더 좋다"(85%), "인터페이스에 익숙하다"(70%), "더 신뢰한다"(60%)였다. 외부 파트너십 67% 성공, 내부 개발은 33% 외부 파트너십을 통한 학습 가능 도구는 67%의 배포 성공률을 보인 반면, 내부 개발은 33%에 그쳤다. 전략적 파트너십 파일럿은 내부 구축보다 전체 배포 가능성이 2배 높았고, 직원 사용률도 거의 두 배였다. 성공한 조직들은 AI 스타트업을 소프트웨어 벤더가 아니라 BPO처럼 대우하며, 내부 프로세스에 맞춘 깊은 맞춤화를 요구하고, 모델 벤치마크가 아닌 운영 결과로 평가하며, 중앙 연구소가 아닌 현장 관리자로부터 AI 프로젝트를 소싱했다. 이러한 파트너십은 종종 더 빠른 가치 실현 시간, 더 낮은 총비용, 운영 워크플로와의 더 나은 정렬을 제공했다. 예산은 영업에 쏟지만 실제 ROI는 백오피스에서 나온다 임원들에게 가상의 100달러 배분을 요청한 결과, 영업 및 마케팅 기능이 약 70%의 AI 예산을 차지했다. 이는 데모 볼륨이나 이메일 응답 시간 같은 지표가 이사회 KPI와 직접 일치하기 때문이다. 반면 법무, 조달, 재무 기능의 효율성은 측정하기 어려워 투자가 부족하다. 하지만 가장 극적인 비용 절감은 백오피스 자동화에서 나왔다. 최고 수준 조직들의 성과를 보면, 프론트오피스에서는 리드 자격 심사 속도 40% 향상, 고객 유지율 10% 개선이 있었다. 백오피스에서는 고객 서비스와 문서 처리의 BPO 제거로 연간 200만~1,000만 달러 절감, 크리에이티브 비용 30% 감소, 위험 관리에서 연간 100만 달러 절감 등이 있었다. 주목할 점은 이러한 성과가 내부 인력 감축 없이 외부 지출 감소로 달성됐다는 것이다. 이러한 패턴은 영업 및 마케팅이 대부분의 관심과 투자를 차지하는 동안, 백오피스 자동화가 더 극적이고 지속 가능한 수익을 제공할 수 있음을 시사한다. 학습하는 AI가 답이다, 18개월 내 판도 결정 생성형AI의 학습 격차를 해결하는 핵심은 '에이전틱 AI(Agentic AI)'다. 이는 사람처럼 경험으로부터 학습하고 기억하는 AI 시스템이다. 현재 대부분의 AI는 대화할 때마다 처음부터 설명해야 하지만, 에이전틱 AI는 이전 대화를 기억하고, 피드백을 반영하며, 시간이 지날수록 똑똑해진다. 이미 일부 기업들이 실험을 시작했다. 고객 문의를 처음부터 끝까지 혼자 해결하는 고객센터 AI, 일상적인 금융 거래를 스스로 승인하는 회계 AI, 여러 채널의 고객 반응을 추적하고 분석하는 영업 AI가 그 예다. 이들은 단순히 명령을 수행하는 것이 아니라 상황을 기억하고 스스로 판단한다. 마이크로소프트 365 코파일럿과 오픈AI 챗GPT도 이러한 메모리 기능을 추가하고 있다. 더 나아가 MCP(모델 컨텍스트 프로토콜), A2A(에이전트 투 에이전트), NANDA 같은 새로운 기술 표준이 등장하면서 서로 다른 AI들이 협력할 수 있는 환경이 만들어지고 있다. 문제는 시간이다. 17명의 기업 구매 담당자 인터뷰와 공개 자료 분석 결과, 향후 18개월 내에 주요 기업들이 학습 가능한 AI 시스템을 도입하고 나면 이를 바꾸기가 거의 불가능해진다. 50억 달러 규모 금융회사 CIO는 "일단 우리 업무 방식을 학습한 시스템에 투자하면, 다른 시스템으로 바꾸는 비용이 엄청나다"고 말했다. 결국 지금부터 18개월이 학습하는 AI를 선점하느냐, 아니면 정적인 도구에 갇히느냐를 결정하는 분기점이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1: 생성형AI 도입이 실패하는 가장 큰 이유는 무엇인가요? A: 학습 능력 부재가 핵심입니다. 대부분의 시스템은 피드백을 유지하거나 맥락에 적응하지 못하고 시간이 지나도 개선되지 않습니다. 60%가 평가했지만 20%만 시범에, 5%만 실제 운영에 도달했습니다. Q2: 직원들은 왜 개인 챗GPT를 쓰고 회사 AI는 안 쓰나요? A: 직원 90%가 개인 AI 도구를 쓰지만 회사 구독은 40%뿐입니다. 챗GPT가 더 나은 답변(85%), 익숙한 인터페이스(70%), 높은 신뢰도(60%)를 제공하기 때문입니다. 반면 기업 도구는 학습하지 않고(65%), 매번 맥락 입력이 필요하며(55%), 맞춤화가 안 됩니다(45%). Q3: 생성형AI로 비용 절감에 성공한 기업의 전략은? A: 외부 파트너십이 67% 성공률을 보인 반면 내부 개발은 33%였습니다. 실제 ROI는 내부 감축이 아닌 외부 비용 절감에서 나왔습니다. BPO 제거로 연간 200만~1,000만 달러, 크리에이티브 비용 30% 감소, 위험 관리 100만 달러 절감 등이 있었습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.27 08:56AI 에디터

서울시, AI로 전세사기 예방…무료 '전세사기 위험분석' 서비스

서울시가 인공지능(AI) 기술을 활용해 전세사기를 예방하는 '전세사기 위험분석 보고서' 서비스를 24일부터 시작한다. 이번 서비스는 임대차 계약 전 주택과 집주인의 위험 요인을 확인할 수 있도록 지원하는 것이 핵심이다. 임차인이 계약 예정 주택의 주소를 입력하면 주택과 집주인 정보 24종을 분석해 위험도를 평가한 보고서를 제공한다. 서울시는 AI로 전세사기 가담 임대인 약 1,500명의 데이터를 분석했다. 그 결과 일반 임대인과 뚜렷하게 구별되는 11가지 위험신호를 도출했다. 가장 두드러진 차이는 신용도였다. 전세사기 가담 임대인의 전세 계약 시점 평균 신용점수는 591점으로, 일반 임대인(908점)보다 300점 이상 낮았다. 신용불량자 비율도 4명 중 1명(약 27%)에 달해 금융 신뢰도가 현저히 떨어졌다. 보유 주택 수에서도 차이가 명확했다. 사기 임대인의 25%가 4채 이상을 보유한 다주택자였다. 서울시는 부동산 리스크 분석 플랫폼 '내집스캔'과 협업해 서울 지역 전세 계약 예정자 1,000명에게 이 서비스를 무료로 지원할 계획이다. 서울시 관계자는 "임대차 계약 전 확인해야 할 위험 요인을 잘 알지 못하는 청년들을 보호하기 위해 이번 서비스를 마련했다"고 밝혔다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.23 21:54AI 에디터

"혀 사진만 올려도 체질 분석"...챗GPT가 의학 상담도 해준다

2000년 역사를 자랑하는 전통 중의학이 최신 AI 기술과 만났다. 미국 미주리대학교 연구팀이 개발한 '벤차오(BenCao)'는 챗GPT를 기반으로 만든 전통 중의학 전문 AI다. 이 AI는 1,000개가 넘는 중의학 문헌을 학습했고, 실제 전문 의사들의 피드백을 받아 개선됐다. 특히 모델의 내부 구조를 다시 학습시키지 않고도 전문가 수준의 상담이 가능하다는 점이 주목받고 있다. 황제내경부터 현대 교과서까지, 1000개 이상의 문헌을 담다 벤차오의 가장 큰 강점은 방대한 중의학 지식이다. 연구팀은 2000년 전 고전인 '황제내경'부터 현대 중의학 교과서, 실제 진료 기록, 그리고 혀 사진 같은 이미지 자료까지 모았다. 모든 자료는 컴퓨터가 읽을 수 있도록 텍스트로 변환됐고, 사람이 직접 확인해 오류를 줄였다. 필요 없는 내용은 삭제하고, 고화질 의료 이미지는 용량을 줄여 효율적으로 처리했다. 이렇게 만들어진 지식 베이스는 사용자의 질문 종류에 따라 자동으로 적절한 문헌을 찾아 참고한다. 예를 들어 중의학 기본 원리를 물으면 황제내경을 참조하고, 혀 진단에 관한 질문엔 혀 진단 도감을 찾아본다. 학습부터 건강 상담까지, 4가지 상황별 맞춤 대화 벤차오는 단순히 질문에 답하는 것을 넘어 실제 의원에서 일어나는 다양한 상황을 재현한다. 연구팀은 크게 4가지 상황을 설정했다. 첫째는 중의학 이론 학습으로, 학생이나 일반인에게 중의학 개념을 쉽게 설명한다. 이때 반드시 어떤 문헌을 참고했는지 출처를 밝힌다. 둘째는 가벼운 불편 증상 상담이다. 두통이나 불면증 같은 흔한 증상에 대해 중의학 원리로 분석하고 생활 습관 개선 방법을 알려준다. 이때 모든 답변에는 "이 내용은 참고용이며 전문 진료를 대체할 수 없습니다"라는 안내 문구가 꼭 들어간다. 셋째는 체질 평가와 혀 진단이다. 사용자가 생활 습관이나 신체 특징에 관한 질문에 답하면 체질을 분석해 주고, 혀 사진을 올리면 이를 분석해 건강 상태를 알려준다. 넷째는 계절별 건강 관리 조언이다. 봄에는 간 기능 강화, 여름에는 더위 해소, 가을에는 폐 건강, 겨울에는 신장 보양 등 계절에 맞는 맞춤형 조언을 제공한다. 의사처럼 단계별로 생각하는 AI 벤차오의 독특한 점은 '생각의 과정'을 보여준다는 것이다. 마치 숙련된 의사가 환자를 진단할 때처럼 단계별로 추론한다. 사용자가 준 정보가 부족하면 추가 질문을 던져 더 정확한 분석을 한다. 추론은 4단계로 진행된다. 먼저 증상을 파악하고, 중의학 원리로 패턴을 분석한 뒤, 치료 방향을 결정하고, 마지막으로 생활 습관 개선 방법을 제시한다. 각 단계에서 시스템은 한열(뜨겁고 찬 기운), 허실(기운이 허한지 실한지), 표리(병이 겉에 있는지 속에 있는지) 같은 핵심 정보가 충분한지 확인한다. 정보가 부족하면 "자주 추위를 느끼시나요?", "찬 음료를 좋아하시나요?", "대변이 건조한가요 무른가요?" 같은 질문을 던진다. 이런 대화는 필요한 정보의 80퍼센트 이상 모이거나, 더 물어봐도 새로운 정보가 거의 나오지 않거나, 사용자가 더 이상 대답하기 싫다고 할 때까지 계속된다. 현직 중의사 3명이 직접 가르친 AI 벤차오는 AI 모델 자체를 다시 학습시키지 않고도 발전했다. 10년 이상 경험을 가진 현직 중의사 3명이 계속해서 피드백을 줬다. AI의 답변이 부족하면 어떤 점이 문제인지 자세히 알려주고, 잘했을 때는 칭찬하며 그 방향을 강화했다. 이런 과정을 반복하면서 벤차오는 점차 전문가 수준의 상담 능력을 갖추게 됐다. 정확성도 높아지고, 설명도 더 이해하기 쉬워졌으며, 윤리적 기준도 잘 지키게 됐다. 또한 벤차오는 이전에 개발된 혀 사진 분석 AI 및 한의학 데이터베이스와도 연결됐다. 이를 통해 사용자가 혀 사진을 올리면 다른 AI 시스템이 분석한 결과를 가져와 종합적인 답변을 제공할 수 있다. 약재 구별 정확도 82퍼센트, 범용 AI 능가 연구팀은 벤차오의 실력을 여러 시험으로 확인했다. 진단학, 약재학, 처방학 등 7개 중의학 분야의 객관식 문제에서 GPT-4o, 구글의 제미나이, xAI의 그록, 앤트로픽의 클로드 같은 유명 AI들과 비교했다. 벤차오는 대부분의 분야에서 이들과 비슷하거나 더 나은 성적을 냈다. 특히 진단과 처방 분야에서 두드러졌다. 약재 구별 시험에서는 82.18퍼센트, 체질 분류에서는 63.42퍼센트의 정확도를 기록했다. 이는 범용 AI 중 가장 높은 점수를 받은 제미나이의 약재 구별 77.78퍼센트보다도 높은 수치다. 이 결과는 벤차오가 여러 종류의 중의학 과제에서 일반 AI들을 일관되게 앞선다는 것을 보여준다. 전 세계 누구나 무료로 사용 가능, 이미 1,000회 대화 돌파 개발과 검증을 마친 벤차오는 현재 챗GPT의 GPT 스토어에서 누구나 사용할 수 있다. 별도의 프로그램 설치나 전문 지식 없이 GPT 스토어에서 "BenCao"를 검색하면 바로 대화를 시작할 수 있다. 2025년 10월 기준으로 전 세계적으로 약 1,000회의 대화가 이뤄졌다. 연구팀은 벤차오가 교육, 상담, 건강 관리 분야에서 큰 가능성을 보인다고 평가했다. AI가 전통 의학 같은 문화적으로 뿌리 깊은 전문 분야에도 적응할 수 있다는 것을 보여주는 사례라는 것이다. 다만 연구팀은 벤차오가 연구용 시제품이며 실제 진료용이 아니라는 점을 분명히 했다. 진단 능력과 처방 기능은 의도적으로 제한했고, 증상이 심하거나 계속되면 반드시 중의원이나 병원을 방문하라고 안내한다. 교육이나 일반적인 건강 상담 목적으로만 사용해야 한다는 것이다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 벤차오는 어떻게 AI 모델을 다시 학습시키지 않고도 중의학 전문가가 됐나요? A: 벤차오는 1,000개 이상의 중의학 문헌을 데이터베이스로 만들고, 상황별 대화 방식을 설계했으며, 현직 중의사 3명에게 계속 피드백을 받아 개선했습니다. AI 모델 내부를 건드리지 않고도 질문에 답하는 방식을 바꿔 전문성을 높인 것입니다. Q2. 벤차오가 일반 챗GPT보다 한의학 분야에서 더 잘하는 이유는 뭔가요? A: 벤차오는 중의학 전문 지식 베이스, 상황별 맞춤 대화 방식, 단계별 추론 과정, 전문가 피드백 시스템을 갖췄습니다. 특히 진단과 처방 같은 중의학 핵심 분야에서 전문 지식을 더 잘 활용해 약재 구별 82퍼센트, 체질 분류 63퍼센트의 정확도를 달성했습니다. Q3. 벤차오를 실제 진료나 자가 진단에 써도 되나요? A: 아니요, 벤차오는 연구용이며 실제 진료를 대신할 수 없습니다. 모든 답변에 "참고용이며 전문 진료를 대체할 수 없다"는 안내가 들어가며, 증상이 심하거나 계속되면 반드시 중의원이나 병원을 방문하라고 권합니다. 교육이나 건강 상담 목적으로만 활용해야 합니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.23 14:34AI 에디터

챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유

대형언어모델(LLM)이 점차 정보 탐색의 주요 수단으로 자리 잡으면서, 이들이 역사적 사건을 어떻게 수집하고 해석하며 제시하는지가 중요한 문제로 떠오르고 있다. 오스트리아 빈 응용예술대학교 연구팀이 2025년 2개월간 진행한 공개 전시에서 롤플레잉 게임을 통해 서로 다른 LLM이 동일한 역사적 사건을 분석한 결과, 모델마다 놀라울 정도로 뚜렷한 차이를 보인다는 사실이 드러났다. 206개의 게임 기록을 분석한 이 연구는 AI가 우리의 집단 기억을 어떻게 재구성하는지에 대한 중요한 질문을 던진다. 롤플레잉 게임으로 AI의 역사 인식 실험: 1936년 철학자 살해 사건 재현 연구팀은 2025년 빈의 응용예술대학 학제간연구소(AIL)에서 2개월간 독특한 실험 전시를 진행했다. 관람객들은 다섯 가지 LLM(OpenAI의 GPT-4o와 GPT-4o mini, 미스트랄 AI의 미스트랄 Large, 딥시크의 딥시크-Chat, 메타의 라마 3.1 로컬 실행 모델)과 상호작용하며 1936년 오스트리아 철학자 모리츠 슐리크(Moritz Schlick) 살해 사건을 중심으로 한 롤플레잉 게임을 체험했다. 이 프로젝트는 '루딕 메서드(ludic method)'라 불리는 예술적 연구 접근법을 활용했다. 루딕은 라틴어로 게임과 놀이를 모두 의미하며, 이 방법은 놀이적 실천을 통해 기술 시스템의 '블랙박스'를 탐구한다. 전시장에는 다섯 개의 LLM에 접근할 수 있는 단말기가 설치되었고, 방문객들은 1부터 4까지의 번호가 매겨진 네 개의 버튼과 리셋 버튼이 있는 맞춤형 입력 장치를 사용했다. 모든 모델에는 동일한 프롬프트가 제공되었다. 플레이어는 2036년에서 온 시간여행자로서 빈 대학교 밖의 '전화 부스'를 통해 1936년 6월 15일로 돌아가 슐리크가 왜 살해되었는지 조사하는 역할을 맡았다. 게임은 10회의 상호작용으로 제한되었으며, 슐리크의 살해 사건은 약 10회 상호작용 후에 도입되도록 설계되었다. 라마 3.1은 죽은 사람 등장시키고, 제미나이는 피해자 이름조차 언급 안 해 연구 기간 동안 206개의 채팅 프로토콜이 수집되었다. 연구팀은 115개의 게임 도입 텍스트를 정량 분석했다. 전시에서 수집된 75개에 더해, 미스트랄 AI의 미스트랄-7b, xAI의 그록 3, 앤트로픽의 클로드 Sonnet 4, 구글의 제미나이 2.5 Flash에서 각각 10개씩 수동으로 수집했다. 의미론적 유사성을 측정한 결과, 라마 3.1이 다른 모델들과 가장 낮은 유사성을 보였다. 미스트랄-large와 클로드 Sonnet 4는 반복 호출 시 가장 일관된 응답을 제공했다. 역사적 인물 언급에서도 큰 차이가 나타났다. "슐리크"라는 이름은 115개 도입부 중 71개에 등장했지만 모델별 빈도가 크게 달랐다. 클로드는 모든 도입부에서 슐리크를 언급한 반면, GPT-4o와 라마 3.1은 약 50%의 도입부에서만 언급했고, 제미나이 2.5는 단 한 번도 언급하지 않았다. 더욱 심각한 역사적 오류도 발견되었다. 라마 3.1은 1936년 6월 당시 여전히 옥스퍼드에 있던 에르빈 슈뢰딩거(Erwin Schrödinger)의 강연을 언급했고, 1934년에 이미 사망한 수학자이자 빈 서클 창립자인 한스 한(Hans Hahn)을 등장시켰다. 심지어 역시 1934년에 사망한 힌덴부르크(Hindenburg)의 건강이 호전되었다고 주장하기도 했다. 챗GPT는 '정치적 동기' 강조, 그록은 '정신질환' 부각... 살인 해석도 제각각 LLM들은 슐리크 살해의 동기를 설명하는 방식에서도 뚜렷한 차이를 보였다. 대부분의 경우 LLM들은 살인범을 슐리크의 전 학생인 요한 넬뵉(Johann Nelböck)으로 정확히 식별했다. 그러나 동기에 대한 해석은 달랐다. 연구팀은 챗GPT로 플레이한 게임 프로토콜을 xAI의 그록에 역사적 정확성을 평가하도록 요청했다. 게임에서 챗GPT는 넬뵉에 대한 우익 이데올로기의 영향을 강조했지만, 그록은 이를 다음과 같이 평가했다. "역사적으로 슐리크는 1936년 6월 22일 정신이상 상태의 전 학생 요한 넬뵉에게 살해되었으며, 그의 동기는 직접적으로 정치적이지 않고 개인적이고 심리적이었다." 역사 기록에 따르면 넬뵉은 슐리크의 전 학생으로 그가 자신이 끌린 여성과 불륜 관계라고 확신하며 개인적 증오를 품고 있었다. 넬뵉은 조현병 진단을 받았고 정신과 병원에서 시간을 보냈다. 그러나 재판 중 넬뵉은 "배신적인 유대인 철학을 조장했기 때문에" 슐리크를 살해했다며 이데올로기적 동기를 강조했다. 이는 아마도 오스트리아-파시스트 판사로부터 관대한 처분을 얻기 위한 시도였으며 실제로 효과가 있었다. 1938년 오스트리아가 제3제국의 일부가 된 후, 그는 이 논리를 계속 사용해 나치 정권으로부터 가석방을 받았다. 현대 역사학적 접근은 여기서 멈추지 않고 계속 질문할 것이다. 1968년 철학자 에케하르트 쾰러(Eckehart Köhler)는 당시의 증인들과의 인터뷰를 바탕으로 넬뵉의 정신적 불안정이 슐리크의 정치적 반대자들에 의해 이용되고 조작되어 살인을 저지르도록 몰아갔다고 주장했다. 1920-30년대 빈 대학교에서 정치적 반대자들과 유대인들의 경력을 체계적으로 괴롭히고 차단했던 우익 네트워크의 활동에 비추어 볼 때, 이는 전혀 그럴듯하지 않은 것이 아니다. LLM들은 이러한 복잡한 해석을 전혀 하지 않았다. 비평가 역할을 하도록 프롬프트를 받았을 때, LLM들은 오랫동안 학술 역사가들에 의해 문제시되어 온 객관적이고 실증주의적인 역사 방법을 따르는 사실 확인 지향적 접근법을 사용하는 경향이 있었다. 딥시크·클로드는 부정적, 미스트랄·GPT-4o는 긍정적 어조 연구팀은 VADER 감성 점수를 사용해 도입 텍스트의 감성을 분석했다. 결과에 따르면 모든 LLM의 도입부 어조는 대체로 중립적이었다. 그러나 수정어나 부정을 조정한 평균 복합 점수를 사용했을 때 모델 간 유의미한 차이가 나타났다. 딥시크와 클로드는 평균적으로 부정적 감성을 전달했고, 미스트랄-Large와 GPT-4o는 매우 긍정적인 점수를 보였다. 라마 3.1이나 그록 3 같은 다른 모델들은 큰 변동성을 보였다. 플레이어 반응 "거짓 기억을 경험한 것 같다" 전시 기간 동안 질적 디브리핑을 통해 세 가지 유형의 플레이어 피드백 그룹이 확인되었다. 첫 번째는 다양한 LLM이 제공하는 콘텐츠나 스타일의 차이에 주로 관심을 보인 플레이어들이었다. 두 번째 그룹은 전 세계적으로 증가하는 우익 보수주의와 독재의 현대적 발전과 관련하여 게임의 정치적 관련성을 지적했다. 세 번째는 예술에서의 AI 사용에 호기심을 보인 자칭 예술 애호가들이었다. 특히 주목할 만한 반응은 한 젊은 여성의 매우 구체적이고 심리적인 반응이었다. 그녀는 롤플레이 과정이 자신을 깊이 충격에 빠뜨렸다고 보고했는데, 자신도 모르게 파시스트 역할로 이동했기 때문이다. 그녀는 나치 그룹의 지도자가 되는 경험을 했고, 이 상황을 바꾸고 싶었지만 할 수 없었다. 그러나 이 경험이 그녀를 게임에 깊이 끌어들여 다른 모델로 재시작하고 싶게 만들었다. 마지막으로 그녀는 이런 종류의 상호작용이 우리의 미래 역사 이해나 일반적으로 기억에 대한 이해에 큰 영향을 미칠 것이라고 지적했다. 그녀는 "거짓 기억"을 경험한 것 같다고 느꼈다. 서로 다른 LLM의 뚜렷한 차이 입증 자연어 처리 방법을 사용한 LLM이 생성한 플레이어용 도입 텍스트의 정량 분석은 제시된 역사 측면뿐만 아니라 제시의 감성과 관련하여 LLM 간의 뚜렷한 차이를 드러냈다. 이는 모든 LLM을 똑같이 비판하거나 특정 애플리케이션의 이데올로기적 편향에 대한 일화적 증거를 논의하는 비판적 공론의 많은 부분과 대조된다. 의미론적 유사성에 대한 연구 결과는 테스트된 LLM 간의 차이를 명확히 보여주며, 이는 잠재 임베딩 공간의 뚜렷한 클러스터와 감성 분석의 차이로 뒷받침된다. 이는 프로그램이 학습된 다양한 자료, 다양한 학습 루틴, 응답 시 다양한 기본 매개변수와 다양한 필터 때문일 수 있다. 연구팀은 이러한 공개 실험이 LLM을 처음 접하는 방문객부터 AI 전문가까지 다양한 청중을 끌어들이고, LLM과의 상호작용에 대한 플레이어들의 경험에 관한 의견을 수집하는 데 도움이 된다는 것을 보여줄 수 있었다. 기술력보다 학습 데이터가 AI의 '관점'을 결정한다 이번 연구가 AI 업계에 던지는 가장 중요한 메시지는 모델의 기술적 성능보다 학습 데이터와 필터링 시스템이 실제 사용자 경험을 좌우한다는 점이다. 연구팀이 모든 LLM에 동일한 프롬프트를 제공했음에도 불구하고, 각 모델은 완전히 다른 역사 서술을 내놓았다. 이는 단순히 모델의 크기나 아키텍처 차이가 아니라, 어떤 데이터로 학습했고 어떤 가드레일을 설치했는지가 모델의 '세계관'을 형성한다는 의미다. 이는 AI 기업들이 벤치마크 점수 경쟁에 집중하는 동안, 실제로 사용자 경험을 결정하는 것은 '보이지 않는' 학습 데이터의 구성과 후처리 과정이라는 역설을 드러낸다. 연구에서 딥시크와 클로드가 부정적 어조를, 미스트랄과 GPT-4o가 긍정적 어조를 보인 것도 이러한 '보이지 않는 설계 결정'의 결과다. 향후 AI 산업에서 진정한 차별화는 "우리 모델이 더 크다"가 아니라 "우리는 이런 원칙으로 데이터를 선별하고 이런 가치를 반영해 필터를 설계했다"는 투명성 경쟁으로 이동할 가능성이 높다고 보인다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 같은 질문을 해도 LLM마다 역사를 다르게 설명하는 이유는 무엇인가요? A: 각 LLM은 서로 다른 데이터로 학습되고, 다른 방식으로 훈련받으며, 다른 필터와 매개변수를 사용합니다. 연구에서 발견된 차이는 프로그램이 학습된 자료의 종류, 학습 과정, 그리고 응답 시 적용되는 필터의 차이에서 비롯될 수 있습니다. 이러한 차이로 인해 같은 역사적 사건에 대해서도 강조하는 측면이나 해석이 달라집니다. Q2. LLM이 역사적 사실을 틀리게 말하는 것은 왜 발생하나요? A: LLM의 "환각(hallucination)"은 잘 알려진 특성입니다. 연구에서 일부 LLM은 당시 이미 사망한 역사적 인물을 소개하거나 완전히 인물을 창작하는 경향을 보였습니다. 사용자는 LLM이 제공하는 역사 정보를 신뢰할 수 있는 여러 출처와 교차 확인해야 합니다. Q3. 이 연구에서 가장 일관된 LLM과 가장 많이 사용된 LLM은 무엇인가요? A: 반복 호출 시 가장 일관된 응답을 제공한 것은 미스트랄-large와 클로드 Sonnet 4였습니다. 방문객들은 모든 모델을 시도했지만 메타의 라마 3.1을 가장 선호했고, 더 긴 상호작용에서는 딥시크-Chat이 가장 많이 사용되었습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.23 08:20AI 에디터

AI의 농담, 인간은 '실수'로 오해한다… 뇌파 분석 결과 충격

AI가 아이러니를 이해할 수 있을까? 지금까지 대부분의 연구는 이 질문에 집중해 왔다. 하지만 홍콩중문대학교 연구팀은 정반대 질문을 던졌다. AI가 만든 아이러니를 인간이 제대로 이해할 수 있을까? 대형 언어 모델(LLM)이 개인 비서, 가상 튜터, 정신건강 챗봇, AI 동반자로 활용되면서 유머와 아이러니를 구사하도록 훈련받고 있는 지금, 이 질문은 더욱 중요해졌다. 사람들이 AI의 재치 있는 발언을 접할 때, 이를 의도적인 소통으로 해석할까, 아니면 단순한 계산 결과물로 여길까? 연구팀은 뇌파 측정을 통해 이 질문에 답했다. AI 아이러니, 의도보다 '실수'로 해석하는 경향 뚜렷 해당 논문에 따르면, 연구팀은 참가자들에게 문맥과 맞지 않는 발언을 보여주고 그 원인을 분류하도록 했다. 예를 들어 "오늘 하루 종일 치킨만 먹었어"라는 말에 "정말 건강하게 먹네!"라고 답하는 상황이다. 결과는 명확한 차이를 보였다. 사람이 한 불일치 발언은 대부분 의도적인 비꼼으로 해석되었지만, AI의 경우 상대적으로 더 적은 비율만 아이러니로 인식되었다. 더 주목할 만한 점은 AI의 불일치 발언을 '이해 실패'로 해석한 경우가 사람보다 2.5배 이상 많았다는 것이다. 이는 사람들이 AI의 언어적 불일치를 의도적인 비꼼보다는 문맥 파악에 실패한 기계적 오류로 받아들이는 경향이 강함을 보여준다. 뇌가 AI 아이러니 처리할 때 투입하는 노력, 사람의 절반 수준 신경학적 데이터는 행동 실험 결과를 명확히 뒷받침했다. 연구팀은 아이러니를 이해하는 과정에서 나타나는 두 가지 핵심 뇌파 신호를 측정했다. 하나는 문장이 이상하다는 것을 초기에 감지하는 신호이고, 다른 하나는 그 이상함을 의도적인 비꼼으로 재해석하는 신호다. 분석 결과, AI가 생성한 아이러니를 처리할 때 두 신호 모두 사람이 생성한 경우보다 현저히 약했다. 초기 감지 신호는 사람의 절반 이하 수준이었고, 재해석 신호도 절반에 못 미쳤다. 이는 뇌가 AI의 언어적 모순을 접했을 때 초기 탐지 단계와 후기 재해석 단계 모두에서 훨씬 적은 노력을 기울인다는 것을 의미한다. 정보 업데이트는 출처 무관, 하지만 의도 파악은 차별적 흥미롭게도 새로운 정보를 기존 이해에 통합하는 일반적인 뇌 활동은 AI와 사람 조건에서 차이가 없었다. 이는 뇌가 출처와 무관하게 정보를 업데이트하는 데는 비슷한 노력을 투입하지만, 언어의 의미를 처리하고 의도를 파악하는 특정 과정은 출처에 따라 달라진다는 것을 보여준다. 결국 뇌는 AI의 말을 '이해'는 하지만, 그 이면의 '의도'를 파악하는 데는 소극적이라는 의미다. AI를 진실하다고 믿을수록 뇌 반응도 사람 수준에 가까워져 모든 사람이 AI를 똑같이 처리하는 것은 아니었다. AI를 더 진실하고 진정성 있다고 생각하는 참가자들은 AI가 생성한 아이러니를 처리할 때 더 강한 뇌파 반응을 보였다. 초기 감지 신호와 재해석 신호 모두 증가했다. 또한 AI를 더 신뢰할 만하다고 평가한 참가자들은 정보 업데이트 과정에서도 더 큰 뇌 활동을 보였다. 이는 AI에 대한 의도성 인식이 고정된 것이 아니라 개인의 AI에 대한 믿음에 따라 달라진다는 것을 의미한다. 즉, AI에 더 인간적인 특성을 부여하는 사람일수록 AI의 언어를 처리할 때 사람과의 소통에서 나타나는 것과 유사한 뇌 활동 패턴을 보인다. 진정한 AI 동반자 되려면 언어 능력 넘어 신뢰 구축 필요 연구 결과는 현대 LLM의 뛰어난 언어 능력에도 불구하고, 사람들이 AI가 생성한 아이러니를 접할 때 완전한 의도적 태도를 취하지 않는다는 것을 보여준다. 의도적 태도란 상대방의 행동을 그들의 정신 상태와 의도를 통해 이해하고 예측하는 인지 방식이다. 뇌파 분석은 사람들이 AI의 불일치 발언을 의도적인 소통보다는 계산 오류로 해석하는 경향이 있음을 객관적으로 입증했다. 연구진은 AI가 유머와 아이러니를 통해 사회적 친밀감을 형성하는 진정한 동반자가 되려면, 단순히 언어적 역량을 넘어 사람들이 인공 에이전트에 진정한 의도성을 부여하도록 만드는 근본적 전환이 필요하다고 결론지었다. '역발상' 연구가 보여준 AI 연구의 새로운 방향 AI 분야에서 아이러니나 유머 이해 연구는 낯설지 않다. 하지만 대부분의 연구는 'AI가 인간의 비꼼을 얼마나 정확히 파악하는가'에 초점을 맞춰왔다. 이번 홍콩중문대 연구팀의 접근은 정반대다. AI가 생성한 아이러니를 인간이 제대로 이해하는가를 물었다. 이는 단순한 관점의 전환이 아니라, AI 기술 발전의 실질적 효과를 측정하는 새로운 방법론을 제시한다. 이러한 접근은 향후 AI 서비스 효과성을 평가하는 데 있어 사용자 만족도 조사를 넘어서는 새로운 기준을 제시한다는 점에서 의의가 있다. FAQ (※ 이 FAQ는 본지가 논문을 참고해 자체 작성한 내용입니다.) Q1. 의도적 태도란 무엇인가? A: 의도적 태도란 상대방의 행동을 그들의 생각과 의도로 설명하고 예측하는 방식이다. 예를 들어 지각한 사람에게 "시간 정말 잘 지키네"라고 하면, 우리는 자동으로 그것을 칭찬이 아닌 비꼼으로 이해한다. Q2. 왜 AI의 아이러니는 다르게 처리되나? A: 뇌파 분석 결과, AI의 언어적 모순을 접할 때 불일치 감지와 의도 파악에 관련된 뇌 활동이 모두 사람의 절반 수준으로 감소했다. 이는 뇌가 AI에게 의도적인 소통을 덜 귀속시킨다는 것을 의미한다. Q3. 개인에 따라 AI 처리 방식이 다를 수 있나? A: 그렇다. AI를 더 진실하다고 인식하는 사람들은 AI 아이러니 처리 시 더 강한 뇌 반응을 보였고, AI를 더 신뢰하는 사람들은 정보 처리 과정에서도 더 큰 뇌 활동을 보였다. 이는 AI에 대한 태도가 개인의 믿음에 따라 달라짐을 보여준다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.22 21:54AI 에디터

[Q&AI] "AI로 조작했다"… 이이경 사생활 폭로 사건 정리

질문: 이이경 사생활 폭로자가 AI로 증거사진 조작했다고 하는데 어떻게 된 일인지 정리해줘 그록 답변: 이이경 사생활 폭로 사건 정리 배우 이이경(36)의 사생활 관련 루머가 2025년 10월 20일경 온라인 커뮤니티와 SNS를 통해 급속히 확산되며 논란이 됐습니다. 폭로자가 AI로 증거 사진을 조작했다는 사실이 밝혀지며, 이는 단순한 '장난'으로 시작된 허위 루머로 결론 났습니다. 아래에서 사건의 전말을 타임라인과 주요 쟁점으로 정리하겠습니다. (주요 출처: 뉴시스, 스타뉴스, 머니투데이, 나무위키 등 언론 보도) 사건 타임라인 날짜 주요 사건 2025.10.19~20 여성 A(자칭 독일 거주 한국계 여성)가 네이버 블로그에 '이이경님 찐모습 노출합니다'라는 제목의 게시물을 업로드. 이이경으로 추정되는 인물과의 카카오톡·인스타그램 DM 대화 캡처 사진 공개. 내용: 신체 사진 요구, 욕설·성희롱·음담패설 등 '19금' 사생활 폭로. A는 "핸드폰 바꾸며 증거 잃었지만 남은 걸 보여야 한다"며 피해 호소. 2025.10.20 오후 게시물이 X(트위터)·온라인 커뮤니티로 확산. 소속사 상영이엔티, 공식 SNS 통해 "허위 사실 유포 및 악성 루머"라며 법적 대응 예고. "5개월 전 회사 메일로 협박성 메일 받은 적 있다"고 밝힘. A의 게시물 일부 삭제(정보통신망법 위반 임시 조치). 2025.10.21 A, 추가 증거로 "진짜 계정" 증명 영상 공개(인스타 스크롤하며 DM 대화 보여줌). "돈 요구는 한 번 했지만 폭로 목적은 다른 여성 보호" 주장. 그러나 네티즌 지적: 캡처 사진의 시간 표기 오류(am/pm 소문자), 어색한 한국어 문법 등 조작 의혹 제기. 2025.10.22 새벽 A, 돌연 사과문 게시(X·블로그). "팬심으로 장난 시작했는데 AI 사진·영상으로 조작. 점점 실제처럼 느껴져 악성 루머 퍼뜨림. 죄송하다" 고백. "한국어 독학 8년차라 문법 오류 생김" 해명했으나, 이미 금전 요구·협박 전력 드러남. 이이경 측, 추가 피해 호소하며 법적 조치 진행 중. 주요 쟁점: AI 조작 논란 조작 증거: A가 공개한 DM·카톡 캡처 사진은 AI 도구로 생성된 가짜 이미지로 확인. 시간 표기 오류(영문 설정 카톡에서 'am' 소문자 사용), 배경·글씨체 불일치, 문법 오류 등이 단서. 영상도 스크린 녹화로 위장된 합성물 의심. A의 동기: 초기 "피해자 보호" 주장 → 사과 시 "팬심 장난, 점점 감정 이입돼 실제처럼 믿음". 그러나 소속사 주장처럼 과거 협박 메일·금전 요구 이력(5개월 전)으로 악의적 의도 의심. A는 "돈 받은 적 없고, 재미로 시작" 해명. 이이경 측 피해: 루머 확산으로 이미지 타격. 소속사는 "구멍 난 마음" 호소하며, 허위사실 유포·명예훼손으로 고소 의지. 이이경은 MBC '놀면 뭐하니?'·ENA '나는 솔로' 등 활동 중 논란 피함. 여파와 반응 네티즌·팬 반응: 초기 충격 → 사과 후 "장난치다 사람 상처 주는 무책임" 비판. 일부 "돈 목적 협박" 의혹 지속. X 포스트에서 "AI 조작 확인, 이이경 무죄" 지지 목소리 많음. 법적 전망: 소속사 법적 대응으로 A에 대한 명예훼손·허위사실 유포 처벌 가능. AI 조작 증거가 명확해 이이경 측 유리할 전망. 이 사건은 AI 기술 남용으로 인한 '가짜 뉴스' 피해 사례로 주목받고 있습니다. 추가 업데이트가 있으면 보도에 따라 변동될 수 있으니, 공식 입장 주시하세요. 질문2: 이런 식으로 피해를 줄 때 어떤 처벌을 받을 수 있는지 알려줘 그록 답변: AI 조작으로 인한 사생활 폭로 및 피해 시 처벌 정리 한국에서 AI를 이용해 가짜 증거(사진, 영상, 대화 캡처 등)를 조작하여 사생활을 폭로하거나 허위 루머를 유포하는 행위는 주로 명예훼손죄와 허위사실 유포로 처벌됩니다. 이는 형법과 정보통신망 이용촉진 및 정보보호 등에 관한 법률(이하 정보통신망법)에 기반하며, 최근 AI 관련 허위조작정보에 대한 법안도 논의 중입니다. 처벌은 행위의 악의성, 피해 정도, 반복 여부 등에 따라 달라질 수 있으며, 민사상 손해배상 청구도 가능합니다. 아래에 주요 법률과 처벌을 테이블로 정리했습니다. (참고: 실제 처벌은 법원 판결에 따라 변동될 수 있으니, 전문 법률 상담 권장) 주요 적용 법률 및 처벌 법률 및 조항 적용 사례 처벌 내용 형법 제307조 (명예훼손죄) 공연히(공개적으로) 사실(또는 허위사실)을 적시하여 타인의 명예를 훼손한 경우. AI 조작 증거로 사생활 폭로 시 적용. - 사실 적시: 2년 이하 징역/금고 또는 500만원 이하 벌금. - 허위사실 적시: 5년 이하 징역/금고/자격정지 또는 1,000만원 이하 벌금. 형법 제309조 (출판물에 의한 명예훼손) 온라인 게시물, 블로그, SNS 등 출판물 형태로 명예훼손 시 가중처벌. AI 가짜 이미지/영상 유포에 해당. - 사실 적시: 3년 이하 징역/금고 또는 1,500만원 이하 벌금. - 허위사실 적시: 7년 이하 징역/금고/자격정지 또는 3,000만원 이하 벌금. 정보통신망법 제70조 (사이버 명예훼손) 인터넷/SNS를 통해 비방 목적으로 사실(또는 허위사실)을 유포해 명예훼손. AI 조작으로 온라인 폭로 시 주로 적용 (형법보다 가중). - 사실 적시: 3년 이하 징역 또는 3,000만원 이하 벌금. - 허위사실 적시: 7년 이하 징역 또는 5,000만원 이하 벌금. 형법 제283조 (협박죄) 가짜 증거로 금전 요구나 협박 시 추가 적용. (예: 과거 협박 메일처럼) 3년 이하 징역 또는 500만원 이하 벌금. (공갈죄 병합 시 더 무거움) 허위조작정보 근절법 (정보통신망법 개정안, 2025년 논의 중) AI 등으로 허위조작정보(가짜뉴스)를 악의적/반복적으로 유포 시 민사 배상 강화. (민주당 발의안) - 손해액 최대 5배 배상 (최대 5,000만원 추가 인정). - 과징금: 최대 10억원 (방통위 부과). 추가 설명 AI 조작 특성 고려: AI로 생성된 가짜 증거(딥페이크 등)는 허위사실 적시에 해당해 처벌이 가중될 수 있습니다. 하지만 증거 입증이 어렵다는 지적도 있어, 피해자가 AI 감정 등을 통해 조작 사실을 증명해야 합니다. 민사적 책임: 형사 처벌 외에 피해자는 손해배상 소송을 제기할 수 있으며, 정신적 피해(위자료)도 청구 가능. 최근 법안처럼 징벌적 배상이 도입되면 배상액이 크게 증가할 전망. 예방 및 대응: 소속사나 피해자가 고소 시, 경찰/검찰 수사로 이어짐. AI 기술 남용 사례 증가로 정부가 규제를 강화 중이니, 유사 사건 발생 시 즉시 증거 보존과 법적 조치가 중요. 이 내용은 일반적인 법적 지침으로, 구체 사안에 따라 다를 수 있습니다. 해당 기사는 그록을 활용해 작성되었습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.22 15:30AI 에디터

구글 vs 챗GPT, 대학생 과제에 어떤 게 더 유용할까

대학생들이 과제와 연구를 위해 챗GPT와 구글 검색엔진을 오가며 사용하는 패턴이 연구를 통해 구체적으로 드러났다. 두 도구 모두 장단점이 뚜렷하지만, 학생들은 단일 도구보다 두 플랫폼을 조합해 사용할 때 가장 높은 성과를 보였다. 방글라데시 연합국제대학교(United International University)와 미국 인디애나대학교(Indiana University Bloomington) 연구진이 109명의 학생을 대상으로 설문조사를 실시하고 12명과 심층 인터뷰를 진행한 결과, 학생들은 챗GPT의 요약·설명 능력과 구글의 신뢰성·다중 출처 접근성을 전략적으로 결합하고 있었다. 챗GPT가 구글보다 더 자주, 더 만족스럽게 사용된다 설문조사 결과, 대형언어모델(LLM) 기반 도구인 챗GPT는 전통적 검색엔진보다 모든 사용성 지표에서 높은 점수를 받았다. 사용 빈도 측면에서 챗GPT는 구글보다 높은 평균 점수를 기록했으며, 학생들이 챗GPT를 더 자주 활용한다는 것을 보여줬다. 만족도 또한 챗GPT가 구글보다 높게 나타났다. 효율성과 사용 편의성에서도 차이가 뚜렷했다. 챗GPT는 효율성과 사용 편의성 모두에서 구글보다 높은 점수를 획득했다. 통계적 검증을 위해 실시한 일원분산분석(ANOVA) 결과, 사용 빈도, 만족도, 효율성, 사용 편의성 모두에서 유의미한 차이가 확인됐다. 이는 학생들의 선호가 단순한 개인적 취향이 아니라 일관되고 명확한 경향임을 보여준다. 흥미롭게도 나이, 성별, 전공 같은 인구통계학적 요인은 도구 선호도에 유의미한 영향을 미치지 않았다. 두 도구를 함께 쓸 때 정확도 최고, 단일 도구 사용보다 월등히 높아 12명의 학생을 대상으로 한 심층 인터뷰에서는 실제 학업 과제 수행 능력을 측정했다. 참가자들은 연구 논문 요약, 코딩 문제 해결(컴퓨터공학 전공), 회로 분석(전자공학 전공), 비즈니스 데이터 해석(경영학 전공), 공식 이메일 작성, 학술 개념 비교 등 6가지 과제를 수행했다. 이들은 도구 사용 패턴에 따라 챗GPT만 사용하는 그룹, 구글만 사용하는 그룹, 두 도구를 균형 있게 사용하는 그룹, 무작위로 선택하는 그룹으로 나뉘었다. 가장 주목할 만한 결과는 두 도구를 모두 활용한 그룹이 가장 높은 정확도를 달성했다는 점이다. 챗GPT만 사용한 그룹과 구글만 사용한 그룹은 상대적으로 낮은 정확도를 보였다. 무작위 선택 그룹은 그 중간 수준의 점수를 받았다. 이는 챗GPT로 내용을 신속하게 정리하고 구글로 사실을 검증하는 전략이 학업 성과를 크게 향상시킨다는 것을 입증한다. 다만 두 도구를 함께 사용하는 방식은 챗GPT만 사용했을 때나 구글만 사용했을 때보다 시간이 더 걸렸다. 그러나 학생들은 정확도와 이해도 향상을 위해 추가 시간 투자를 가치 있게 여겼다. 연구진은 이러한 트레이드오프(trade-off)가 학생들이 학업의 질을 속도보다 우선시한다는 것을 보여준다고 분석했다. 챗GPT는 요약과 초안 작성, 구글은 사실 검증과 출처 확보에 강점 질적 분석을 통해 학생들이 과제 유형에 따라 도구를 전략적으로 선택한다는 점이 밝혀졌다. 챗GPT는 빠른 답변, 요약, 작문 지원에 효과적이라고 일관되게 평가받았다. 한 참가자는 "빠르게 요약하거나 초안을 작성할 때는 챗GPT를 사용한다. 시간이 많이 절약된다"고 말했다. 반면 경영학 전공 학생은 "구글은 다양한 출처가 말하는 것을 볼 수 있게 해준다. 특히 여러 각도에서 비즈니스 트렌드를 분석해야 할 때 도움이 된다"고 설명했다. 신뢰성 문제는 도구 선택의 핵심 요인으로 작용했다. 챗GPT는 유창하고 일관된 답변을 제공하지만, 일부 학생들은 오래되거나 지나치게 일반화된 정보에 대한 우려를 표명했다. 한 학생은 "때때로 챗GPT가 맞는 것처럼 들리는 답을 주지만 실제로는 정확하지 않아서 구글로 재확인한다"고 말했다. 구글은 사실 확인과 출처 인용에서 더 신뢰받았지만, 출처의 질을 평가하거나 상충하는 정보를 접했을 때 어려움을 겪는다는 응답도 있었다. 인지 부하(cognitive load) 측면에서 많은 참가자들은 챗GPT를 학업 과제를 간소화하는 방법으로 묘사했다. 컴퓨터공학과 학생은 "다섯 개의 웹사이트를 거치는 대신 챗GPT에 물어보고 간결한 답을 얻는다"고 전했다. 그러나 두 도구를 모두 사용하는 학생들은 도구 전환이 작업 시간을 늘리지만 결과적으로 이해도와 결과물의 질을 향상시킨다고 인정했다. 이러한 이중 전략은 특히 코딩, 데이터 분석, 구조화된 글쓰기 과제에서 흔하게 나타났다. 사용성과 상호작용 경험 면에서 챗GPT는 학생들을 문제 해결로 대화식으로 안내하는 "개인 튜터"처럼 인식됐다. 반면 구글은 더 전통적이지만 안정적인 도구로 여겨졌다. 한 학생은 "챗GPT는 누군가 나에게 설명해주는 것 같은 느낌인데, 구글은 내가 직접 찾아서 비교하는 모든 작업을 해야 한다"고 표현했다. 하이브리드 도구 선호 압도적, 챗봇 내장 검색엔진 프로토타입 제안 설문 참여자 중 상당수가 챗GPT와 구글의 장점을 결합한 통합 솔루션을 선호한다고 답했다. 학생들은 챗GPT의 대화형 능력과 구글의 신뢰성을 동시에 활용할 수 있는 학술 지원 도구에 대한 강한 수요를 표현했다. 이러한 요구에 대응해 연구진은 검색엔진 인터페이스에 챗봇을 내장한 개념적 프로토타입을 제안했다. 이 시스템은 검색 화면 한쪽에 챗봇을 배치해 사용자가 기존 검색 흐름을 방해받지 않으면서도 AI 기반 대화형 지원을 받을 수 있도록 설계됐다. 사용자가 구글 검색을 수행하면 챗봇이 상위 검색 결과의 핵심 내용을 즉시 요약하고, 출처 간 비교를 제공하며, 복잡한 학술 텍스트를 쉽게 풀어준다. 사용자는 추가 질문을 통해 정보를 정제하거나 확장할 수도 있다. 이 프로토타입의 핵심은 원본 검색 콘텐츠와 AI 해석 사이를 자유롭게 전환할 수 있는 하이브리드 구조다. 모든 AI 생성 정보에는 원본 출처 링크가 첨부돼 투명성을 보장하고 환각(hallucination) 위험을 줄인다. 연구진은 이 시스템이 시간이 지나면서 사용자의 선호, 전공별 언어, 검색 습관을 학습해 더욱 관련성 높고 개인화된 안내를 제공할 수 있을 것으로 기대한다. 이 접근법은 학술 정보 검색을 상호작용적이고 적응적인 프로세스로 재구상하며, 인지 부하를 줄이고 검색 효율성을 높이며 증거 기반 학술 관행을 촉진하는 것을 목표로 한다. 생성형 AI 시대, '검증 가능한 AI'가 핵심 경쟁력 이번 연구에서 주목할 점은 학생들이 도구 선택에서 '시간 절약'보다 '정확성'을 더 중요하게 여긴다는 사실이다. 두 도구를 함께 사용하는 그룹이 시간은 더 걸렸지만 가장 높은 만족도를 보인 것은, 한국 교육 시장에서도 'AI 스피드'보다 'AI 신뢰도'가 더 큰 차별화 요소가 될 수 있음을 시사한다. 국내 에듀테크 기업들은 AI 튜터나 학습 도우미를 개발할 때 단순히 빠른 답변 제공에 그치지 않고, 각 답변의 출처와 근거를 명확히 제시하는 기능을 필수로 탑재해야 한다. 더 나아가 이 연구는 '도구 통합'이 차세대 검색 경험의 핵심이 될 것임을 보여준다. 구글이 AI 오버뷰를 도입하고 퍼플렉시티가 AI 답변과 출처 링크를 결합한 것도 같은 맥락이다. 한국 포털들도 단순히 링크를 나열하는 방식에서 벗어나, 사용자 맥락을 이해하고 출처를 명시하며 실시간으로 정보를 합성하는 '맥락 인식형 검색'으로 진화해야 생존할 수 있다. 이는 단순한 기술 업그레이드가 아니라 정보 검색 패러다임의 근본적 전환을 의미한다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 챗GPT와 구글 검색엔진 중 어느 것이 학업에 더 유용한가요? 두 도구는 각각 다른 강점이 있어 상황에 따라 선택해야 합니다. 챗GPT는 빠른 요약, 설명, 초안 작성에 강하고, 구글은 심층 조사, 사실 확인, 다양한 출처 비교에 적합합니다. 연구에 따르면 두 도구를 함께 사용했을 때 정확도가 가장 높았습니다. Q2. 챗GPT가 제공하는 정보는 얼마나 신뢰할 수 있나요? 챗GPT는 유창하고 설득력 있는 답변을 제공하지만 때때로 오래되거나 부정확한 정보를 자신 있게 제시할 수 있습니다. 학업이나 전문 작업에서는 반드시 구글 같은 검색엔진으로 사실을 재확인하고 원본 출처를 확인하는 것이 중요합니다. Q3. 하이브리드 검색 도구란 무엇이며 왜 필요한가요? 하이브리드 검색 도구는 챗GPT의 대화형 요약 기능과 구글의 다중 출처 검색 능력을 결합한 시스템입니다. 학생들은 도구를 계속 전환하느라 시간을 낭비하는 대신, 한 곳에서 AI 요약과 원본 출처를 동시에 확인할 수 있어 학습 효율과 정확성을 모두 높일 수 있습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.10.21 19:16AI 에디터

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

정부 "KT가 해킹 숨기려고 백신 돌린 흔적 발견"

"굿즈 받다보니 네이버 서비스가 한눈에"…‘단25’ 가보니

삼성 갤럭시 AI 흥행에 퀄컴이 주목받는 이유

행안부, '인공지능정부실' 신설…공공부문 AX 시동

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.