• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
스테이블코인
배터리
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 환각'통합검색 결과 입니다. (5건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

KISTI 고니팀, 한국어 추론 모델·환각 억제 기술 확보…"업데이트 언제할까"

한국과학기술정보연구원(KISTI)이 과학기술 특화 생성형 거대 언어 모델(LLM) 고니(KONI)와 관련한 ▲한국어 특화 추론 모델과 ▲환각 억제 기술을 각각 확보했다고 31일 발표했다. 고니는 배경훈 부총리 겸 과학기술정보통부 장관이 신년 업무보고에서 독자 파운데이션 모델(독파모) 기반 고니 업데이트를 당부할 정도로 관심을 갖는 LLM이다. 고니는 지난 2023년 12월 처음 공개됐다. 2024년 7월 신규버전이 공개된 이후 지금까지 업데이트는 이루어지지 않았다. 이번에 KISTI가 확보한 인공지능(AI) 분야 국제 학술대회인 국제표현학습학회(ICLR)에 채택돼 논문으로 공개됐다. ICLR은 신경정보처리시스템학회(NeurIPS) 및 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽힌다. 딥러닝과 표현 학습 분야에서 최정상급 학술대회로 인정받고 있다. 구글이나, 메타, 오픈AI 등 글로벌 빅테크 기업들이 주목하는 학회다. 고니는 KISTI가 개발한 LLM으로, 지난 2024년 과학기술 분야 추론, 글쓰기, 이해 등 다양한 작업에서 성능을 크게 향상 시킨 새 버전 2종을 허깅 페이스와 KISTI 에이아이다에 공개한 바 있다. 이번에 공개한 한국어 특화 추론 모델은 고니 연구팀이 비영리 오픈소스 연구단체 해례(HAERAE)팀(팀장 손규진)과 협력으로 개발했다. 579만 건의 한국어 네이티브 프롬프트와 370만 건의 장문 추론 경로를 포함한 '이상(Yi-SANG)' 학습 데이터세트를 구축했다. 이는 공개된 한국어 사후 학습 데이터자원 중 최대 규모다. 고니팀은 또 이 모델에서 사고 과정은 영어로, 최종 답변은 한국어로 도출하는 '혼합 언어 단계적 사고 기법도 개발, 적용했다. 한국어 전용 모델의 논리적 한계를 극복하고, 번역 어투를 최소화하면서도 추론 효율을 극대화했다는 것이 연구진 설명이다. 이경하 초거대AI연구센터장은 "이 기술을 이용해 학습된 모델은 딥시크(DeepSeek)-R1-32B 등 유사 규모 글로벌 모델을 제치고 최고 수준의 한국어 추론 성능을 기록했다"고 말했다. 이와함께 고니팀은 특정 언어나 도메인에 AI모델을 적응시킬 때 기존 지식을 잊어버리는 '치명적 망각' 문제를 해결하는 '저계층 적응 기반 대조 보정' 기술도 개발했다. 이 기술은 추가 모델 훈련 없이 추론 시점에만 작동하며, 모델 내부 지식을 동적으로 추출해 사실 관계를 보정한다. 고도의 정확성이 요구되는 전문 분야에서 환각 현상을 억제하는 데 도움을 줄 수 있다. 고니팀은 이 연구를 바탕으로 연구자 파트너로서 가설을 세우고 실험 데이터를 분석하는 'AI 연구동료(AI Co-Scientist)' 기술 개발을 추진할 계획이다. 복잡한 과학적 난제를 함께 해결할 수 있는 지능형 연구 에이전트 시스템을 구축해 국가 AI 주권을 확보하고, 대한민국 연구 현장을 '과학을 위한 AI(AI for Science)' 체제로 전환하는 데 기여할 방침이다. 이식 KISTI 원장은 “이번 성과는 한국어 AI 기술의 글로벌 경쟁력을 입증한 것”이라며, “KONI 고도화를 지속 추진해 AI 연구동료 개발과 과학을 위한 AI 혁신을 선도하겠다”고 밝혔다.

2026.01.31 19:36박희범 기자

AI가 만든 가짜 논문 인용, 세계 최고 AI 학회도 속았다

세계 최고 권위의 인공지능(AI) 학회에서 AI가 만들어낸 가짜 논문 인용이 대거 발견됐다. AI 전문가들조차 AI가 생성한 허위 정보를 걸러내지 못하면서 연구 윤리와 학문의 신뢰성에 대한 우려가 커지고 있다. 포천, 테크크런치 등 주요 외신들에 따르면 AI 탐지 기업인 GPT제로는 최근 신경정보처리시스템학회(NeurIPS, 이하 뉴립스) 2025에 채택된 논문 최소 51개 논문에서 100건 이상의 '환각 인용'을 발견했다. 환각 인용은 AI가 존재하지 않는 논문 제목, 가짜 저자명, 잘못된 디지털 객체 식별자(DOI) 등을 그럴듯하게 만들어 인용한 것을 말한다. 뉴립스는 AI, 머신러닝 분야 최고 권위를 자랑하는 학회로 논문 채택률이 25% 수준에 불과할 정도로 경쟁이 치열하다. 뉴립스는 지난 해도 접수된 논문 2만1,000건 중 6,000건만 게재됐다. 이런 저명 학회에서 AI로 조작된 인용이 포함된 논문들이 1만 5,000개 다른 논문을 제치고 통과됐다는 점에서 큰 충격을 안겨주고 있다. 논문을 분석한 곳은 GPT제로란 AI 전문 스타트업이다. GPT제로는 지난 달 미국 샌디에이고에서 열린 뉴립스 2025 학회에 채택된 논문 4,841편을 분석해 이 같은 결과를 얻었다고 밝혔다. GPT제로는 이번에 문제가 된 것은 '바이브 인용(Vibe Citing)'이라고 명명했다. 겉으로는 정상적인 인용처럼 보여 전문가인 리뷰어들조차 걸러내지 못하고 최종 합격시켰다는 점에서 문제의 심각성이 크다. 세계적인 AI 석학인 조경현 뉴욕대학교 교수도 본인이 공저자로 참여한 논문에서 AI 환각으로 인한 인용 오류가 발견되자 공개 사과했다. 조 교수는 자신의 링크드인 계정을 통해 "공저자로서 세심하게 살피지 못한 점에 대해 전적으로 책임을 느낀다"며 잘못된 인용을 인정했다. 여러 AI 모델이 동시에 사회 전체의 담론을 왜곡하는 이른바 '거대언어모델(LLM) 그루밍' 현상은 분야를 막론하고 일어나고 있다. 지난해에는 러시아발 친러 성향 허위 정보가 다수의 AI 서비스 답변에 포함된 사례가 확인됐다. 주요 AI 서비스들의 출처 신뢰성 문제도 도마 위에 올랐다. 가디언 등 외신 보도에 따르면 구글 'AI 개요'는 건강 정보 검색 시 전문 의료 사이트 대신 유튜브를 주요 출처로 활용하는 것으로 나타났다. 챗GPT는 일론 머스크 테슬라 최고경영자(CEO)가 관여한 보수 성향 플랫폼 '그로키피디아'에서 정보를 가져오고 있다. 그로키피디아는 노예제 옹호, 성소수자 비하 표현 등으로 논란을 일으킨 곳이다. 학계에서는 논문 심사 시 AI 탐지 도구 의무 사용이나 인용 논문 DOI 자동 검증 시스템 도입 등 대책 마련이 시급하다는 목소리가 나온다. 업계 관계자는 "논문을 심사할 때 인용된 참고문헌조차 실제로 존재하는지 일일이 확인해야 하는 시대가 됐다"고 말했다.

2026.01.31 08:48이나연 기자

AI가 '가짜정보' 생성↔학습..."인터넷 파괴될 수도"

인공지능(AI) 기술이 빠르게 발전하면서 인터넷 콘텐츠의 '신뢰성'이 심각한 위기를 맞고 있다. 유튜브 교육 채널 '커지저트(Kurzgesagt)'는 최근 영상을 통해 “AI가 만들어내는 저품질 정보가 결국 인터넷의 신뢰 체계를 무너뜨릴 수 있다”고 경고했다. 이 영상은 게시된 지 약 이틀만에 600만 조회수를 넘어, IT 미디어인 기가진 등 외신을 통해서도 소개됐다. 인터넷의 절반은 '봇'… AI가 만든 콘텐츠 쏟아져 이 외신에 따르면 현재 전 세계 인터넷 트래픽의 절반가량은 인간이 아닌 '봇(bot)'이 만들어내는 것으로 알려졌다. 특히 최근에는 AI가 자동으로 생성한 글, 영상, 심지어 책까지 무분별하게 확산되며, 이른바 'AI 슬럽'(AI Slop, AI가 만든 저품질 콘텐츠) 현상이 심각한 문제로 떠오르고 있다. 이 같은 현상은 검색 엔진의 신뢰도에도 영향을 주고 있다. 대표적으로 구글의 'AI 요약'(AI Overview) 기능은 빠른 응답을 위해 경량화된 모델을 사용하는데, 이 때문에 사실과 다른 정보가 표시되는 사례가 잇따르고 있다. 실제로 자신의 이름을 검색했더니 “10년 전에 사망했다”는 잘못된 문장이 등장하거나, AI가 잘못된 정치 성향을 덧씌운 사례도 보고됐다. "AI가 만들어낸 80%는 맞지만, 나머지 20%는 근거조차 없다" 커지저트 제작진은 학술 콘텐츠를 만들 때 최소 2~3명의 검증 과정을 거쳐 전문가 피드백을 받는 등, 한 편당 100시간 이상을 사실 확인에 투자한다고 밝혔다. 제작팀은 정보 수집 과정에 AI를 도입해 실험을 진행했다. 그 결과, AI가 제공한 정보의 약 80%는 실제 출처가 존재하고 요약도 비교적 정확했지만, 나머지 20%는 출처조차 알 수 없는 허위 정보였다고 한다. 커지저트는 이 현상을 “AI가 우리를 만족시키기 위해 사실을 꾸며냈다”고 지적했다. 즉, AI가 '더 흥미롭게 보이도록' 일부 내용을 창작한 것이다. 문제는 이 '80%의 신뢰할 만한 정보'조차 완전히 안전하지 않다는 점이다. 커지저트 팀이 출처를 다시 추적한 결과, 일부 뉴스 사이트는 AI가 만든 근거 없는 정보를 실제 뉴스처럼 게시하고 있었고, 이후 다른 AI가 이를 학습해 '출처가 있는 정보'로 다시 내보내는 '허위 정보의 순환 구조'가 확인됐다. 실제로 올해 기준, 1천200개 이상의 뉴스·웹사이트가 AI가 만든 가짜 기사나 허위 스토리를 게시한 사실이 드러났다. 즉, AI가 만든 가짜 정보를 실제 언론사 기자가 받아쓰고, 그것을 다시 AI가 학습하는 악순환이 벌어지고 있는 셈이다. 커지저트는 영상 말미에서 “AI의 확산은 인터넷의 신뢰 체계를 되돌릴 수 없게 파괴할 위험을 내포하고 있다”고 경고했다. AI가 생산하는 정보의 양이 폭발적으로 늘어나면서, 진짜와 가짜를 구별하기 점점 어려워지는 상황이 펼쳐지고 있다는 지적이다.

2025.10.10 09:52백봉삼 기자

AI가 엉뚱한 말을 하는 이유?…오픈AI가 찾은 '근본 원인'

챗GPT 개발사인 오픈AI가 대규모언어모델(LLM)의 '환각(할루시네이션)' 현상이 왜 발생하는지, 또 줄일 수 있는 방법은 무엇인지에 대해 새로운 연구 결과를 발표했다. 8일 테크크런치에 따르면 오픈AI는 블로그를 통해 발표한 논문에서 환각을 "그럴듯하지만 사실과 다른 문장을 생성하는 현상"이라고 정의했다. 또 모델 성능 개선에도 불구하고 "환각은 모든 LLM의 근본적 과제"라며 "완전히 사라지지 않을 것"이라고 밝혔다. 오픈AI 연구진은 예시로 논문 공저자인 애덤 타우만 칼라이의 사례를 들었다. 연구팀이 한 챗봇에 칼라이의 박사 학위 논문 제목을 물었을 때 세 번 모두 서로 다른 답을 내놨으나 모두 틀린 것으로 나타났다. 생일을 물었을 때도 세 번 모두 잘못된 날짜가 제시됐다. 오픈AI는 이런 현상이 언어모델의 학습 구조에서 비롯된다고 설명했다. 현재 AI 모델은 참·거짓 라벨 없이 방대한 텍스트를 기반으로 다음 단어를 예측하는 방식으로 학습한다. 맞춤법이나 문장 구조와 같은 패턴은 대규모 학습을 통해 개선되지만, 특정 인물의 생일 같은 저빈도 사실은 패턴만으로 정확히 예측하기 어렵다는 설명이다. 다만 연구진은 문제 해결의 열쇠가 학습 과정 자체보다는 평가 방식에 있다고 지적했다. 현재 널리 쓰이는 정확도 중심 평가가 모델이 정답을 모를 때도 추측하도록 유도한다는 설명이다. 객관식 시험에서 빈칸을 남기는 것보다 찍어서 맞힐 경우 점수를 얻을 가능성이 높기 때문에 학생들이 추측을 택하는 것과 유사하다는 비유도 제시됐다. 이에 연구진은 모델 평가 체계가 자신감 있게 틀린 답변에는 더 강한 불이익을 주고 '모르겠다'와 같은 불확실성 표현에는 부분 점수를 주는 방향으로 바뀌어야 한다고 제안했다. SAT처럼 오답에는 감점을, 무응답에는 부분 점수를 주는 제도와 비슷한 방식이다. 오픈AI는 불확실성을 반영하는 새로운 평가를 일부 추가하는 데 그칠 것이 아니라, 기존의 정확도 중심 평가 전반이 개편돼야 한다고 강조했다. 연구진은 "주요 평가 지표가 여전히 '운 좋은 추측'을 보상한다면 모델은 계속 추측할 것"이라고 결론지었다.

2025.09.08 14:33한정호 기자

오픈AI, 기술적 한계 왔나…'o3' 등 최신 추론 AI 모델 '환각' 더 심해져

최근 새로운 인공지능(AI) 모델을 선보인 오픈AI가 할루시네이션(환각·왜곡) 현상을 해결하지 못하며 기술적 한계를 드러내고 있다. 20일 테크크런치 등 주요 외신에 따르면 오픈AI는 사람에 대한 모델의 지식 정확도를 측정하는 사내 벤치마크인 퍼슨(Person) QA에서 'o3'가 33%의 질문에 대해 환각을 일으킨다는 사실을 발견했다. 이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 'o1'과 'o3-미니' 대비 2배 이상 높은 것이다. 'o4-미니'는 무려 48%로, 더 낮은 성적을 기록했다. 또 'o3'와 'o4-미니'는 심지어 오픈AI의 비추론 모델인 'GPT-4o'보다도 더 자주 환각에 빠지는 것으로 드러났다. 오픈AI는 그동안 새 모델을 내놓을 때마다 환각 문제에 대해 꾸준히 개선된 결과를 내놨다. 그러나 이번에는 그렇지 못한 데다 "더 많은 연구가 필요하다"며 정확한 이유를 밝히기를 꺼렸다. 'o3' 및 'o4-미니' 관련 기술보고서에선 "전반적으로 더 많은 주장을 한다"며 "더 정확한 주장뿐만 아니라 더 부정확하거나 왜곡된 주장을 하게 된다"고 밝혔다. 앞서 오픈AI는 지난 16일 "이미지로 생각하고 판단할 수 있는 첫 번째 모델"이라는 설명과 함께 'o3'와 'o4-미니'를 출시했다. 단순히 이미지를 보는 것뿐 아니라 시각 정보를 추론 과정에서 직접 통합할 수 있다고 설명하며 자신감을 드러내기도 했다. 오픈AI에 따르면 사용자가 'o3'와 'o4-미니'에 화이트보드 스케치, PDF 다이어그램처럼 다양한 이미지를 업로드하면 모델은 이를 분석한 뒤 사고 흐름을 구성해 응답한다. 흐릿하거나 저해상도 이미지도 인식 가능해 시각 정보 기반 질문에도 안정적인 추론을 이어간다. 하지만 환각 현상이 심하면 기존 모델들보다 활용성이 떨어질 것이란 시각이 지배적이다. 비영리 AI연구소 트랜슬루스(Transluce)는 'o3'가 답변 도출 과정에서 자신이 취한 행동에 대해 짜맞추는 경향을 테스트를 통해 발견한 바 있다. 업계에선 이번 일을 두고 향후 추론형 모델의 신뢰성에 대한 의구심을 키우는 상황으로 이어질 수 있다고 보고 있다. 특히 세무나 회계, 법조계처럼 답변의 정확성이 다른 업종보다 중요한 분야에서는 환각 이슈가 해결되지 않을 경우 추론형 AI의 사용이 어려워질 가능성이 크다. 이에 대해 오픈AI 측은 "모든 모델에서 할루시네이션 문제를 해결하는 것은 지속적인 연구 분야"라며 "정확성과 신뢰성을 개선하기 위해 지속적으로 노력하고 있다"고 말했다.

2025.04.20 12:25장유미 기자

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

[타보고서] 신형 셀토스, 연비효율에 공간까지…첫차 후보 1순위

차기 美연준의장 지명…비트코인 9개월 만에 7만달러대로

HBM 공급 프로세스 달라졌다…삼성·SK 모두 리스크 양산

[ZD브리핑] 이차전지·통신·플랫폼·게임 '연간 성적표' 나온다

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.