검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (359건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

"챗GPT 써봤다" 90%…하지만 만족도는 '뚝'

알투씨컴퍼니(R2C Company)가 운영하는 데이터 수집 플랫폼 '픽플리(Pickply)'가 전국 남녀 1002명을 대상으로 실시한 설문조사에서 응답자의 89.7%가 AI 서비스 사용 경험이 있다고 답했다. 생성형 AI 서비스의 경우 84.6%가 사용해봤으며, 특히 챗GPT(ChatGPT)는 93.9%의 압도적인 사용률을 기록했다. 소비자 추천지수(NPS)에서 챗GPT(ChatGPT)는 -3점을 기록했다. 다른 생성형 AI 서비스들의 성적은 더 저조했다. 제미나이(Gemini)는 -26점, 뤼튼(Claude)은 -38점, 하이퍼클로바X(HyperCLOVA X)는 -40점, 딥시크(DeepSeek)는 -44점을 기록했다. NPS는 최대 100점에서 최저 -100점까지 측정되며, 마이너스 점수는 서비스 개선이 필요함을 의미한다. 기업이 도입했을 때 선호하는 AI 브랜드 조사에서는 챗GPT가 45.6%로 가장 높은 선호도를 보였다. 이어서 제미나이 35.8%, 코파일럿 28.0%, 하이퍼클로바X 27.4% 순이었다. 뤼튼과 클로드는 22% 내외의 선호도를 보였으며, 딥시크는 17.7%로 가장 낮은 선호도를 기록했다. 한편, 소비자들은 AI 서비스 도입 시 가장 중요한 요소로 '서비스의 정확성 및 신뢰성'(43.7%)과 '개인정보 보호 및 보안 정책'(30.9%)을 꼽았다. 알투씨컴퍼니 관계자는 "AI 시대에서 기업이 소비자 신뢰를 얻기 위해선 서비스의 정확성과 신뢰성, 개인정보 보호, AI 활용의 투명성 제고가 핵심"이라며 "기업들은 AI를 통한 혁신과 함께 윤리적 운영, 소비자와의 적극적인 소통 방안도 마련해야 할 것"이라고 말했다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.19 14:23AI 에디터

AI로 AI 공격 방어…기업 보안시스템 확 바꾼다

연간 보안사고 50% 감소…생성형 AI 도입으로 IAM 체계 강화 딜로이트(Deloitte)가 발간한 '생성형 AI 관련 신원 및 접근 관리 위험 극복하기' 보고서에 따르면, 생성형 AI 기술이 기업의 신원 및 접근 관리(IAM) 시스템에 혁신적 변화를 가져오고 있다. GPT-3와 Jasper 같은 AI 모델은 합성 데이터 생성과 잠재적 보안 위반 시뮬레이션을 통해 보안 프로토콜을 강화할 수 있다. 특히 금융 서비스 산업에서는 실시간 사기 탐지율이 기존 대비 40% 향상되었으며, 정부 기관의 중요 인프라 보안 사고는 평균 50% 감소한 것으로 나타났다. (☞ 보고서 바로가기) 딥페이크부터 피싱까지...생성형 AI가 만드는 새로운 위협 지도 보안 위협은 세 가지 주요 영역에서 발생하고 있다. 먼저 데이터 기반 위험으로, AI가 생성한 가짜 사용자 프로필이나 접근 로그로 인증 시스템을 우회하는 사례가 증가하고 있다. 생체 정보나 행동 패턴 등 민감한 사용자 데이터의 유출도 큰 위험이다. 특히 딥페이크 기술을 이용한 생체 인증 우회 시도는 전년 대비 200% 증가했다. AI 기반 피싱 공격의 성공률은 기존 수동 피싱 대비 5배 높은 것으로 나타났다. 24시간 실시간 모니터링 AI 기반 선제적 보안 체계 구축 보고서는 AI 기반의 다층적 방어 전략을 제시한다. 얼굴 인식, 음성 인식, 행동 패턴 분석 등 생체인식 기술을 통해 인증 정확도를 95% 이상으로 높일 수 있다. 키스트로크 패턴, 마우스 움직임, 위치 데이터 등의 실시간 분석으로 비정상 행위를 평균 2분 이내에 탐지할 수 있다. 위험도에 따라 추가 인증을 요구하는 적응형 인증 시스템은 오탐률을 60% 감소시켰다. AI 기반 보안 시뮬레이션으로 취약점 사전 차단 생성형 AI는 매월 평균 1000개 이상의 가상 공격 시나리오를 생성하여 보안 체계를 검증한다. 실제 사용자 데이터를 기반으로 한 시뮬레이션은 취약점 발견율을 75% 향상시켰다. 특히 다양한 접근 레벨과 권한을 가진 가상 사용자 프로필을 통한 테스트는 권한 상승 공격의 90%를 사전에 차단할 수 있었다. AI 위협 탐지 및 대응(ITDR) 체계의 진화 새롭게 도입된 AI 기반 ITDR 시스템은 피싱 시뮬레이션의 정교도를 높여 직원 교육 효과를 3배 향상시켰다. 사회공학적 공격 시뮬레이션은 실제 공격과 구분하기 어려울 정도로 정교해져, 보안팀 훈련의 현실성을 크게 높였다. 다요소 인증 우회 시도에 대한 시뮬레이션은 기존 취약점의 85%를 발견하는 성과를 보였다. AI로 AI를 강화하는 선순환 보안 체계 구축 생성형 AI는 자체 보안 시스템을 강화하는 데도 핵심적인 역할을 한다. AI 기반 이상 탐지 시스템 학습을 위해 대규모의 비정상 사용자 행동과 인증 시도 데이터셋을 생성할 수 있다. 이를 통해 실시간 보안 위협을 더욱 정확하게 식별할 수 있게 되었다. 특히 기존 데이터셋의 격차를 보완하는 합성 데이터 생성으로 다양한 신원과 잠재적 사기 시나리오에 대한 대표성을 확보했다. 조명 조건, 포즈, 얼굴 표정, 배경 시나리오 등의 변화를 포함한 추가 샘플을 생성하여 모델의 일반화 능력을 향상시켰다. 또한 소수 클래스(예: 희귀한 사기 사례)의 추가 예시를 생성하여 클래스 불균형 문제를 해결하고 모델 성능을 개선했다. 개발자들은 합성 데이터의 특성을 세밀하게 제어하여 실제 패턴과 일치하도록 하고 특정 검증 과제를 해결할 수 있게 되었다. AI는 기존 데이터셋의 불균형이나 불공정한 표현을 식별하고 수정하여 모델의 공정성과 포용성을 높이는 데도 활용된다. 이를 통해 대표성이 부족한 그룹에 대한 차별을 줄이고 더 공정한 모델을 구축할 수 있게 되었다. 윤리적 AI 보안을 위한 가이드라인 제시 보고서는 AI 보안 시스템 도입 시 준수해야 할 윤리적 가이드라인도 제시했다. 모든 AI 의사결정의 투명성을 보장하고, 중요 결정에는 반드시 인간 검토 과정을 포함해야 한다. 특히 계정 해지나 긴급 접근 권한 부여와 같은 결정에서 AI는 보조 수단으로만 활용되어야 한다. 또한 규제 준수를 위해 AI 의사결정 과정의 상세 로그를 최소 5년간 보관할 것을 권고했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.19 10:00AI 에디터

'전문지식' 무장한 딥시크 R1, 일반상식 질문엔 "포기할래"

일반인도 검증 가능한 벤치마크의 필요성 AI 모델의 능력을 평가하는 벤치마크가 점점 더 전문화되면서 새로운 문제가 대두되고 있다. 웰슬리 칼리지와 텍사스 오스틴 대학 연구진들에 따르면, 현재의 벤치마크들은 대부분 PhD를 보유했거나 취득 중인 전문가들이 설계한 것으로, 일반인들은 문제 자체를 이해하기 어려울 뿐만 아니라 답이 맞는지 검증하는 것도 쉽지 않다. 이는 AI 모델이 왜 특정 문제를 어려워하는지, 답이 정확한지, 효율적으로 추론하고 있는지를 확인하기 어렵게 만든다. 연구진은 이러한 문제가 앞으로 추론 모델이 더욱 확산됨에 따라 더욱 중요해질 것이라고 지적한다. (☞ 논문 바로가기) 실제로 높은 학위 소지가 반드시 뛰어난 추론 능력을 의미하지는 않는다. 따라서 연구진은 일반적인 지식만으로도 이해할 수 있는 문제로 구성된 벤치마크가 필요하다고 주장한다. 이러한 문제는 해결하기는 어렵더라도 답을 검증하는 것은 AI와 인간 모두에게 쉬워야 한다는 것이 연구진의 설명이다. 박사급 지식은 필요 없다... NPR 퍼즐로 AI 능력 측정 연구진이 발표한 연구 논문에 따르면, 기존 AI 모델의 평가 방식을 완전히 새롭게 접근한 벤치마크가 등장했다. 지금까지의 AI 벤치마크는 대학 수준의 수학 경진대회 문제나 고난도 프로그래밍 문제, 학문적 전문 지식이 필요한 문제들로 구성되어 왔다. 그러나 NPR 선데이 퍼즐 챌린지를 기반으로 한 이 새로운 벤치마크는 전문적인 지식 대신 일반적인 상식을 활용해 AI의 성능을 측정한다. 1987년부터 방송된 이 라디오 퍼즐 프로그램은 매주 수백에서 수천 명의 청취자들이 정답을 제출할 만큼 대중적이며, 일부 퍼즐의 경우 사전이나 지도를 참고해 풀 수 있도록 명시적으로 안내하기도 한다. 오픈AI o1, 59% 정답률로 경쟁 모델 압도 이번 연구의 가장 주목할 만한 결과는 오픈AI의 o1 모델이 59%의 정답률을 기록하며 다른 모델들을 크게 앞섰다는 점이다. o3-미니는 높은 추론 노력으로 47%, 기본 설정으로는 36%를 기록했으며, 딥시크 R1은 35%의 정답률을 보였다. 추론 기능이 없는 클로드 소넷 3.5와 GPT-4o는 각각 13%와 6%로 크게 뒤처졌다. 특히 주목할 점은, GPQA(구글 검증 Q&A)와 같은 PhD 수준의 과학 문제에서는 R1, o1, o3-미니 모델들이 비슷한 성능을 보였던 것과 달리, 이번 일반 상식 벤치마크에서는 모델 간 성능 차이가 뚜렷하게 나타났다는 것이다. 595문제 중 142건 포기 선언한 딥시크R1... 실패 유형 2가지 연구진은 AI 모델들의 새로운 실패 패턴을 발견했다. 딥시크 R1의 경우 595개의 도전 과제 중 142개에서 "포기할래"라고 선언했다. 실패 유형은 크게 두 가지로 나타났다. 첫째는 '공중에서 답 끌어내기'로, 추론 과정에서 전혀 언급하지 않은 답을 최종 답안으로 제시하는 경우다. 예를 들어 "alpha에서 중간 글자를 알파벳 순으로 이전 글자로 바꾸면 aloha가 되는" 문제에서 R1은 전혀 다른 "penne"와 "penné"를 답으로 제시했다. 둘째는 '의도적 제약조건 위반'으로, "queueing"이라는 답이 부적절하다는 것을 인정하면서도 어쩔 수 없이 답으로 제시하는 경우였다. 퍼즐의 합리성 검증 연구에 사용된 퍼즐들의 난이도가 적절했는지에 대한 의문이 제기될 수 있다. 그러나 연구진이 제시한 데이터에 따르면, "alpha에서 aloha로 바꾸는" 퍼즐의 경우 370명이 정답을 제출했고, "daiquiri" 문제는 500명이 맞췄다. NPR 선데이 퍼즐 챌린지의 청취자 수가 약 400만 명으로 추정되는 것을 고려하면, 이 문제들이 도전적이면서도 충분히 풀 수 있는 수준임을 보여준다. 또한 정답자들이 대부분 동일한 답에 도달했고 오답 제출이 드물었다는 점에서, 퍼즐의 답이 명확하고 검증 가능하다는 것을 입증한다. 이는 AI 모델의 오답이 문제의 모호성이나 난이도가 아닌 모델 자체의 한계에서 비롯되었음을 시사한다. R1의 영원한 생각 현상과 32,768 토큰의 한계 연구진은 R1 모델이 특정 문제에서 사고를 멈추지 못하는 현상을 발견했다. 32,768 토큰이라는 출력 제한에도 불구하고, 50개의 도전 과제에서 R1은 추론을 완료하지 못했다. 특히 "서로 다른 13개 글자로 구성된 미국 도시 이름 찾기"와 "7글자 음식 이름에서 첫 글자를 다섯 번째 위치로 옮기면 동의어가 되는 단어 찾기(brisket → risk, bet)" 문제에서 이러한 현상이 두드러졌다. 최대 컨텍스트 창(128K)으로 실험을 진행했을 때도 각 문제에서 10번 중 2번은 추론을 완료하지 못했다. 3,000 토큰 vs 10,000 토큰: AI 추론의 최적점 발견 연구진의 추론 과정 분석 결과, 대부분의 도전 과제는 20,000토큰 미만의 추론 출력을 생성했다. 제미니 씽킹은 약 10,000토큰에서 정확도가 정체된 반면, R1은 3,000토큰 정도에서 제미니 씽킹의 성능을 추월하기 시작했다. 모델의 불확실성도 관찰되었는데, R1은 29건, 제미니 씽킹은 18건, o1-미니는 3건의 사례에서 답을 번복했다. 한 가지 흥미로운 사례로, 7개 항목을 가진 카테고리를 찾는 문제에서 R1은 정답인 '대륙'을 초반에 발견했음에도 불구하고 다른 답을 계속 탐색하다가 결국 처음 찾은 답으로 회귀하는 모습을 보였다. GPQA 9.1%에서 GSM8K 97%까지: AI 벤치마크의 현주소 최근 AI 모델들의 성능이 급속도로 발전하면서 기존 벤치마크들이 빠르게 포화상태에 도달하고 있다. GPQA의 경우 물리학, 화학, 생물학 분야의 PhD 과정 전문가들이 만든 문제들로 구성되었지만, 최신 추론 모델들은 불과 몇 달 만에 이를 정복했다. HLE(Humanity's Last Exam)는 더 광범위하고 어려운 문제들로 구성되어 있으나, 여기서도 오픈AI o1이 9.1%의 정확도를 기록했다. 수학 분야에서는 더욱 두드러진 성과를 보여, GSM8K 같은 벤치마크에서 97% 이상의 정확도를 달성했다. 그러나 이번 NPR 퍼즐 챌린지는 AI 모델들이 여전히 일반 상식 영역에서는 한계를 보인다는 것을 증명했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.19 08:36AI 에디터

AI 자율성 높아질수록 인간 역할 줄어든다…섬뜩한 경고

자율성 확대되는 AI 에이전트...2024년 말 급격히 증가 허깅페이스(Hugging Face)의 연구진들이 발표한 논문에 따르면, 대규모 언어모델(LLM)의 벤치마크 정확도가 급격히 향상되면서 2024년 말부터 자율적이고 목표 지향적인 시스템인 'AI 에이전트'가 차세대 AI 기술로 부상하고 있다. 현재 많은 AI 에이전트들은 LLM을 더 큰 다기능 시스템에 통합하여 구축되고 있다. 실제 사례로는 회의 조직, 개인화된 소셜 미디어 게시물 생성, 자율 주행, 의료 서비스, 제조업 등 다양한 분야에서 활용되고 있다. (☞ 논문 바로가기) AI 에이전트의 정의와 특성...비결정적 환경에서 맥락 특화 계획 수립 연구진은 AI 에이전트를 "비결정적 환경에서 맥락 특화된 계획을 수립할 수 있는 컴퓨터 소프트웨어 시스템"으로 정의했다. 최근 도입된 AI 에이전트들의 공통점은 일정 수준의 자율성을 가진다는 것이다. 목표가 주어지면 이를 하위 작업으로 분해하고 각각을 직접적인 인간의 개입 없이 실행할 수 있다. 예를 들어, 이상적인 AI 에이전트는 "AI 에이전트에 관한 훌륭한 ICML 논문 작성을 도와줘"라는 상위 수준의 요청을 받았을 때, 이를 자동으로 하위 작업으로 나눌 수 있다. 여기에는 인용도가 높은 ICML 논문 검색, 인터넷에서 AI 에이전트 관련 정보 수집, 그리고 수집된 내용을 바탕으로 한 개요 작성 등이 포함된다. 이러한 AI 에이전트들은 대부분 ML 모델, 특히 LLM을 기반으로 구축되어 있어 기존의 컴퓨터 소프트웨어 실행 방식과는 다른 새로운 접근 방식을 보여준다. 5단계로 구분되는 AI 에이전트의 자율성...완전 자율 단계 위험 연구진은 AI 에이전트의 자율성 수준을 세분화하여 분석했다. 가장 기본적인 단계인 단순 프로세서는 LLM 출력을 단순히 출력하는 수준에 머무른다. 그 다음 단계인 라우터는 if-then 구조를 통해 기본적인 프로그램의 흐름을 결정할 수 있다. 세 번째 단계인 도구 호출은 함수와 인자를 선택하여 실행할 수 있는 능력을 가지고 있으며, 네 번째 단계인 다단계 에이전트는 while 루프를 통해 다음 단계를 결정하고 실행할 수 있다. 마지막 단계인 완전 자율 에이전트는 사용자의 요청에 따라 독자적으로 코드를 생성하고 실행할 수 있다. 각 단계가 올라갈수록 인간의 통제력은 줄어들고 시스템의 자율성은 증가하게 된다. AI 에이전트의 핵심 가치와 위험성...안전성·정확성·신뢰성 우려 연구진이 분석한 AI 에이전트의 가치와 위험성은 다양한 측면에서 나타난다. 안전성 측면에서는 예측 불가능한 행동으로 인한 인명 피해의 위험이 존재한다. 정확성 측면에서는 LLM 기반 모델이 가진 부정확성이 자율성이 증가할수록 더욱 증폭되는 문제가 있다. 일관성 측면에서는 비결정적 특성으로 인해 결과를 예측하기 어렵다는 한계가 있으며, 효율성 측면에서는 복잡한 오류를 수정하는 데 많은 시간이 소요된다는 문제가 있다. 형평성 측면에서는 데이터의 편향성으로 인한 차별이 심화될 수 있으며, 유연성 증가는 다양한 시스템 연동으로 인한 보안 위험을 수반한다. 또한 인간친화성 측면에서는 과도한 의존과 감정적 얽힘의 위험이, 개인정보보호 측면에서는 민감 정보 노출의 위험이 존재한다. 시스템의 관련성이 높아질수록 개인화로 인한 편향이 강화될 수 있으며, 보안 측면에서는 시스템 접근 취약점이 확대된다. 지속가능성 측면에서는 높은 탄소 배출과 물 사용량이 문제가 되며, 신뢰도와 진실성 측면에서는 검증이 불가능하고 허위정보가 생성되고 확산될 위험이 있다. 자율주행차부터 자율무기까지...현재 개발되는 AI 에이전트의 현주소 현재 AI 에이전트는 다양한 분야에서 급속도로 발전하고 있다. 자율주행차의 경우 센서를 통해 환경을 인식하고 인간의 개입 없이 주행하는 수준에 도달했으며, 이는 소비자용 차량부터 완전 자율주행 테스트 환경의 차량까지 다양한 자율성 수준으로 개발되고 있다. 산업용 로봇의 경우 제조업에서 시작하여 의료 분야까지 그 영역을 확장하고 있으며, 최근에는 최신 LLM이 로봇 시스템에 통합되면서 고전적인 로봇공학이 에이전트 AI 영역으로 빠르게 편입되고 있다. 특히 우려되는 것은 자율무기 시스템의 개발이다. 이는 인간의 의미 있는 통제 없이 목표물을 식별하고 공격할 수 있는 시스템으로, 윤리적 책임성과 도덕적 책임, 안전성 측면에서 디지털 에이전트보다 더 심각한 문제를 제기한다. 인간의 목표와 맞지 않는 경우 발생할 수 있는 피해는 완전 자율성이 부여될 때 더욱 심각해질 수 있다. AI 에이전트에 대한 대립되는 관점들...완전 자율 AI의 필요성 주장도 AI 에이전트 개발을 둘러싼 학계의 의견은 크게 둘로 나뉜다. 일부 연구자들은 완전 자율 AI나 '완전한 에이전트'가 인간 지능을 더 잘 이해하는 데 도움이 될 수 있다고 주장한다. 또한 강한 AI 시스템이 인간의 오류와 비합리성을 상쇄하는 데 도움이 될 수 있다는 의견도 있다. 특히 인공일반지능(AGI) 개발을 목표로 하는 연구자들과 기업들은 AGI가 실현된다면 필연적으로 완전 자율성을 가지게 될 것이라고 전망한다. AGI 지지자들은 이를 통해 기후변화나 기아와 같은 전 지구적 문제를 해결하고 상당한 경제적 이익을 창출할 수 있다고 주장한다. 그러나 연구진은 AGI가 개발된다 하더라도 인간이 항상 일정 수준의 통제권을 유지해야 하며, 이번 연구에서 제시한 에이전트 수준 구분이 향후 AGI 개발 목표 설정에도 도움이 될 것이라고 제안했다. 반자율 시스템 도입과 인간 통제 강화로 위험 최소화해야 연구진은 완전 자율 시스템 개발의 대안으로 '반자율(semi-autonomous)' 시스템의 도입을 제안했다. 이를 위해서는 우선 AI 에이전트의 자율성 수준을 명확히 구분하고 이를 개발 과정에 반영해야 한다. 또한 기술적 수준과 정책적 수준 모두에서 강력한 인간 감독 프레임워크를 개발해야 하며, 이는 유익한 반자율 기능을 보존하면서도 의미 있는 인간의 감독을 가능하게 하는 것을 목표로 한다. 마지막으로 AI 에이전트가 의도된 작동 범위 내에서만 움직이도록 하는 새로운 안전성 검증 방법의 도입이 필수적이다. 연구진은 1980년 북미 지역에서 발생한 사례를 경고의 시그널로 제시했다. 당시 컴퓨터 시스템이 2,000여 개의 소련 미사일이 북미를 향해 날아오고 있다고 잘못 판단했고, 이로 인해 폭격기 승무원들이 비상 대기 상태에 들어가고 지휘소가 전쟁 준비에 돌입하는 상황이 발생했다. 다행히 당시에는 서로 다른 경보 시스템 간의 인간 교차 검증이 이루어져 오경보임이 밝혀졌다. 이처럼 자동화 시스템의 오류는 치명적인 결과를 초래할 수 있으며, AI 시스템에서도 인간의 판단과 맥락 이해가 필수적이라고 연구진은 강조했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 21:54AI 에디터

AI 제안을 무조건 따르나요…EU가 경고하는 '자동화 편향성'

15%에 달하는 AI 시스템이 고위험...EU, 자동화 편향성 첫 법제화 옥스포드 인터넷 연구소의 요한 로욱스(Johann Laux)와 하겐대학교의 한나 루셰마이어(Hannah Ruschemeier) 교수가 발표한 연구에 따르면, 유럽연합(EU)의 AI법(AI Act)은 인공지능 시스템을 감독하는 인간의 편향성 문제를 처음으로 법제화했다. EU 집행위원회는 EU 시장의 AI 시스템 중 5-15%가 고위험 시스템으로 분류될 것으로 예상했다. 특히 AI법 제14조는 고위험 AI 시스템에 대한 인간의 감독을 의무화하면서, '자동화 편향성(Automation Bias)'이라는 심리적 현상을 명시적으로 언급했다. (☞ 논문 바로가기) 유럽의회 경고...2021년 AI법 초안에 자동화 편향성 포함 AI법의 입법 과정을 보면, 2021년 4월 21일 위원회 초안에서 처음으로 자동화 편향성이 언급됐다. 유럽의회는 "AI 역량이 보안 위험을 초래할 수 있으며, 인간이 자신의 판단보다 AI를 더 신뢰하게 될 수 있다"고 경고했다. 또한 "실험 결과가 보여주듯이, 이는 AI의 자율성 수준을 원래 설계된 지원 역할 이상으로 높일 수 있으며, 인간이 AI 시스템에 대한 경험과 지식을 쌓을 기회를 놓치게 된다"고 지적했다. 의료에서 국가안보까지...자동화 편향성이 영향 미치는 10개 분야 자동화 편향성은 다양한 분야에서 확인됐다. 연구진이 밝힌 주요 영향 분야는 의료, 군사, 인사관리, 국가안보, 공공행정, 교육, 공공계약 입찰, 망명 심사, 형사 소송, 민주적 절차 등이다. 발생 원인으로는 사용자의 피로도, 성실성, 결과에 대한 책임, 교육 수준, 정보 제시 방식, 시스템 인터페이스 설계, 환경적 제약, 업무 부하, 과제 복잡성, 사회적 환경 등이 복합적으로 작용한다. 채용 AI 사례로 본 편향성 판단의 어려움...여성 선발률 75%가 불공정한가? 연구진은 채용 AI 시스템 사례를 통해 편향성 판단의 복잡성을 설명했다. AI 시스템 공급자는 불공정 여부를 판단하기 위한 기준으로 '소수 그룹의 선발률이 최고 선발률의 80% 이상이어야 한다'는 자체 기준을 제시했다. 전체 지원자가 남녀 각각 10명일 때, 여성 3명(30%)과 남성 4명(40%)이 면접 대상자로 선발된 경우를 보자. 여성 선발률이 남성 선발률의 75%로, 공급자가 제시한 80% 기준에 미달해 수치상으로는 불공정하다. 그러나 연구진은 이런 통계적 증거만으로는 실제 불공정 여부를 판단하기 어렵다고 지적했다. AI법 제14조에 따르면 인간 감독자는 단순히 AI 공급자가 제시한 통계적 기준이 아닌, EU 차별금지법의 요구사항을 고려해야 한다. EU 차별금지법은 지금까지 통계적 증거보다는 맥락과 사법적 직관에 더 의존해왔다. 즉, 공급자의 통계적 기준을 충족하지 못했더라도, 구체적인 상황과 맥락을 고려했을 때는 해당 채용 과정이 공정하다고 판단될 수 있다는 것이다. 이는 편향되지 않은 '참된 결과'를 정의하는 것이 얼마나 어려운지를 보여주는 사례다. AI법 제6조의 허점...인간 검토만 있으면 고위험 제외 AI법 제6조(3)은 중요한 보호의 공백을 만들 수 있다고 연구진은 지적했다. 이 조항에 따르면 "적절한 인간 검토 없이 이전 평가를 대체하거나 영향을 미치지 않는" AI 시스템은 고위험으로 분류되지 않는다. 하지만 시스템이 단순히 '지원' 역할만 한다고 해도 자동화 편향성으로 인해 인간이 AI의 제안에 과도하게 의존할 수 있다. 더욱이 AI의 영향을 받지 않았다는 것을 증명하기도 어렵다. 이는 사전 검토 없이 공급자의 자체 평가에만 의존하기 때문에 상당한 보호의 공백이 생길 수 있다는 것이 연구진의 분석이다. AI 불신도 문제...과잉수정이 가져올 수 있는 부작용 자동화 편향성을 막으려는 조치들이 오히려 AI 시스템에 대한 과도한 불신을 초래할 수 있다고 연구진은 경고했다. 이러한 과잉수정은 AI 도입으로 얻을 수 있는 이점을 저해할 수 있다. AI법 제14조는 이런 맥락에서 해석될 수 있는데, AI 시스템의 제안을 잘못 거부하는 것이 잘못 수용하는 것보다 덜 문제가 된다는 규범적 선택을 반영한다는 것이다. 이는 인간의 자율성을 우선시하되, 그 대가로 발생할 수 있는 인간의 실수를 감수하겠다는 의미로 해석된다. EU GDPR과의 관계...AI 감독자 인식 개선만으로는 부족 AI법은 GDPR(일반 데이터 보호 규정)과 함께 적용된다. 최근 유럽사법재판소의 SCHUFA 판결에 따르면, AI법 제14조와 제26조의 요구사항을 충족하더라도 GDPR 제22조의 자동화된 결정으로 간주될 수 있다. 즉, 형식적으로 책임자에게 결정 권한이 있더라도, 최종 결정이 자동화된 이전 결정에 크게 의존한다면 자동화된 결정으로 볼 수 있다는 것이다. 골드 스탠다드는 실험적 검증...비용 문제로 전면 도입은 난관 연구진은 자동화 편향성 방지를 위한 최선의 방안으로 실험적 검증을 제시했다. 특정 감독 체계에서 자동화 편향성이 발생할 가능성을 경험적으로 테스트하는 것이다. 대안으로는 현재의 과학적 연구 결과를 반영한 체크리스트 도입을 제안했다. 다만 실험적 검증은 모든 고위험 AI 시스템에 적용하기에는 비용이 많이 든다는 한계가 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 20:17AI 에디터

머스크의 '그록3', 추론-미니 추론 2종 나와…1주일 후 음성 모드 추가

테크크런치(TechCrunch)가 19일(현지 시간) 보도한 내용에 따르면 일론 머스크의 인공지능 기업 엑스AI(xAI)가 17일(현지시간) 새로운 AI 모델 '그록3(Grok 3)'을 공개했다. 이와 함께 그록 iOS 앱과 웹 앱의 새로운 기능도 선보였다. 그록3는 오픈AI(OpenAI)의 GPT-4o와 구글(Google)의 제미나이(Gemini)에 대항하는 모델이다. 이미지 분석과 질문 응답이 가능하며, 머스크의 소셜 네트워크 X(구 트위터)의 다양한 기능을 지원한다. 엑스AI는 멤피스에 위치한 대규모 데이터센터에서 약 20만 개의 GPU를 활용해 그록3를 학습시켰다. 머스크는 X를 통해 "그록3가 이전 모델인 그록2보다 10배 더 많은 컴퓨팅 파워로 개발됐다"고 밝혔다. 그록3는 '그록3 추론(Grok 3 Reasoning)'과 '그록3 미니 추론(Grok 3 mini Reasoning)' 등 여러 모델로 구성됐다. 이들은 오픈AI의 o3-미니(o3-mini)와 중국 딥시크(DeepSeek)의 R1처럼 문제를 '사고'하며 해결하는 기능을 갖췄다. 또한 '딥서치(DeepSearch)'라는 새로운 기능을 통해 인터넷과 X 플랫폼을 검색하여 질문에 대한 요약된 답변을 제공한다. X 프리미엄플러스(Premium+) 구독자($50/월)가 그록3를 먼저 사용할 수 있다. 추가 기능은 '슈퍼그록(SuperGrok)' 요금제($30/월 또는 $300/년)를 통해 이용 가능하다. 머스크는 "약 1주일 후에 음성 모드가 추가되고, 몇 주 후에는 기업용 API를 통해 그록3 모델과 딥서치 기능을 제공할 계획"이라고 밝혔다. 또한 "그록3가 안정화되면 그록2를 오픈소스로 공개할 예정"이라고 덧붙였다. 엑스AI는 그록3가 수학 문제 평가 벤치마크인 AIME와 박사급 물리, 생물, 화학 문제를 평가하는 GPQA에서 GPT-4o를 능가했다고 주장했다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다.

2025.02.18 20:13AI 에디터

[Q&AI] 국내 첫 대체거래소 '넥스트레이드'…거래 가능 종목 10개는?

질문1: 한국에 대체 거래소가 생긴다고 하는데, 뭐가 달라지는 거야? 앨런 답변: 한국의 첫 대체 거래소인 '넥스트레이드'가 3월 4일에 출범할 예정입니다. 이로 인해 여러 가지 변화가 예상됩니다. 거래 시간 연장: 기존 한국거래소(KRX)의 거래 시간은 오전 9시부터 오후 3시 30분까지였으나, 넥스트레이드는 오전 8시부터 저녁 8시까지 거래가 가능합니다. 프리마켓(오전 8시~8시 50분)과 애프터마켓(오후 3시 30분~8시)을 운영하여 투자자들에게 더 많은 거래 기회를 제공합니다. 수수료 절감: 넥스트레이드는 기존 거래소보다 20~40% 저렴한 수수료를 제공할 예정입니다. 이는 단기 매매를 선호하는 투자자들에게 유리할 수 있습니다. 거래 종목 확대: 초기에는 10개 종목만 거래 가능하지만, 점차 거래 종목을 800개로 확대할 계획입니다. 삼성전자와 주요 삼성그룹주는 3월 24일부터 거래가 가능해질 예정입니다. 새로운 호가 방식 도입: 중간가주문과 같은 새로운 호가 방식이 도입되어 투자자들이 보다 유연한 거래를 할 수 있게 됩니다. 시장 경쟁 촉진: 넥스트레이드의 출범으로 한국 주식시장은 복수 거래소 체제로 전환됩니다. 이는 한국거래소의 독점 체제를 깨고, 자본시장의 발전에 기여할 것으로 기대됩니다. 투자자 편의성 증대: 거래 시간이 연장됨에 따라 직장인들도 퇴근 후 주식 거래에 참여할 수 있으며, 저녁 시간에 발생할 수 있는 이슈에 대한 대응력이 높아집니다. 그러나 대체 거래소의 안전성에 대한 우려와 고빈도매매와 같은 초단타 거래 증가 가능성도 지적되고 있습니다. 초기 정착에는 시간이 필요할 것으로 보이며, 지속적인 투자자 보호와 안정성 확보가 중요합니다. 질문2. 넥스트레이드에서 거래 가능한 종목은 어떤 것들이 있나요? 앨런 답변: 넥스트레이드에서 출범 초기인 3월 4일부터 거래 가능한 종목은 다음과 같습니다. 코스피 종목 롯데쇼핑 제일기획 코오롱인더스트리 LG유플러스 S-OIL 코스닥 종목 골프존 동국제약 에스에프에이 YG엔터테인먼트 컴투스 이들 종목은 초기 1~2주 동안 거래되며, 점차적으로 거래 종목을 확대하여 5주 차에는 800개 종목으로 늘릴 계획입니다. ■ 기사는 앨런을 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 17:13AI 에디터

알트먼의 깜짝 고백…"GPT-4.5에서 AGI 느꼈다"

오픈AI의 샘 알트먼 CEO가 새로운 언어모델 'GPT-4.5'에 대한 흥미로운 소감을 밝혔다. 알트만 CEO는 18일(현지 시간) 자신의 소셜미디어 X(구 트위터)를 통해 "GPT-4.5를 시험해본 전문가들 사이에서 예상보다 더 강한 'AGI(인공일반지능, Artificial General Intelligence)를 느끼는 순간'이었다는 반응이 나왔다"고 전했다. 알트먼 CEO는 음성 기능과 관련된 질문에 "GPT-4.5에는 포함되지 않았지만, 향후 제품에서는 매우 중요한 부분이 될 것"이라며 "훨씬 더 나은 기능을 만들고 싶다"고 답변했다. 한편, 이번 발언은 경쟁사 엑스AI의 그록(Grok) 3 출시설이 나돌고 있는 가운데 나온 것이어서 AI 업계의 주목을 받고 있다. 이 소식은 알트먼 CEO의 게시물이 170만 회 이상의 조회 수를 기록하며, AI 개발 경쟁이 한층 더 가열되고 있음을 보여주고 있다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 15:08AI 에디터

머스크, '그록3' 마침내 공개…GPT-4o 제치고 챗봇 성능 1위

수학·과학·코딩 테스트에서도 강력한 성능 입증 xAI가 새롭게 출시한 인공지능 챗봇 '그록3'가 AI 성능 평가 플랫폼 Chatbot Arena에서 최상위 점수를 기록하며 경쟁 모델들을 압도했다. 18일(한국 시간) 오후 1시 xAI 공식 X에서 진행된 '그록3 출시' 라이브에 따르면, '그록3'는 OpenAI의 GPT-4o, Google DeepMind의 Gemini-2 Pro, Anthropic의 Claude 3.5 Sonnet 등을 제치고 챗봇 성능 순위 1위에 올랐다. (☞ 발표 바로가기) 그록3, AI 챗봇 성능 평가 1위 차지 최근 공개된 Chatbot Arena의 성능 비교 차트에 따르면, '그록3'는 경쟁 모델을 상대로 가장 높은 점수를 기록했다. 특히 LMSYS의 순위 평가에서 '그록3'는 독보적인 점수로 1위를 차지했으며, 신뢰 구간(오차 범위) 역시 경쟁 모델들보다 안정적인 것으로 나타났다. LMSYS의 Chatbot Arena는 익명의 AI 모델을 사용자가 직접 비교 평가하는 방식으로 운영되며, AI 챗봇 간의 실제 사용자 피드백을 기반으로 순위를 산정한다. 이번 결과는 '그록3'가 실사용 환경에서 GPT-4o나 Gemini-2 Pro보다 더 나은 성능을 발휘했음을 시사한다. 벤치마크 테스트에서도 두각 또한 Benchmarks테스트에서도 '그록3'는 수학(AIME 2024), 과학(GPQA), 코딩(LCB Oct-Feb) 항목에서 경쟁 모델 대비 압도적인 성적을 기록했다. 수학(AIME 2024):52점(그록3) vs. 40점(GPT-4o), 39점(Claude 3.5 Sonnet) 과학(GPQA):75점(그록3) vs. 65점(Gemini-2 Pro, GPT-4o), 50점(Claude 3.5 Sonnet) 코딩(LCB Oct-Feb):57점(그록3) vs. 41점(GPT-4o), 40점(Gemini-2 Pro) 이는 AI 모델의 논리적 추론 및 문제 해결 능력을 평가하는 핵심 지표로, '그록3'가 특정 영역에서 기존 모델들보다 더 뛰어난 성능을 보였다는 점을 확인할 수 있다. xAI, 그록3로 AI 경쟁에서 우위 점할까? xAI는 일론 머스크가 설립한 AI 연구 기업으로, 경쟁사 대비 보다 자유로운 답변을 생성하는 AI 모델을 개발하는 것을 목표로 한다. '그록3'는 이전 모델보다 자연어 이해와 생성 능력이 크게 향상되었으며, 특히 복잡한 문제 해결과 프로그래밍에서 높은 성과를 보이고 있다. 이번 '그록3'의 성능 결과는 AI 시장에서 OpenAI, Google DeepMind, Anthropic과의 경쟁이 더욱 치열해지고 있음을 의미한다. GPT-4o와 Gemini-2 Pro가 시장을 선도하고 있는 가운데, '그록3'가 실제 제품화 과정에서 어떤 차별점을 가질지 주목된다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 14:22AI 에디터

美 법원 "AI도 저작권 위반"...챗GPT·클로드 떨고 있다

미국에서 AI 학습데이터 관련 첫 저작권 침해 판결이 나왔다. 테크크런치(TechCrunch)가 17일(현지 시간) 보도한 내용에 따르면, 미국 연방법원은 지난주 법률 테크 기업 로스인텔리전스가 톰슨로이터스의 콘텐츠를 무단으로 AI 학습에 사용한 것이 저작권을 침해했다고 판결했다. 로스인텔리전스는 톰슨로이터스의 법률 연구 서비스인 웨스트로(Westlaw)의 판례 요약본(headnotes)을 AI 학습에 활용했다. 이 회사는 해당 데이터 사용이 '변형적 사용'으로 합법이라고 주장했다. 하지만 스테파노스 비바스(Stephanos Bibas) 판사는 이를 인정하지 않았다. 비바스 판사는 "로스인텔리전스가 웨스트로의 판례 요약본을 단순 재포장했을 뿐, 새로운 의미나 목적을 추가하지 않았다"고 판단했다. 시러큐스 대학교의 슈바 고시(Shubha Ghosh) 교수는 "이번 판결은 톰슨로이터스의 강력한 승리"라고 평가했다. 홀 에스틸(Hall Estill) 법률사무소의 랜디 매카시(Randy McCarthy) 변호사는 "이번 판결이 AI 학습데이터의 공정사용 여부에 대한 하나의 전투일 뿐"이라며 "더 많은 판례가 필요하다"고 말했다. 현재 미국에서는 39건 이상의 AI 관련 저작권 소송이 진행 중이다. 이번 판결은 생성형 AI와 일반 AI를 구분했지만, 향후 뉴스 사이트나 콘텐츠 제작자들의 소송에 영향을 미칠 수 있다는 전망이 나온다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 14:16AI 에디터

AI가 미디어를 바꾼다…기자-독자들의 생각은?

호주 멜버른 RMIT대학교와 워싱턴주립대학교, QUT 디지털미디어연구센터가 2022년부터 2024년까지 3년간 7개국 뉴스룸의 생성형 AI 활용 실태와 이에 대한 언론인들과 독자들의 인식을 심층 분석한 연구 보고서를 발표했다. 해당 보고서는 호주, 독일, 미국, 영국, 노르웨이, 스위스, 프랑스의 16개 뉴스 조직에서 일하는 20명의 언론인들과 60명의 뉴스 독자들을 인터뷰한 결과를 담고 있다. (☞ 보고서 바로가기) AI로 생성된 이미지 검증할 도구 없다 - 93.75%의 언론사가 허위정보 우려 16개 언론사 중 15개사(93.75%)가 AI 생성 콘텐츠의 허위정보 확산 가능성을 가장 큰 위험으로 지적했다. 한 프랑스 뉴스룸의 기자는 "AI로 생성된 이미지를 검증할 수 있는 도구가 현재로서는 없다"고 밝혔다. 조사 결과 10개 언론사가 인력 감축을, 8개 언론사가 저작권 문제와 AI 생성 콘텐츠 감지의 어려움을 주요 우려사항으로 꼽았다. AI 활용도 조사: 이미지 리사이징 95% vs 가상 앵커 6.4%의 극명한 대비 연구팀이 23가지 AI 활용 사례에 대한 독자 선호도를 조사한 결과, 이미지 리사이징(95%), 색상 팔레트 생성(86.66%), 브레인스토밍(83.3%), 비디오 편집(78.3%), 이미지 인식(76%)과 같은 기술적 보조 기능에는 높은 선호도를 보였다. 반면 가상 뉴스 진행자 생성(6.4%), 인물 사진 확장(0%), 워터마크 제거(15%), 사진 합성(16.6%)과 같은 콘텐츠 조작 기능에는 강한 거부감을 나타냈다. 독자 98.34% AI 사용 가이드라인 필수 - 투명성에 대한 높은 요구 조사 대상 독자의 98.34%가 뉴스 조직의 AI 사용 가이드라인 수립이 필요하다고 답했으며, 85%는 AI 사용의 투명한 공개를 요구했다. 독자들은 AI 사용 내역이 콘텐츠 시작 부분에 명확히 표시되어야 하며, 산업 전반에 걸쳐 통일된 AI 콘텐츠 표시 기준이 필요하다고 제안했다. 특히 AI가 생성하거나 편집한 콘텐츠의 비율을 명시하고 이를 항상 동일한 위치에 표시하기를 원했다. 전통 의상 입은 아시아 여성만 생성 - AI 알고리즘의 편향성 문제 연구진은 AI 시스템의 심각한 편향성을 발견했다. 성별, 인종, 연령뿐 아니라 도시-비도시 환경에 대한 편향도 확인됐다. 한 아시아계 사진 편집자의 경험은 이를 잘 보여준다. "어머니가 분홍색 블라우스와 청바지를 입고 계셨는데, AI에 상세한 프롬프트를 입력했음에도 계속해서 전통 의상을 입은 클리셰적인 아시아 여성의 모습만 생성했다"고 증언했다. 호주 주요 언론사들의 AI 활용 현황: 번역과 메타데이터 중심 호주의 주요 뉴스룸들은 AI를 주로 콘텐츠 처리와 백엔드 프로세스에 활용하고 있다. 구체적으로는 비디오 메타데이터 추가, 아카이브 검색 기능 향상, 다문화 독자를 위한 기사 번역 등에 AI를 실험적으로 도입하고 있다. 대부분의 언론사가 AI 도입을 위한 전담 조직을 운영하고 있으며, 법률, 편집, 콘텐츠, 기술 부서 대표들로 구성된 AI 운영위원회를 통해 AI 활용 방향을 결정하고 있다. AI 도입은 신중하게 - 독자들이 제안한 20가지 기대사항 독자들은 AI 활용에 대해 24가지의 구체적인 기대사항을 제시했다. 가장 많이 언급된 네 가지 주요 기대사항은 AI 사용에 대한 가이드라인 수립(98.34%), AI 사용의 투명한 공개(85%), AI 생성 콘텐츠의 검증(33%), AI 최소 사용 원칙(18.3%)이었다. 그 외에도 AI 정책의 시대적 변화 반영(8.3%), AI는 편집용으로만 사용(8.3%), 법적 규정 준수(6.6%), AI 생성 이미지 사용 금지(5%) 등의 의견이 있었다. 한 응답자는 "AI가 존재하지 않아야 한다거나 전혀 쓸모없다고 말하는 것은 아니지만, 뉴스룸에서 인력을 대체하거나 최종 단계에서 AI가 개입하는 것은 최소화되어야 한다"고 강조했다. 또한 응답자들은 AI 훈련에 개인정보 사용 금지, 단일 AI 도구 의존도 제한, AI 편향성 인식과 방지, 인물 이미지 편집 시 당사자 동의 획득 등 구체적인 실행 지침도 제안했다. AI 크롤링 차단 - 뉴스룸의 새로운 과제 주목할 만한 점은 많은 뉴스 조직이 자사 콘텐츠가 AI 학습 데이터로 활용되는 것을 막기 위해 AI 크롤러 차단에 나서고 있다는 것이다. 대형 언어 모델의 학습 데이터로 자사 콘텐츠가 무단으로 사용되는 것을 방지하기 위한 조치다. 이는 저작권 보호와 함께 AI 생성 콘텐츠의 품질 관리를 위한 것으로 분석된다. 이 연구는 뉴스룸에서의 AI 활용이 아직 초기 단계이며, 기술의 발전과 함께 윤리적 가이드라인과 투명성 확보가 무엇보다 중요하다는 점을 강조했다. 특히 독자들의 신뢰를 유지하기 위해서는 AI 사용에 대한 명확한 정책과 공개가 필수적이라는 결론을 내렸다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 14:14AI 에디터

AI, 동물 통증도 잘 잡아낸다…"수의사 보다 11.5% 더 정확"

AI, 수의사보다 11.5% 더 정확한 판단력 보여 이스라엘 하이파 대학교와 브라질 상파울루 주립대학교 공동 연구팀이 발표한 연구에 따르면, 인공지능(AI)이 수의사보다 더 정확하게 동물의 통증을 판단할 수 있는 것으로 나타났다. CLIP 인코더(CLIP encoder)를 기반으로 한 AI 시스템은 양의 얼굴 표정을 분석해 통증을 평가하는 데 있어 전문 수의사들보다 우수한 성능을 보였다. (☞ 논문 바로가기) 구체적으로 AI는 양 안면 표정 척도(SFPES)를 사용한 인간 평가자들보다 통계적으로 유의미하게 높은 정확도를 달성했다(AUC 차이 = 0.115, p < 0.001). 더욱 주목할 만한 점은 AI가 현재 '골든 스탠다드'로 여겨지는 USAPS 행동 평가에서도 인간 전문가와 대등한 수준의 성능을 보였다는 것이다(AUC 차이 = 0.027, p = 0.163). 정밀한 연구 설계: 48마리 양 대상 96개 이미지 분석 연구팀은 17마리의 베르가마시아종, 18마리의 라카우네종, 13마리의 도르퍼종 등 총 48마리의 양을 대상으로 연구를 진행했다. 각 양의 정면과 측면 이미지를 수술 전(통증 없음)과 수술 3-4시간 후(최대 통증 예상 시점) 시점에서 촬영했다. 총 96장의 이미지(48마리 x 2단계 x 2방향)를 분석에 활용했으며, 더욱 정확한 결과를 위해 USAPS 측정값을 기반으로 데이터셋을 정제해 최종적으로 39마리의 데이터를 사용했다. AI 모델의 혁신적 접근법: CLIP 인코더와 나이브 베이즈 분류기 결합 연구팀이 개발한 AI 파이프라인은 두 가지 핵심 기술을 결합했다. 먼저 CLIP 인코더는 양의 정면과 측면 이미지를 각각 768차원의 임베딩 벡터로 변환한다. 이후 두 벡터를 결합해 1,536차원의 단일 벡터를 생성하는데, 이는 양의 얼굴 표정에 대한 종합적인 디지털 표현이다. 이렇게 변환된 데이터는 나이브 베이즈(Naive Bayes) 분류 모델을 통해 최종적으로 통증 여부를 판단한다. 특히 연구팀은 'leave-one-animal-out' 교차 검증 방식을 도입해 개별 양의 특성이 학습에 영향을 미치지 않도록 했으며, 특징 선택(feature selection) 기법을 활용해 모델의 과적합을 방지하고 연산 복잡성을 줄였다. 이러한 방식은 적은 양의 훈련 데이터로도 효과적인 학습이 가능하다는 장점이 있다. AI의 혁신적 성과: 정확도 82.29%, 특이도 83.33% 달성 AI 시스템은 정확도 82.29%, 민감도 81.25%, 특이도 83.33%, F1 스코어 82.11%를 기록했다. 이는 USAPS 컷오프 포인트 4 기준 인간 평가의 정확도 79.56%, 민감도 87.76%, 특이도 71.35%, F1 스코어 81.11%를 뛰어넘는 수준이다. 특히 SFPES를 사용한 인간 평가(정확도 70.83%, 민감도 86.72%, 특이도 54.95%)와 비교했을 때 현저히 우수한 성능을 보여주었다. 전문가 평가의 주관성 한계: 성별, 피로도 등 8가지 편향 요소 확인 기존 통증 평가 방식은 관찰자의 사전 훈련 정도, 성별, 피로도, 경험, 소요 시간 등 다양한 요인에 의해 영향을 받는다. 특히 최근 연구에서는 고양이 통증 평가에 사용되는 세 가지 척도(CMPS-Feline, CSU-FAPS, FGS)의 평가자 간 신뢰도가 대부분 낮음에서 보통 수준에 그치는 것으로 나타났다. 현재 연구의 주요 한계점으로는 상대적으로 작은 데이터셋 크기와 농장 환경에서의 실제 적용 가능성 검증이 부족하다는 점을 들 수 있다. AI 진단의 한계와 과제: 중간 강도 통증 평가 능력 검증 필요 현재 AI 시스템은 극단적인 통증 상황(수술 직후)만을 평가했다는 한계가 있다. 연구진은 진통제 투여 후와 수술 24시간 후 등 다양한 시점에서의 평가 능력 검증이 필요하며, 특히 경증에서 중등도 통증의 진단 정확도 검증이 추가로 필요하다고 지적했다. 향후 연구 과제로는 AI의 의사결정 과정을 설명할 수 있는 설명 가능한 AI(XAI) 연구와 시간적 차원을 포함한 행동 분석 AI 개발이 제시되었다. 임상 현장 도입을 위한 로드맵: PainChek 사례를 통해 본 실용화 방안 인간 통증 평가에서는 이미 페인첵(PainChek)이라는 AI 기반 모바일 앱이 실제 임상에서 활용되고 있으며, 96.4%의 정확도를 보이고 있다. 연구진은 이를 모델로 삼아 동물용 통증 평가 앱 개발을 차기 목표로 제시했다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 09:16AI 에디터

'위장 정보' 숨겨 목소리 도용 차단…'보컬크립트' 기술 나왔다

기존 딥페이크 음성 탐지의 한계: 사후 대응에서 사전 예방으로 중국 란저우대학교 연구진이 발표한 논문에 따르면, AI 음성 복제 기술의 발전이 텍스트 음성 변환(TTS)과 음성 변환(VC) 분야에서 괄목할만한 성과를 보이고 있다. 하지만 이러한 발전은 동시에 심각한 보안 위험을 초래하고 있다. 기존의 수동적 탐지 기술들은 워터마킹이나 패시브 탐지 기술에 의존해 공격이 발생한 후에야 대응이 가능했으며, 특정 공격 패턴에만 과적합되는 한계를 보였다. (☞ 논문 바로가기) AI 음성 복제의 핵심 기술: 음성 변환과 TTS의 작동 원리 음성 복제 기술은 크게 음성 변환(Voice Conversion)과 텍스트 음성 변환(TTS) 두 가지 방식으로 구현된다. 음성 변환은 임의의 화자 음성을 목표 화자의 음성으로 변환하면서 언어적 내용은 유지하는 기술이다. 반면 TTS는 더 유연한 방식으로, 원본 화자의 음성 없이도 텍스트만으로 원하는 음성을 생성할 수 있다. 이러한 기술의 핵심에는 타코트론(Tacotron)과 패스트스피치(FastSpeech)와 같은 딥러닝 기반 음향 모델이 있다. 특히 타코트론2는 위치 인식 어텐션 모듈을 도입해 합성 품질을 크게 개선했으며, 패스트스피치2는 음향 사전 정보를 활용해 더욱 향상된 결과를 제공한다. 음성의 최종 합성 단계에서는 하이파이-GAN(HiFi-GAN)과 같은 보코더가 사용되어 더욱 자연스러운 음성을 생성한다. 청각 마스킹 효과로 AI 음성 복제 차단: 음성 신호의 최대 60%까지 위장 가능 연구팀이 개발한 '보컬크립트(VocalCrypt)'는 인간의 청각 시스템의 특성을 활용한 혁신적인 방어 기법이다. 이 기술은 복잡한 음성 신호에서 30-60%가 마스킹 효과로 인해 인간의 귀로는 감지할 수 없다는 원리를 활용한다. 구체적으로 20Hz에서 22.05kHz 범위를 25개의 임계 대역으로 나누어 처리하며, 특히 저주파 영역(17번 밴드, 20~770Hz)에 중점을 둔다. 마스킹 임계값 기반의 적응형 강도 제어: NMR -5dB 이하 유지 보컬크립트는 소리의 각 주파수 대역별로 '마스킹 임계값'이라는 기준을 설정하여 위장 음색의 세기를 정밀하게 조절한다. 이는 마치 큰 소리가 작은 소리를 가리는 현상을 과학적으로 활용하는 것이다. 연구팀은 우리 귀가 어떤 소리는 잘 듣고 어떤 소리는 잘 듣지 못하는 특성을 철저히 분석했다. 이들은 소리의 특성을 순수한 음(예: 단일 피아노 음)부터 복잡한 소음까지 단계별로 구분했다. 실제 사람의 목소리는 대개 이 둘의 중간 어딘가에 위치한다. 연구진은 이런 특성을 고려해 각 소리 구간마다 최적의 위장 음색 강도를 결정했다. 특히 위장 음색의 세기를 특정 수준(기술적으로는 -5dB) 이하로 유지하여 사람의 귀로는 전혀 감지할 수 없게 만들었다. 이는 마치 큰 소리 속에 작은 소리를 숨기는 것과 같은 원리다. 결과적으로 우리가 들을 때는 원본 음성과 차이를 느끼지 못하지만, AI 음성 복제 시스템이 이 음성을 학습하거나 복제하려고 할 때는 심각한 방해를 받게 된다. 이러한 정교한 조절 덕분에 보컬크립트는 음성의 자연스러움은 그대로 유지하면서도 AI의 음성 도용 시도를 효과적으로 차단할 수 있게 되었다. 이는 마치 사람의 눈에는 보이지 않는 보안 워터마크를 음성에 삽입하는 것과 비슷한 효과를 낸다고 볼 수 있다. 음성의 언어, 화자의 성별에 관계없이 일관된 방어 효과 입증 연구팀은 상용 모델인 일레븐랩스(ElevenLabs)와 오픈소스 모델 GPT-SoVITS, XTTSv2, SEED-VC, StyleTTS2를 대상으로 광범위한 성능 검증을 실시했다. 실험은 CSTR VCTK 데이터셋의 영어 음성과 Zhvoice 데이터셋의 중국어 음성을 활용했다. VCTK 데이터셋은 109명의 영어 화자가 각각 약 400문장을 녹음한 데이터이며, Zhvoice 데이터셋은 약 3,200명의 화자, 900시간 분량의 오디오, 113만 줄의 텍스트로 구성된 대규모 데이터셋이다. 테스트의 공정성을 위해 데이터를 중국어 남성, 중국어 여성, 영어 남성, 영어 여성 등 4개 카테고리로 나누고 각 카테고리별로 100개 문장을 계층적 무작위 추출 방식으로 선정했다. 자동 화자 인증(ASV) 시스템을 통한 평가에서, 두 음성의 유사도 점수가 0.8을 넘으면 동일 화자로 판단하는데, 보컬크립트로 보호된 음성은 대부분 이 기준치 아래의 점수를 기록했다. 구체적인 실험 결과를 보면, 일레븐랩스에 대해 중국어 여성 화자는 0.627, 영어 여성 화자는 0.442의 유사도 점수를 보였다. GPT-SoVITS에 대해서는 각각 0.661과 0.465를 기록했으며, 다른 모델들에 대해서도 대부분 0.6 이하의 낮은 유사도를 유지했다. 특히 주목할 만한 점은 이러한 방어 효과가 음성의 언어나 화자의 성별에 관계없이 일관되게 나타났다는 것이다. 실제 공격 시나리오를 고려해 아마추어 공격자와 전문 공격자의 두 가지 유형으로 나누어 테스트도 진행했다. 아마추어 공격자는 readily available한 온라인 상용 제품이나 간단한 사전 학습 모델을 사용하는 것으로 가정했고, 전문 공격자는 적대적 공격, 미세 조정 등 고급 기술을 사용하는 것으로 설정했다. 두 경우 모두에서 보컬크립트는 효과적인 방어 성능을 보여주었다. 500% 빠른 처리 속도와 0.942의 음질 점수 달성 기존 GAN 기반 방어 기술들과 비교해 처리 속도가 5배 향상되었으며, 음질 평가에서도 0.942라는 높은 점수를 기록했다. 이는 기존 기술들의 음질 점수인 0.984(Huang's)와 0.956(Dong's)에 근접한 수준이다. 연구팀은 이 기술의 실시간 처리 성능을 바탕으로 마이크나 사운드카드에 직접 통합하는 방안을 검토 중이다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.18 08:36AI 에디터

'초거대 AI 모델' 3파전…한국, 미국·중국 이어 3위

글로벌 초거대 AI 모델 현황 분석(2024년 조사) 5년간 271개 출시된 초거대 AI, 연평균 성장률 179.5% 기록 소프트웨어정책연구소가 발간한 '글로벌 초거대 AI 모델 현황 분석' 보고서에 따르면, 2020년부터 2024년까지 전 세계적으로 총 271개의 초거대 AI 모델이 출시되었다. 2024년에는 전년 대비 13개가 증가한 122개의 새로운 모델이 시장에 선보였으며, 이는 5년간 연평균 179.5%의 성장률을 보여준다. 초거대 AI 모델은 대규모의 컴퓨팅 인프라를 바탕으로 방대한 데이터를 학습하여 인간처럼 종합적인 인지·판단·추론이 가능한 '큰 규모'의 AI를 의미하며, 이번 분석은 GPT-3 수준인 1023 FLOP 이상 규모의 모델을 기준으로 삼았다. (☞ 보고서 바로가기) 글로벌 초거대 AI 개발 3강 체제: 미국 128개, 중국 95개, 한국 14개 보유 미국이 128개 모델로 선두를 지키고 있으며, 중국이 95개로 뒤를 잇고 있다. 주목할 만한 점은 한국이 14개의 모델을 보유하며 프랑스(10개)를 제치고 3위 자리를 굳건히 지키고 있다는 점이다. 한국의 초거대 AI 모델은 2021년 네이버의 HyperCLOVA 시리즈를 시작으로, 2023년 LG의 EXAONE 2.0, 삼성의 Gauss 시리즈, KT의 Mi:dm 200B 등이 출시되었으며, 2024년에는 LG AI연구원이 EXAONE 3.0과 3.5 시리즈를 추가했다. 멀티모달 AI 모델 비중 18.9%로 증가, 다중 과업 수행 모델 63.9% 달성 초거대 AI의 진화 방향은 멀티모달 지원과 다중 과업 수행 능력의 확대로 나타났다. 2024년에는 총 23개의 멀티모달 모델이 출시되어 전체의 18.9%를 차지했으며, 이는 2023년 13개(11.9%) 대비 크게 증가한 수치다. 다중 과업 수행이 가능한 모델은 총 78개로, 전체의 63.9%를 차지했다. 특히 5개 이상의 과업을 수행할 수 있는 모델이 24개로 급증했으며, 2-4개 과업 수행 모델까지 포함하면 전체의 47.5%가 다중 과업 수행 능력을 보유하고 있다. 언어 모델 240개로 압도적 1위, 시각·음성·바이오 분야로 확장 전체 모델의 88.6%인 240개가 언어 모델이었으며, 시각 관련 모델 63개, 음성 모델 8개, 바이오 모델 4개가 그 뒤를 이었다. 2024년에는 비전(Vision) 모델과 영상(Video) 모델의 출시가 증가했으며, OpenAI의 o1 시리즈와 같은 수학 분야 추론 모델이 새롭게 등장했다. 과업 유형별로는 언어 모델링/생성(208개), 채팅(98개), 코드 생성/자동완성(78개), 질의응답(72개), 번역(52개) 순으로 많았다. 민간 기업 주도로 가속화되는 AI 혁신: 알리바바 15개 모델 출시로 선두 2024년 기준 전체 모델의 96.7%가 기업에 의해 개발되었으며, 이는 2022년 89.7%, 2023년 93.6%에서 꾸준히 증가한 수치다. 알리바바가 15개 모델로 최다 출시를 기록했고, 메타(13개), 오픈AI(9개), 구글(7개) 순이었다. 3개 이상 모델을 출시한 19개 기관 중 미국 기업이 11개로 가장 많았으며, 중국 6개, 한국의 LG와 프랑스의 Mistral AI가 각각 1개 기관을 차지했다. xAI의 Grok-2, 5.30E+25 FLOP으로 최대 규모 기록 2024년 출시된 모델 중 xAI의 Grok-2가 5.30E+25 FLOP으로 최대 규모를 기록했다. GPT-4o(3.81E+25), Llama 3.1-405B(3.80E+25), Claude 3.5 Sonnet(3.65E+25), GLM-4-Plus(3.60E+25) 순으로 상위 5개 모델이 구성되었다. 특히 이들 상위 모델은 모두 기업이 개발했으며, 대부분 멀티모달 기능과 다중 과업 수행 능력을 갖추고 있다. 초거대 AI 경쟁 심화에 따른 국가 전략 투자 확대 시급 글로벌 초거대 AI 기술 경쟁이 더욱 심화되는 가운데, 한국의 전략적 대응이 필요한 시점이다. 특히 최근 중국 AI 스타트업 딥시크(DeepSeek)의 사례는 주목할 만하다. 딥시크는 저비용으로 고성능 AI를 개발할 수 있다는 가능성을 보여줬지만, 동시에 높은 컴퓨팅 파워를 기반으로 한 대형 AI 모델의 중요성도 입증했다. 실제로 딥시크의 소형 AI 모델 'DeepSeek-R1'도 대형 AI 모델을 활용한 '지식 증류' 기술로 개발된 것이다. 한국은 세계에서 세 번째로 LLM(거대언어모델)을 개발한 국가로서, 2021년 9월 네이버의 개발을 시작으로 글로벌 경쟁력을 유지해오고 있다. 그러나 초거대 AI 모델이 급증하고 경쟁이 치열해지는 현 상황에서, 산업계의 혁신 노력과 이를 뒷받침할 정부의 정책적 지원이 결합되어야 할 필요성이 커지고 있다. 또한 우리나라가 미래 AI 혁명의 주역이 되기 위해서는 AI 스타트업이 혁신할 수 있는 환경을 조성하고, 자립적 초거대 AI 생태계 육성을 도모해야 한다. 특히 딥시크의 사례에서 볼 수 있듯이, 우수한 인재 육성과 인프라 확보의 중요성이 더욱 부각되고 있다. 딥시크는 미국의 수출규제에도 불구하고 고사양 AI 반도체를 확보하고 우수 인력을 유치하여 약 150명 규모의 조직으로 성장했으며, 기존 기술을 응용한 혁신적인 접근으로 성과를 이뤄냈다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.17 23:14AI 에디터

[Q&AI] 재직 중 출산 시 1억?…크래프톤의 출산 장려 정책, 뭐가 다르나 봤더니

질문1. 크래프톤의 출산 장려 정책에 대해 정리해줘 퍼플렉시티 답변: 크래프톤은 최근 출산 장려 정책을 도입하여 주목받고 있습니다. 이 정책은 크래프톤 직원들이 자녀를 출산할 경우 최대 1억 원의 지원금을 제공하는 내용을 포함하고 있습니다. 구체적으로, 자녀 출산 시 6000만 원을 일시 지급하고, 이후 8년간 매년 500만 원씩 추가로 지급하는 방식으로 구성되어 있습니다. 이 정책은 크래프톤의 탄탄한 재무 상태를 바탕으로 일과 가정의 양립이 가능한 기업 환경을 조성하려는 노력의 일환이라고 분석됩니다. 크래프톤은 지난해 매출 2조7098억 원, 영업이익 1조1825억 원을 달성하며 상장 게임사 중 영업이익 1위를 기록했습니다. 크래프톤 측은 이 정책에 대해 아직 세부 사항을 공개하지 않고 있으며, 검토 중인 사안으로 확인해 드리기 어렵다고 밝혔습니다. 이러한 출산 장려 정책은 국내 게임 산업에서 보기 드문 수준의 복지 혜택으로 평가받고 있습니다. 질문2. 크래프톤의 출산 장려 정책이 다른 기업의 출산 지원 정책과 어떻게 차별화되나요? 퍼플렉시티 답변: 크래프톤의 출산 장려 정책은 다른 기업의 출산 지원 정책과 몇 가지 측면에서 차별화됩니다. 차별화된 점 금액 규모: 크래프톤은 자녀 출산 시 최대 1억 원의 지원금을 제공합니다. 이는 국내 게임 산업에서 보기 드문 수준의 지원금입니다. 다른 기업들은 일반적으로 출산 관련 지원금을 제공하지만, 크래프톤의 금액은 상당히 높습니다. 지급 방식: 크래프톤은 일시 지급과 연간 지급을 병행하여 장기적으로 지원합니다. 이는 단순한 일시적 지원이 아닌, 장기적인 가족 계획에 대한 지원을 강조합니다. 다른 기업들은 주로 일시적 지원을 제공하거나, 특정 기간 동안의 부모 육아휴직 급여를 제공합니다. 복지 혜택의 포괄성: 크래프톤의 정책은 출산 후 가족의 안정적인 생활을 돕기 위한 포괄적인 지원을 목표로 하고 있습니다. 이는 단순한 경제적 지원을 넘어, 일과 가정의 양립을 도모하려는 노력의 일환입니다. 다른 기업들은 출산 관련 복지 혜택을 제공하지만, 크래프톤의 정책은 직원들의 장기적인 가족 계획에 대한 고려가 돋보입니다. 비교 대상 국내 정부 정책: 한국 정부는 출산 및 육아 지원을 강화하고 있으며, 부모에게 다양한 경제적 지원과 휴직 제도를 제공하고 있습니다. 그러나 크래프톤의 정책은 이러한 정부 지원과는 별도로, 기업 차원에서 더 많은 혜택을 제공하는 점에서 차별화됩니다. 다른 기업의 출산 지원: 일부 대기업들은 출산 관련 지원을 제공하지만, 크래프톤의 정책은 금액과 지급 방식에서 독특한 점이 있습니다. 예를 들어, 미국의 일부 대기업들은 12주에서 24주까지의 유급 육아휴직을 제공하지만, 크래프톤의 정책은 장기적인 경제적 지원에 중점을 두고 있습니다. 결론적으로, 크래프톤의 출산 장려 정책은 금액 규모, 지급 방식, 복지 혜택의 포괄성에서 다른 기업의 출산 지원 정책과 차별화됩니다. 이는 크래프톤이 직원들의 가족 계획에 대한 장기적인 지원을 강조하고 있음을 보여줍니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 퍼플렉시티를 활용해 작성되었습니다.

2025.02.17 19:13AI 에디터

AI 훈련, 학습 데이터 817개로 10만개 뺨치는 성과…비결은?

817개 학습 데이터로 AIME 57.1% 정확도 달성한 LIMO의 혁신 상하이교통대학교(SJTU) 연구진이 발표한 'LIMO: Less is More for Reasoning' 논문에 따르면, 대규모 언어모델(LLM)의 수학적 추론 능력을 향상시키는데 기존의 통념을 뒤엎는 혁신적인 발견이 있었다. 연구진은 단 817개의 엄선된 학습 데이터만으로도 미국수학초청시험(AIME) 벤치마크에서 57.1%, MATH 벤치마크에서 94.8%의 정확도를 달성했다. 특히 주목할 만한 점은 이 성과가 NuminaMath-100k가 보여준 32.3%나 OpenThoughts-114k의 58.3%보다 훨씬 뛰어난 결과라는 점이다. (☞ 논문 바로가기) 3.7T 토큰으로 수학 특화 학습한 AI의 지식 기반 혁신 LIMO 연구진은 모델의 추론 능력이 두 가지 핵심 요소에 의해 결정된다고 주장한다. 첫째는 사전학습 과정에서 획득한 포괄적인 도메인 지식이며, 둘째는 추론 과정을 상세히 보여주는 '인지 템플릿'의 효과적인 활용이다. 특히 람다2(Llama 2)가 전체 도메인에서 1.8T 토큰의 데이터로 학습된 반면, 람다3(Llama 3)는 수학적 추론만을 위해 3.7T 토큰을 사용했다는 점은 현대 AI 모델들이 풍부한 수학적 지식 기반을 갖추고 있음을 보여준다. RL Scaling과 차별화된 LIMO의 효율적 접근법 LIMO는 강화학습(RL) 기반의 기존 접근법과는 다른 철학을 보여준다. OpenAI의 o1이나 DeepSeek-R1과 같은 RL Scaling 접근법이 대규모 컴퓨팅 자원을 활용한 광범위한 탐색을 통해 추론 능력을 향상시키는 반면, LIMO는 이미 모델에 내재된 추론 능력을 최소한의 고품질 예제로 이끌어내는 방식을 택했다. 이는 단순한 데이터 효율성을 넘어 AI 추론 능력 개발의 근본적인 패러다임 전환을 제시한다. 10개 벤치마크에서 40.5% 성능 향상 입증 LIMO는 다양한 평가에서 놀라운 성과를 보여줬다. 올림피아드벤치(OlympiadBench)에서 66.8%, 중국 고등학교 수학 리그(CHMath)에서 75.4%, 중국 대학입학시험(Gaokao)에서 81.0%, 대학원 입학시험(Kaoyan)에서 73.4%의 정확도를 달성했다. 특히 GPQA에서는 66.7%를 기록하며 OpenAI-o1-preview의 73.3%에 근접했다. 이는 기존 모델들이 100배 많은 데이터로 학습했음에도 불구하고 평균 40.5%의 절대적인 성능 향상을 보여준 결과다. L5급 고품질 추론으로 AIME 15% 성능 격차 실현 연구팀이 개발한 5단계(L1-L5) 추론 품질 평가에서, 최고 수준인 L5 품질의 추론 체인으로 학습한 모델이 가장 우수한 성능을 보였다. L5와 L1 사이의 성능 차이는 AIME24에서 약 15%, MATH500에서 약 12%에 달했다. 고품질 추론의 특징으로는 명확한 구조적 조직화, 단계별 세분화, 자체 검증 단계 포함 등이 있으며, 이는 모델의 성능에 결정적인 영향을 미쳤다. Qwen2.5-32B 기반 LIMO, 기존 대비 47.1% 성능 향상 LIMO는 Qwen2.5-32B-Instruct를 기반으로 개발되었으며, 같은 구조의 이전 모델인 Qwen1.5-32B-Chat과 비교해 AIME24에서 47.1%, MATH500에서 34.4%의 놀라운 성능 향상을 보였다. 이는 사전학습 데이터의 품질 향상이 모델의 수학적 추론 능력 향상에 핵심적인 역할을 한다는 것을 입증한다. AI 추론 연구의 새로운 과제들 연구진은 LIMO의 성공을 바탕으로 여러 후속 연구 방향을 제시했다. 다중 모달 추론으로의 확장, 자동화된 품질 평가 도구 개발, 인지과학 통찰의 통합 등이 주요 과제로 제시됐다. 특히 시각 정보와 구조화된 데이터를 활용한 수학적 추론 능력 향상, 추론 체인의 품질을 자동으로 평가하고 개선하는 알고리즘 개발이 시급한 과제로 꼽혔다. 또한 인간의 인지 과정과 LIMO의 추론 패턴 사이의 유사성을 연구함으로써 AI 시스템과 인간의 추론 과정에 대한 이해를 높일 수 있을 것으로 기대된다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.17 15:26AI 에디터

오픈AI, 챗GPT 검열 해제…"모든 관점 수용하겠다"

오픈AI(OpenAI)가 자사의 대표 AI 챗봇 '챗GPT(ChatGPT)'의 콘텐츠 제한을 대폭 완화하기로 했다. 테크크런치가 16일(현지 시간)에 보도한 내용에 따르면, 오픈AI는 새로운 정책을 통해 "주제가 얼마나 도전적이거나 논쟁적일지라도 지적 자유를 수용하겠다"고 밝혔다. 이번 정책 변경으로 챗GPT는 기존보다 더 많은 질문에 답변하고, 다양한 관점을 제시할 수 있게 됐다. 오픈AI는 187페이지 분량의 '모델 스펙(Model Spec)' 문서를 수정해 새로운 지침을 공개했다. 핵심은 '거짓말하지 않기'다. 이는 잘못된 진술을 하거나 중요한 맥락을 생략하는 것을 모두 포함한다. 회사는 '함께 진실을 추구하자(Seek the truth together)'라는 새로운 섹션을 통해 챗GPT가 논쟁적인 주제에 대해서도 편집적 입장을 취하지 않을 것이라고 설명했다. 일부 사용자들이 도덕적으로 잘못됐다고 생각하거나 불쾌감을 느낄 수 있는 내용이라도 중립적 입장에서 다양한 관점을 제시한다는 것이다. 이번 변화는 실리콘밸리 전반의 정책 변화와 맥을 같이한다. 메타(Meta)의 마크 저커버그(Mark Zuckerberg) CEO는 지난달 자사 사업을 수정헌법 제1조 원칙에 맞춰 재편한다고 발표했다. 구글(Google), 아마존(Amazon), 인텔(Intel) 등 주요 기술 기업들도 최근 수년간 유지해온 다양성 정책을 축소하거나 폐지했다. 오픈AI 역시 최근 자사 웹사이트에서 다양성, 형평성, 포용성(DEI) 관련 내용을 삭제한 것으로 알려졌다. 오픈AI의 이번 결정은 'AI 안전'에 대한 새로운 해석을 제시했다는 평가를 받고 있다. 조지메이슨대학교 메르카투스센터(Mercatus Center)의 딘 볼(Dean Ball) 연구원은 [테크크런치와의 인터뷰에서] "AI 모델이 더욱 똑똑해지고 사람들의 학습에 필수적인 요소가 되면서, 이러한 결정의 중요성이 커지고 있다"고 설명했다. 이전까지 AI 기업들은 '안전하지 않은' 답변을 막는 데 주력했다. 하지만 이제는 사용자가 모든 것을 질문하고 답변받을 수 있도록 하는 것이 더 책임감 있는 접근이라는 인식이 확산되고 있다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다.

2025.02.17 14:48AI 에디터

"생성형 AI 구독, 작년 299% 늘어…30대가 최다 이용"

생성형 AI(Generative AI) 서비스가 구독경제의 새로운 성장 동력으로 부상했다. KB국민카드가 실시한 구독 서비스 이용 현황 분석 결과에 따르면, 2024년 전체 구독 서비스 이용률이 전년 대비 12.9% 증가했다. 가장 눈에 띄는 것은 생성형 AI 서비스의 성장이다. 전년 대비 299%라는 폭발적인 증가율을 기록했다. 이는 생활·건강(59%), 쇼핑·배달 멤버십(34%), 뉴스·매거진(32%) 등 다른 구독 서비스들을 크게 앞서는 수치다. 구독 서비스 이용은 연령대별로 뚜렷한 차이를 보였다. 30대가 24%로 가장 높은 이용률을 기록했으며, 40대(23%), 20대(22%), 50대(20%), 60대 이상(11%) 순이었다. 특히 20대의 경우 음악 스트리밍 서비스 이용률이 41%로 가장 높았고, 영상 스트리밍이 30%로 그 뒤를 이었다. 반면 50대 이상은 쇼핑·배달 멤버십 서비스를 상대적으로 더 선호하는 것으로 나타났다. 현재 구독 서비스를 이용하고 있다고 응답한 비율은 74%에 달했다. 서비스별로는 영상 스트리밍이 67%, 쇼핑·배달 멤버십이 61%, 음악 스트리밍이 40%의 이용률을 기록했다. 한편 이번 조사는 서울 및 경기·인천 지역에 거주하는 25~54세 남녀 고객 800명을 대상으로 진행됐다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다.

2025.02.17 14:39AI 에디터

AI도 코드로 배운다...딥시크AI, 범용 추론력 강화 기술 공개

수학·코드 넘어선 AI 추론력 강화의 새 길 제시 딥시크AI(DeepSeek-AI)의 연구에 따르면, 대규모 언어모델(LLM)의 추론 능력을 향상시키기 위한 새로운 접근법 'CODEI/O'가 개발되었다. 기존의 연구들이 수학이나 코드 생성과 같은 특정 영역에 집중했던 것과 달리, CODEI/O는 다양한 추론 패턴을 코드를 통해 학습하는 방식을 제시했다. 특히 논리적 추론, 과학적 추론, 상징적 추론 등 다양한 영역의 추론 과제에서 데이터가 부족하고 분산되어 있는 문제를 해결하고자 했다. (☞ 논문 바로가기) 81만 개 코드 파일에서 추출한 45만 개 함수로 구축한 학습 데이터 CODEI/O는 코드믹스(CodeMix)와 파이에듀-R(PyEdu-R) 등 다양한 소스에서 총 81만 개의 코드 파일을 수집했다. 코드믹스에서는 딥시크 코더 V2 라이트 모델의 함수 완성 작업 성공률이 10%에서 90% 사이인 42.7만 개의 파일을 선별했고, 파이에듀-R에서는 36.9만 개의 파일을 확보했다. 이 외에도 알고리즘 저장소, 수학 문제 컬렉션, 유명 코딩 플랫폼 등에서 1.45만 개의 고품질 코드 파일을 추가로 수집했다. 코드 실행 결과로 검증하는 입출력 예측 학습 방식 CODEI/O는 수집된 코드를 단순 학습하는 대신, 실행 가능한 함수로 변환하고 이를 입력-출력 예측 작업으로 재구성했다. 각 함수마다 최대 10개의 입출력 쌍을 생성했으며, 모든 입력과 출력은 자연어 형태의 Chain-of-Thought(CoT) 추론 과정으로 표현했다. 실행 시간은 샘플당 5초로 제한했고, 입출력 객체의 복잡도도 제한을 두어 일반 LLM이 생성할 수 있는 수준을 유지했다. 검증된 데이터로 재학습시킨 CODEI/O++, 더 높은 성능 달성 개선된 버전인 CODEI/O++는 DeepSeek-V2.5 모델을 활용해 잘못된 예측을 수정하는 다중 턴 방식을 도입했다. 첫 시도에서 약 50%의 정확도를 보였고, 부정확한 응답 중 약 10%가 두 번째 시도에서 수정되었다. 특히 출력 예측의 경우 51.8%가 첫 시도에서 정확했고, 나머지 중 5.2%가 두 번째 시도에서 정확도를 개선했다. 14개 벤치마크에서 입증된 뛰어난 범용 성능 연구팀은 Qwen 2.5 7B Coder, Deepseek v2 Lite Coder, LLaMA 3.1 8B, Gemma 2 27B 등 다양한 모델에서 실험을 진행했다. 그 결과 CODEI/O는 DROP(자연어 추론), WinoGrande(상식 추론), GSM8K(수학), MATH(수학), MMLU-STEM(과학/기술), BBH(논리), GPQA(과학), Cruxeval(코드), ZebraGrid(논리) 등 14개 벤치마크에서 일관된 성능 향상을 보였다. 특히 Qwen 2.5 7B Coder 모델의 경우 기본 성능 54.8에서 CODEI/O 적용 후 57.2, CODEI/O++ 적용 후 57.7로 꾸준한 성능 향상을 보였다. 두 단계 학습이 성능 향상의 핵심...기존 단일 단계 대비 최대 3.4포인트 향상 연구팀은 CODEI/O 학습을 일반 지시학습 이전 단계에 별도로 진행하는 두 단계 학습법을 채택했다. Qwen 2.5 Coder 7B 모델에서 단일 단계 학습 시 54.8점이었던 성능이 CODEI/O 선행 학습 후 57.2점으로 향상되었다. LLaMA 3.1 8B 모델에서도 49.3점에서 52.7점으로 성능이 개선되었다. 특히 연구팀은 약 118만 개의 다국어 지시학습 데이터셋을 사용했는데, 이는 CODEI/O 데이터보다 크기가 작아 두 데이터셋을 단순 혼합할 경우 학습이 균형적으로 이루어지지 않는다는 점을 발견했다. 참조 코드와 추론 과정 배치가 성능 좌우...쿼리-코드 함께 제시할 때 최고 성능 연구팀은 쿼리, 참조 코드, Chain-of-Thought(CoT) 추론 과정의 최적 배치 방식도 실험했다. 쿼리와 참조 코드를 프롬프트에 함께 제시하고 CoT를 응답으로 두는 방식이 가장 높은 57.2점을 기록했다. 반면 쿼리만 프롬프트에 제시하고 참조 코드를 응답에 포함시키는 방식은 54.9점으로 가장 낮은 성능을 보였다. 이는 코드 생성 작업과 유사한 형태지만 훈련 샘플이 더 적어 성능이 제한된 것으로 분석됐다. 데이터 규모 확장에 따른 성능 향상 입증 연구팀은 훈련 샘플 수와 입출력 쌍 수에 따른 성능 변화도 분석했다. 훈련 샘플을 0.32M에서 3.52M까지 늘렸을 때 성능이 지속적으로 향상되었고, 각 함수당 입출력 쌍을 1/6에서 6/6까지 늘렸을 때도 성능이 개선되었다. 이는 CODEI/O가 더 큰 규모의 데이터셋으로 확장될 수 있는 가능성을 보여준다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.17 14:29AI 에디터

엔비디아 H100 GPU로 만든 명품가방…6500만원에 거래된다

GPU를 활용한 패션 아이템이 화제다. 패션 브랜드GPU퍼스(GPU Purses)가 인공지능 학습용 그래픽카드인 엔비디아 H100(Nvidia H100)을 활용해 제작한 가방을 6만5000달러(약 6500만원)에 판매하고 있다. 톰스하드웨어(Tom's Hardware)가 16일(현지 시간) 보도한 내용에 따르면. GPU퍼스는 최근 엔비디아 H100 AI GPU의 일부 부품을 플라스틱 케이스에 장착한 ' H100 퍼스(H100 Purse)'를 출시했다. 이 회사는 이전에도 20달러짜리 엔비디아 지포스 GT 730(Nvidia GeForce GT 730) GPU를 활용해 1000달러짜리 가방을 제작해 화제가 된 바 있다. GPU퍼스는 인공지능 플랫폼인 데이터브릭스(Databricks)의 연구원인 테레사 바턴(Theresa Barton)이 설립한 독특한 패션 브랜드로, 사용되지 않는 엔비디아 그래픽 처리 장치(GPU)를 재활용하여 핸드백을 제작하고 있다. 이 가방 역시 완전한 그래픽카드를 사용하지 않았다. 대신 가방 중앙에 GH100이라는 라벨이 붙은 대형 칩과 LR22, LR33 인덕터들이 배치됐다. 판매 페이지에는 "GPT-4 학습용 희귀 GPU를 활용한 가방"이라는 설명과 함께 "수출 통제 대상"이라는 문구가 포함됐다. H100 퍼스의 가격은 6만5536달러로 책정됐다. 이는 실제 작동하는 H100 AI GPU의 시장가격인 2만5000달러의 2배가 넘는 금액이다. 여기에 5000달러를 추가하면 차세대 엔비디아 GB200 블랙웰(Blackwell) GPU를 구매할 수 있는 가격이다. PC 부품을 패션 액세서리로 활용하는 것은 이번이 처음이 아니다. 온라인에서는 CPU 키체인을 쉽게 구할 수 있으며, 이츠이(Etsy)에는 'CPU 주얼리' 마켓이 활성화되어 있다. 전문가들은 수천 달러를 의심스러운 사이트에 지불하는 대신 20달러 정도의 합리적인 가격대의 컴퓨터 부품 액세서리를 구매하는 것을 추천했다. ■ 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2025.02.17 14:26AI 에디터

Prev 1 2 3 4 5 6 7 8 9 10 Next