• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
AI의 눈
HR컨퍼런스
스테이블코인
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'알바천국아이디인증 | 텔레연락처 tway010 | 페이스북계정거래소 구글 계정,WB9'통합검색 결과 입니다. (3149건)

  • 영역
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

도코모, 아두나와 글로벌 네트워크 API 확장을 위한 파트너십 계약 체결

도쿄, 2026년 1월 31일 /PRNewswire/ -- 1월 29일 NTT 도코모(NTT DOCOMO, INC.)와 아두나(Aduna)가 파트너십 계약(이하 '계약')을 체결했다고 발표했다. 이번 파트너십을 통해 국제 시장을 대상으로 개발된 도코모의 네트워크 애플리케이션 프로그래밍 인터페이스(API, 이하 네트워크 API)가 아두나의 플랫폼을 통해 제공된다. 양사는 급변하는 산업 수요에 대응해 글로벌 네트워크 API 생태계의 확장을 가속한다는 공동의 목표를 갖고 있다. API를 통해 이동통신 네트워크 기능을 제공하는 방식은 사기 방지, 보안 디지털 인증 등 기업들이 직면한 핵심 과제를 해결하는 효과적인 수단으로 전 세계적으로 주목받고 있다. 카마라(CAMARA)¹ 프레임워크의 지원 아래 이동통신사업자들은 주요 보안 수요를 충족하는 표준화된 API 솔루션을 개발해 공개하고 있다. 이러한 표준 API의 글로벌 애그리게이터(aggregator)² 역할을 수행하는 아두나는 전 세계 여러 사업자의 API에 단일 중앙 접근 지점을 제공함으로써 생태계 확산을 가속하고 기업의 대규모 통합 간소화를 지원하고 있다. 도코모는 신규 수익원 창출을 위한 노력의 일환으로 GSMA 오픈 게이트웨이(GSMA Open Gateway)³ 이니셔티브에 참여해 왔으며, 2025년 6월부터 아두나와 협력해 집계(aggregation) 모델을 통해 네트워크 API 기반 서비스를 확장해 왔다. 이번 계약을 통해 도코모의 첨단 네트워크 API는 아두나의 글로벌 플랫폼을 통해 전 세계 기업과 개발자들이 이용할 수 있을 것으로 기대된다. 번호 인증(Number Verification), SIM 스와프(SIM Swap) 감지 등 API를 활용한 사기 방지 전략을 지원하는 이번 협업 덕분에 기업은 계정 탈취, 신원 도용, 모바일 사기로부터 고객을 보호할 수 있다. 또한 글로벌 유통을 통해 도코모가 새로운 고객 세그먼트에 접근할 수 있는 추가적인 경로도 마련된다. 양사는 도코모의 혁신 역량과 아두나의 글로벌 집계•유통 모델을 활용해 네트워크 API의 폭넓은 채택을 지원하고 기업과 개발자가 새로운 부가가치 서비스들을 창출할 수 있도록 지원할 계획이다. NTT 도코모 수석부사장인 히라구치 노부코(Nobuko Hiraguchi) 코어 네트워크 디자인 부서장은 아두나와 이번 파트너십 계약을 체결하게 되어 기쁘다"라며, "이번 협력으로 글로벌 표준에 맞춰 개발된 NTT 도코모의 네트워크 API가 아두나의 글로벌 플랫폼을 통해 제공되면서 고객이 일상생활의 안전과 편안함을 증진하는 새로운 가치를 창출하는 데 도움을 줄 것이라 확신한다. NTT 도코모는 네트워크 API를 포함한 기술 개발을 지속적으로 추진해 사회와 고객에게 더 큰 가치를 제공할 것이다"라고 말했다. 아두나의 앤서니 바톨로(Anthony Bartolo) 최고경영자는 "아두나는 도코모와 같은 통신 사업자들이 표준화를 실질적인 상업적 가치로 전환하도록 돕기 위해 설립됐다"라며, "도코모의 첨단 네트워크 API를 글로벌 유통 플랫폼에 연결함으로써 아두나는 전 세계 기업이 더 빠르고 안전하게, 그리고 대규모로 혁신할 수 있도록 지원한다. 이번 파트너십은 아시아 지역에서 아두나의 입지를 강화하고 글로벌 네트워크 API 경제의 성장을 가속하려는 양사의 공통된 의지를 반영한다"고 밝혔다. ¹ 카마라 프로젝트는 리눅스 재단(Linux Foundation) 산하의 오픈소스 프로젝트로, 통신사업자 네트워크 API에 대한 공통 사양을 개발한다. ² 애그리게이터는 여러 이동통신 사업자가 제공하는 표준화된 네트워크 API를 단일 통합 플랫폼을 통해 기업과 개발자들이 이용할 수 있도록 지원하는 주체를 의미한다. ³ GSMA 오픈 게이트웨이는 이동통신 사업자 전반에 걸친 공통 네트워크 API의 상용화를 촉진하기 위해 GSMA가 출범한 글로벌 산업 이니셔티브다. 추가 정보 문의: NTT 도코모 토미타 씨 또는 나리타 씨브랜드 커뮤니케이션부전화: +81 (0)3 5156 1366팩스: +81 (0)3 5501 3408www.docomo.ne.jp/english/ NTT 도코모 소개NTT 도코모는 9100만 명 이상의 가입자를 보유한 일본 최대 이동통신 사업자로, 3G, 4G, 5G 이동통신 기술 분야의 세계적인 선도 기업 중 하나다. '놀라움과 행복을 위해 세계를 연결하다(Bridging Worlds for Wonder & Happiness)'라는 슬로건 아래, 도코모는 글로벌 파트너들과 적극적으로 협력하며 모바일 서비스를 넘어 종합 솔루션 영역으로 사업을 확장하고 있다. 이를 통해 최고의 가치를 제공하고 기술과 통신 분야의 혁신을 주도함으로써, 글로벌 사회의 긍정적인 변화와 발전에 기여하는 것을 목표로 하고 있다. https://www.docomo.ne.jp/english/ Aduna 소개아두나는 세계 유수의 통신사업자들과 에릭슨(Ericsson)이 함께 설립한 획기적인 합작 법인으로, 공통 네트워크 애플리케이션 프로그래밍 인터페이스(API)를 통해 네트워크의 잠재력을 극대화함으로써 전 세계 개발자들이 혁신을 가속할 수 있도록 지원하고 있다. 주요 파트너로는 AT&T, 바르티 에어텔(Bharti Airtel), 도이치 텔레콤(Deutsche Telekom), KDDI, 오렌지(Orange), 릴라이언스 지오(Reliance Jio), 싱텔(Singtel), 텔레포니카(Telefonica), 텔스트라(Telstra), T-모바일(T-Mobile), 버라이즌(Verizon), 보다폰(Vodafone) 등이 있다. 또한 구글 클라우드(Google Cloud), 인포빕(Infobip), 신치(Sinch), 보네지(Vonage) 등과 개발자 파트너십을 맺고 있다. 아두나는 GSMA와 리눅스 재단이 주도하는 카마라 오픈소스 프로젝트를 기반으로, 전 세계 여러 통신 사업자의 네트워크 API를 단일 통합 플랫폼으로 제공함으로써 협업을 촉진하고 사용자 경험을 향상시키며 산업 성장을 견인하고 있다. 네트워크 API 및 아두나에 대한 자세한 내용은 adunaglobal.com에서 확인할 수 있다. 로고 - https://mma.prnasia.com/media2/2710073/5741101/Aduna_Logo.jpg?p=medium600

2026.02.01 01:10글로벌뉴스

KISTI 고니팀, 한국어 추론 모델·환각 억제 기술 확보…"업데이트 언제할까"

한국과학기술정보연구원(KISTI)이 과학기술 특화 생성형 거대 언어 모델(LLM) 고니(KONI)와 관련한 ▲한국어 특화 추론 모델과 ▲환각 억제 기술을 각각 확보했다고 31일 발표했다. 고니는 배경훈 부총리 겸 과학기술정보통부 장관이 신년 업무보고에서 독자 파운데이션 모델(독파모) 기반 고니 업데이트를 당부할 정도로 관심을 갖는 LLM이다. 고니는 지난 2023년 12월 처음 공개됐다. 2024년 7월 신규버전이 공개된 이후 지금까지 업데이트는 이루어지지 않았다. 이번에 KISTI가 확보한 인공지능(AI) 분야 국제 학술대회인 국제표현학습학회(ICLR)에 채택돼 논문으로 공개됐다. ICLR은 신경정보처리시스템학회(NeurIPS) 및 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽힌다. 딥러닝과 표현 학습 분야에서 최정상급 학술대회로 인정받고 있다. 구글이나, 메타, 오픈AI 등 글로벌 빅테크 기업들이 주목하는 학회다. 고니는 KISTI가 개발한 LLM으로, 지난 2024년 과학기술 분야 추론, 글쓰기, 이해 등 다양한 작업에서 성능을 크게 향상 시킨 새 버전 2종을 허깅 페이스와 KISTI 에이아이다에 공개한 바 있다. 이번에 공개한 한국어 특화 추론 모델은 고니 연구팀이 비영리 오픈소스 연구단체 해례(HAERAE)팀(팀장 손규진)과 협력으로 개발했다. 579만 건의 한국어 네이티브 프롬프트와 370만 건의 장문 추론 경로를 포함한 '이상(Yi-SANG)' 학습 데이터세트를 구축했다. 이는 공개된 한국어 사후 학습 데이터자원 중 최대 규모다. 고니팀은 또 이 모델에서 사고 과정은 영어로, 최종 답변은 한국어로 도출하는 '혼합 언어 단계적 사고 기법도 개발, 적용했다. 한국어 전용 모델의 논리적 한계를 극복하고, 번역 어투를 최소화하면서도 추론 효율을 극대화했다는 것이 연구진 설명이다. 이경하 초거대AI연구센터장은 "이 기술을 이용해 학습된 모델은 딥시크(DeepSeek)-R1-32B 등 유사 규모 글로벌 모델을 제치고 최고 수준의 한국어 추론 성능을 기록했다"고 말했다. 이와함께 고니팀은 특정 언어나 도메인에 AI모델을 적응시킬 때 기존 지식을 잊어버리는 '치명적 망각' 문제를 해결하는 '저계층 적응 기반 대조 보정' 기술도 개발했다. 이 기술은 추가 모델 훈련 없이 추론 시점에만 작동하며, 모델 내부 지식을 동적으로 추출해 사실 관계를 보정한다. 고도의 정확성이 요구되는 전문 분야에서 환각 현상을 억제하는 데 도움을 줄 수 있다. 고니팀은 이 연구를 바탕으로 연구자 파트너로서 가설을 세우고 실험 데이터를 분석하는 'AI 연구동료(AI Co-Scientist)' 기술 개발을 추진할 계획이다. 복잡한 과학적 난제를 함께 해결할 수 있는 지능형 연구 에이전트 시스템을 구축해 국가 AI 주권을 확보하고, 대한민국 연구 현장을 '과학을 위한 AI(AI for Science)' 체제로 전환하는 데 기여할 방침이다. 이식 KISTI 원장은 “이번 성과는 한국어 AI 기술의 글로벌 경쟁력을 입증한 것”이라며, “KONI 고도화를 지속 추진해 AI 연구동료 개발과 과학을 위한 AI 혁신을 선도하겠다”고 밝혔다.

2026.01.31 19:36박희범 기자

"K-의료 특화 모델 필수"...포티투마루, AI 헬스케어 미래 비전 제시

포티투마루가 국내 의료 환경에 최적화된 인공지능(AI) 모델 필요성을 강조했다. 포티투마루는 지난 29일부터 이틀간 강원도 춘천에서 열린 '2026 연합 심포지엄' 기조연설을 통해 에이전틱 AI가 재구성할 의료 현장의 미래 비전을 공유했다고 31일 밝혔다. 이번 행사는 의료·헬스케어 분야 데이터 활용과 설명 가능한 AI 등 현장의 핵심 현안을 논의하기 위해 마련됐다. 이날 김동환 포티투마루 대표는 구글 '메드팜'과 마이크로소프트 'MAI-DxO' 등 글로벌 빅테크 기업들이 진단·예측 보조 영역을 넘어 헬스케어 생태계를 장악하고 있는 흐름을 분석했다. 이에 대응해 병원 업무 효율화, 환자 데이터 기반 임상 진료차트 자동 생성, 전국민 심리케어 상담사 보조 등 국내 현장에 적용 중인 실질적인 사례들을 소개했다. 김 대표는 "의료 분야는 범용 모델의 단순 미세 조정만으로는 한계가 명확하다"며 "아키텍처 구조 설계 단계부터 새롭게 개발하는 의료 특화 파운데이션 모델이 필요하다"고 강조했다. 이어 "국내 규제 환경과 의료 데이터의 특수성을 고려할 때 데이터 접근 통제와 감사가 가능한 소버린 AI 기반의 운영 체계 구축이 시급하다"고 진단했다. 포티투마루는 초거대 언어모델 문제인 환각 현상을 'RAG42'와 'MRC42'를 결합해 해결하고 있다. 기업용 프라이빗 모드를 통해 민감한 환자 정보 유출 우려를 해소하는 동시에 경량화 모델인 'LLM42'로 구축·운영 비용을 절감하는 전략을 취하고 있다. 김 대표는 "의료·헬스케어는 데이터의 민감도가 높은 만큼 강력한 보안과 신뢰를 함께 설계하는 접근이 필수"라며 "한국 의료 현장에 최적화된 케어 서비스 혁신이 실제로 작동하고 뿌리내릴 수 있도록 기술적 리더십을 발휘해 나갈 것"이라고 밝혔다.

2026.01.31 16:28김미정 기자

AI가 만든 가짜 논문 인용, 세계 최고 AI 학회도 속았다

세계 최고 권위의 인공지능(AI) 학회에서 AI가 만들어낸 가짜 논문 인용이 대거 발견됐다. AI 전문가들조차 AI가 생성한 허위 정보를 걸러내지 못하면서 연구 윤리와 학문의 신뢰성에 대한 우려가 커지고 있다. 포천, 테크크런치 등 주요 외신들에 따르면 AI 탐지 기업인 GPT제로는 최근 신경정보처리시스템학회(NeurIPS, 이하 뉴립스) 2025에 채택된 논문 최소 51개 논문에서 100건 이상의 '환각 인용'을 발견했다. 환각 인용은 AI가 존재하지 않는 논문 제목, 가짜 저자명, 잘못된 디지털 객체 식별자(DOI) 등을 그럴듯하게 만들어 인용한 것을 말한다. 뉴립스는 AI, 머신러닝 분야 최고 권위를 자랑하는 학회로 논문 채택률이 25% 수준에 불과할 정도로 경쟁이 치열하다. 뉴립스는 지난 해도 접수된 논문 2만1,000건 중 6,000건만 게재됐다. 이런 저명 학회에서 AI로 조작된 인용이 포함된 논문들이 1만 5,000개 다른 논문을 제치고 통과됐다는 점에서 큰 충격을 안겨주고 있다. 논문을 분석한 곳은 GPT제로란 AI 전문 스타트업이다. GPT제로는 지난 달 미국 샌디에이고에서 열린 뉴립스 2025 학회에 채택된 논문 4,841편을 분석해 이 같은 결과를 얻었다고 밝혔다. GPT제로는 이번에 문제가 된 것은 '바이브 인용(Vibe Citing)'이라고 명명했다. 겉으로는 정상적인 인용처럼 보여 전문가인 리뷰어들조차 걸러내지 못하고 최종 합격시켰다는 점에서 문제의 심각성이 크다. 세계적인 AI 석학인 조경현 뉴욕대학교 교수도 본인이 공저자로 참여한 논문에서 AI 환각으로 인한 인용 오류가 발견되자 공개 사과했다. 조 교수는 자신의 링크드인 계정을 통해 "공저자로서 세심하게 살피지 못한 점에 대해 전적으로 책임을 느낀다"며 잘못된 인용을 인정했다. 여러 AI 모델이 동시에 사회 전체의 담론을 왜곡하는 이른바 '거대언어모델(LLM) 그루밍' 현상은 분야를 막론하고 일어나고 있다. 지난해에는 러시아발 친러 성향 허위 정보가 다수의 AI 서비스 답변에 포함된 사례가 확인됐다. 주요 AI 서비스들의 출처 신뢰성 문제도 도마 위에 올랐다. 가디언 등 외신 보도에 따르면 구글 'AI 개요'는 건강 정보 검색 시 전문 의료 사이트 대신 유튜브를 주요 출처로 활용하는 것으로 나타났다. 챗GPT는 일론 머스크 테슬라 최고경영자(CEO)가 관여한 보수 성향 플랫폼 '그로키피디아'에서 정보를 가져오고 있다. 그로키피디아는 노예제 옹호, 성소수자 비하 표현 등으로 논란을 일으킨 곳이다. 학계에서는 논문 심사 시 AI 탐지 도구 의무 사용이나 인용 논문 DOI 자동 검증 시스템 도입 등 대책 마련이 시급하다는 목소리가 나온다. 업계 관계자는 "논문을 심사할 때 인용된 참고문헌조차 실제로 존재하는지 일일이 확인해야 하는 시대가 됐다"고 말했다.

2026.01.31 08:48이나연 기자

벤츠 특허 출원 140주년 맞아 재탄생한 'S클래스'…AI 3종 탑재

메르세데스-벤츠가 브랜드의 정수를 담은 플래그십 세단 S-클래스의 부분변경 모델 '더 뉴 메르세데스-벤츠 S-클래스'를 독일 슈투트가르트에서 29일(현지시간) 세계 최초로 공개했다. 이번 '더 뉴 메르세데스-벤츠 S-클래스'는 한 세대에서 보여줄 수 있는 가장 광범위한 업데이트를 통해 차량 구성의 50% 이상인 약 2천700개 요소가 새로 개발되거나 재설계됐다. 국내에는 2026년 하반기 출시 예정이다. 더 뉴 S-클래스는 더욱 대담한 실루엣으로 위상을 드러내며, 처음으로 조명 그릴을 적용했다. 이 그릴은 크기가 기존 S-클래스 대비 20% 더 커졌으며, 3차원 크롬 삼각별을 통해 강조된다. 여기에 새로운 디지털 라이트(DIGITAL LIGHT) 트윈 스타 헤드램프 디자인을 적용해 아이코닉한 모습을 만들어내 가시성을 향상시켰다. 마이크로 LED 기술과 강력한 신규 칩은 고해상도 조명 영역을 약 40% 확장해 이전 시스템과 비교했을 때 더 밝은 상향등을 제공하면서도 에너지 소비를 줄인다. 차량 후면에서는 3개 크롬 프레임의 시그니처 스타를 적용한 새 디자인의 테일라이트가 S-클래스의 정체성을 강화해 강렬한 인상을 남긴다. S-클래스는 메르세데스-벤츠 운영체제(MB.OS)를 탑재했다. MB.OS는 주행 보조에서 인포테인먼트, 주행 성능 등 모든 도메인에 관여해 더 빠른 처리 속도와 연산 능력, 깊게 통합된 경험을 제공한다. 차량에 탑재된 4세대 MBUX는 인포테인먼트 시스템은 챗GPT4o와 마이크로소프트 빙, 구글 제미나이 등 인공지능(AI)을 함께 사용하며, 여러 AI 에이전트를 하나의 시스템 안에 결합한다. 고객은 생성형 AI, 다회차 대화, 단기 기억 기능을 통해 더욱 직관적이고 개인화된 디지털 경험을 할 수 있다. MB.OS는 수많은 차량 기능에 대한 무선(OTA) 업데이트가 가능해, 차량 수명 전체에 걸쳐 직관적인 동반자로서 스마트하고, 안전하며, 개인화된 주행 경험을 유지한다. S-클래스는 정교하게 다듬어진 전동화 파워트레인 라인업을 갖췄다. 8기통 및 6기통 가솔린 엔진부터 6기통 디젤 엔진, 그리고 플러그인 하이브리드까지, 고객은 다양한 선택지를 고를 수 있다. 새로운 엔진에는 17 kW 통합 스타터-제너레이터(ISG)를 탑재한다. 가솔린 및 디젤 모두에 적용되는 ISG는 저회전 영역에서 지능형 보조를 제공한다. 터보차저와 결합해 우수한 출력 전달을 보장하며, 48V 전기 시스템은 '코스팅', 부스트, 회생 제동 같은 기능을 가능하게 해 연료 소비를 크게 줄인다. 또한 ISG 덕분에 엔진이 매우 빠르고 부드럽게 시동된다. 아이들링 시에도 ISG와 내연기관의 지능적 상호작용으로 뛰어난 정숙성을 유지한다. 더 뉴 메르세데스-벤츠 S-클래스에서는 모든 여정 속에서 최상의 편안함과 고요한 우아함을 경험할 수 있다. 뒷좌석은 새로 적용된 분리형 MBUX 리모컨 2개를 이용해 공조, 윈도우 쉐이드, MBUX 하이엔드 뒷좌석 엔터테인먼트 시스템의 13.1인치 디스플레이와 같은 차량 기능을 손쉽게 조작할 수 있다. 스크린에는 HD 카메라도 통합돼 마이크로소프트 팀즈, 줌, 웹엑스 등을 통한 비즈니스 화상회의에 이상적이다. 한편 더 뉴 벤츠 S-클래스 월드 프리미어에서는 세계 최초의 자동차 특허 출원 140주년을 함께 기념했다. 1886년 1월 29일 칼 벤츠는 자신의 모터바겐(모터 달린 차)에 대한 특허를 출원했으며, 같은 해 고틀립 다임러는 모터쿠체(모터 달린 마차)를 개발했다. 이 두 차량은 자동차의 출발점이 됐으며, 이후 메르세데스-벤츠는 오늘날에 이르기까지 자동차 산업의 발전을 이끌어오고 있다. 이번 더 뉴S-클래스는 최초의 자동차 특허 출원 140주년을 기념해 전 세계 140개 장소를 방문하며 벤츠 고객 및 팬들을 만나는 여정을 진행한다. 차량은 이번 월드 프리미어 후 독일 슈투트가르트에서 출발해 6개 대륙을 거쳐 5만㎞가 넘는 여정을 펼치며, 오는 10월 슈투트가르트에서 마무리할 예정이다.

2026.01.30 15:41김재성 기자

"상상만 했던 나만의 세계, 이제 직접 걸어다닌다"… 구글 '무한 세계 생성 AI' 출시

구글이 텍스트 몇 줄만 입력하면 가상 세계를 만들고, 그 안을 직접 걸어 다니거나 날아다닐 수 있는 AI 기술 '프로젝트 지니(Project Genie)'를 공개했다. 마치 게임 속 세계처럼 실시간으로 환경을 탐험할 수 있는 것이 특징이다. 구글은 29일(현지 시각) 공식 블로그를 통해 미국 내 구글 AI 울트라(Google AI Ultra) 유료 구독자들에게 이 서비스를 순차 제공한다고 밝혔다. 18세 이상만 이용 가능하며, 향후 다른 국가로도 확대할 예정이다. 프로젝트 지니의 사용법은 간단하다. "숲 속 오두막"이나 "미래 도시" 같은 텍스트를 입력하거나 이미지를 업로드하면, AI가 자동으로 그 환경을 만들어낸다. 사용자는 만들어진 세계 안에서 걷기, 타기, 날기, 운전 등 원하는 방식으로 자유롭게 돌아다닐 수 있다. 1인칭 시점과 3인칭 시점도 선택 가능하다. 특히 사용자가 앞으로 이동하면 AI가 실시간으로 앞쪽 경로를 생성해 준다. 미리 만들어진 정적인 3D 이미지가 아니라, 움직이는 대로 세계가 계속 펼쳐지는 방식이다. 탐험하면서 카메라 각도도 자유롭게 조정할 수 있다. 다른 사람이 만든 세계를 가져와 자신만의 버전으로 변형하는 '리믹스' 기능도 제공된다. 갤러리에서 다양한 세계를 둘러보고 마음에 드는 것을 골라 수정할 수 있다. 완성된 세계를 탐험하는 모습은 동영상으로 다운로드할 수도 있어, SNS 공유나 개인 소장이 가능하다. 다만 구글은 아직 프로젝트 지니가 초기 단계라 한계도 있다고 밝혔다. 생성된 세계가 항상 사실적이지 않고, 입력한 설명과 정확히 일치하지 않을 수 있다. 캐릭터 조작이 불안정하거나 반응이 느릴 때도 있으며, 한 번에 최대 60초까지만 생성된다는 제약도 있다. 이 기술은 구글 딥마인드가 지난해 8월 공개한 '지니 3(Genie 3)'라는 AI 모델을 기반으로 한다. 지니 3는 환경을 시뮬레이션하고 사용자 행동에 따라 세계가 어떻게 변할지 예측하는 '월드 모델' 기술이다. 로봇공학부터 애니메이션, 역사적 환경 재현까지 다양한 현실 시나리오를 구현할 수 있다. 구글 측은 "가장 진보된 AI를 사용하는 이들과 이 기술을 공유하며, 사람들이 실제로 어떻게 활용하는지 배우고 싶다"며 "앞으로 더 많은 사용자가 이용할 수 있도록 만드는 것이 목표"라고 밝혔다. 구글 프로젝트 지니에 대한 자세한 사항은 구글 공식 블로그에서 확인 가능하다. 이미지 출처: 구글 공식 블로그 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.30 15:36AI 에디터

오픈AI, IPO 속도전 돌입…앤트로픽 견제 나섰다

챗GPT 개발사 오픈AI가 올해 4분기를 목표로 기업공개(IPO) 준비 작업에 착수했다. 주요 경쟁사인 앤트로픽 등이 먼저 상장 움직임을 나타내자 견제 차원의 속도전에 나선 것으로 보인다. 29일(현지시간) 월스트리트저널(WSJ)은 소식통을 인용해 오픈AI가 미국 월가의 투자은행들과 IPO 관련 비공식 협의를 진행하고 있다고 보도했다. 오픈AI는 최고회계책임자(CAO)와 기업사업재무책임자(CBFO)를 뽑는 등 재무 조직도 강화하고 있다. 오픈AI는 세계에서 가장 몸값이 비싼 비상장 기업으로, 기업가치가 약 5천억 달러(약 719조원)로 평가되고 있다. 회사는 1,000억 달러(약 143조 7,000억원)가 넘는 대규모 자금 조달을 추진 중이다. 이는 '상장 전 지분투자(프리IPO)' 절차가 될 수 있다. 오픈AI는 최근 소프트뱅크와 300억 달러(약 43조원), 아마존과는 최대 500억 달러(약 72조원)에 달하는 투자를 논의한 것으로 알려졌다. 오픈AI 상장이 확정된다면 올해는 전례 없는 IPO '블록버스터' 시즌이 될 전망이다. 일론 머스크의 우주 기업 스페이스X와 오픈AI의 경쟁사 앤트로픽도 올해 상장을 준비 중인 것으로 전해져서다. 오픈AI의 본격적인 IPO 추진은 앤트로픽에 대한 견제 심리가 크게 작용한 것으로 풀이된다. 앤트로픽은 AI 챗봇 '클로드'가 기업용 프로그래밍 시장에서 인기를 끌며 빠른 성장세를 보이고 있다. 앤트로픽은 초기 목표였던 100억 달러(약 14조 3,500억원)를 넘어선 투자 유치를 진행 중이다. 올해 말 상장 가능성도 열어두고 있다. 오픈AI와 앤트로픽은 AI 개발과 운영을 위해 매년 거액의 적자를 감내하고 있다. 구글이나 메타플랫폼(메타) 등 대기업들과 달리 꾸준히 현금을 벌어주는 제품군이 부재해서다. 샘 알트먼 오픈AI 최고경영자(CEO)는 지난달 한 팟캐스트에 출연해 "개인적으로 상장사 대표가 되는 것이 좋냐고 물어본다면 '0%'라고 답하겠다"면서도 "오픈AI가 상장사가 되는 것에 대해선 다소 기대되는 측면이 있다"고 말했다. 이어 "다른 한편으로는 매우 짜증 나는 일이 될 것"이라고 복잡한 심경을 드러냈다.

2026.01.30 15:11이나연 기자

[AI의 눈] AI, 검색을 흔들다…트래픽 종말인가, 새로운 도약인가

검색의 중심이 조용히 이동하고 있다. 생성형 인공지능(AI)이 질문에 곧바로 답을 내놓는 순간, 링크를 타고 이동하던 전통적 검색 흐름은 흔들렸다. 전 세계에서 AI 기반 검색 이용이 늘면서 포털 트래픽은 '총량이 줄었는가'보다 '질이 달라졌는가'로 논쟁이 옮겨 붙었다. 글로벌 흐름은 수치로 확인된다. 가트너는 전통적 검색 엔진 볼륨이 2026년까지 25% 감소하고, 2028년에는 유기적 검색 트래픽이 50% 이상 줄 수 있다고 내다봤다. 생성형 AI 서비스 트래픽은 1년 새 165배 급증했고, 챗GPT는 월간 40억 명을 넘겼다. 동시에 마케팅 예산은 유료 채널 비중이 커졌고, AI 기반 검색을 겨냥한 GEO(Generative Engine Optimization)와 엔터티 중심 최적화 흐름이 부상하고 있다. 구글은 반대 그림을 제시한다. 구글은 매일 웹으로 수십억 건의 클릭을 보내고 있으며, AI가 적용된 검색에서 '평균 클릭 품질'이 높아져 웹사이트에 더 많은 '양질의 클릭'을 전달하고 있다고 강조한다. '양질의 클릭'은 들어왔다가 곧바로 이탈하지 않는 방문을 뜻한다. AI 오버뷰와 AI 모드로 이전보다 복잡한 질문이 늘고, 출처 링크도 다양하게 노출된다는 설명이다. 그러나 외부 보고서는 “구글 AI 검색 이후 웹 트래픽이 25% 급감했다”는 정반대 관측을 내놓는다. 총량이 버텼다는 주장과 실제 체감 하락이 충돌하는 가운데, 산업계는 지표의 해석을 두고 긴장 상태다. 국내 시장의 균열은 뚜렷하다. 네이버의 PC 검색 점유율은 2017년 80% 안팎에서 2023년 62.86%로 하락했고, 모바일 앱 사용 시간도 감소했다. 이용자 체류 시간은 유튜브와 인스타그램 등 글로벌 플랫폼으로 빠르게 이동하고 있다. AI 경쟁에서도 네이버의 하이퍼클로바X는 존재감을 크게 드러내지 못했다. 정부의 한국형 AI 파운데이션 모델 사업 1차 평가에서 '독자성 미흡'으로 탈락했고, 과기정통부는 “이미 학습된 가중치를 그대로 활용한 것은 무임승차에 해당한다”고 못 박았다. 포털 검색이 흔들리는 사이, 네이버의 사업 무게중심은 커머스로 기울고 있다. 이용자 행동은 변화의 속도를 더한다. 오픈서베이에 따르면 한국인의 주 이용 검색 수단은 여전히 네이버가 우위지만, 10대(43.5%)와 20대(55.2%)에선 점유가 약하다. 챗GPT와 제미나이 이용률은 전 연령에서 상승했고, 이들은 일반 검색으로 이탈하기보다 AI 안에서 질문을 다시 던지며 답을 찾는 경향이 강했다. 뉴스 검색은 유튜브, 생활 정보는 구글로 쏠림이 커졌고, '자동 요약'과 '양질의 결과'에 대한 체감 품질도 높아졌다. “한번 쓰면 안 돌아간다”는 표현이 과장이 아님을 보여주는 대목이다. 경제적 파장은 단선적이지 않다. 광고 의존도가 낮은 기업 가운데선 방문자 수가 줄었는데도 오히려 수익이 느는 역설이 관찰된다. AI 요약 이후 웹으로 넘어오는 이용자가 목적성이 강해 전환율이 높아지는 이른바 '품질 높은 방문자' 효과 때문이다. 반면 뉴스 산업은 요약 노출로 유입과 광고가 동시에 줄어드는 직격탄을 맞고 있으며, 생존 위기라는 표현이 등장한다. B2B SaaS 틈새시장에선 챗GPT•퍼플릭시티가 전체 트래픽의 약 0.8%를 보내고 있다는 점도 주목된다. 작아 보이지만, 검색 정의가 바뀌는 변곡점의 초기 신호로 읽힌다. 플랫폼 지형도 변하고 있다. 가트너는 2027년까지 스마트폰 모바일 앱 사용량이 25% 줄고, 2026년에는 웹 콘텐츠의 3분의 1 이상이 차세대 AI 검색을 겨냥해 만들어질 것으로 예상했다. 앱 사용이 준다면 퍼스트 파티 데이터 수집과 푸시 알림의 도달력도 떨어진다. 검색 시장의 가치가 '키워드 상단 노출'에서 'AI 답변 속 언급'으로 이동한다는 진단이 함께 나온다. 한편, 윤리와 규제의 질문도 커진다. AI가 답을 만들고 트래픽을 흡수할수록 오류 책임과 출처 귀속 논란은 거세질 수밖에 없다. 필터 버블과 확증 편향, 저작권 이슈는 이미 전면에 올라와 있다. 정보의 유통 구조가 자동화될수록 신뢰를 어떻게 담보할 것인지, 누구에게 책임을 물을 것인지가 시장의 새 리스크로 떠오른다. 결국 검색의 무게추는 AI로 이동했고, '총량이 줄었나, 질이 달라졌나'라는 척도 싸움이 시작됐다. 한쪽에서는 더 많은 질문과 양질의 클릭을 말하고, 다른 쪽에서는 체감 트래픽 하락과 수익 공백을 호소한다. 한국 시장의 세대 분화, 포털 경쟁력 약화, 글로벌 플랫폼의 흡수력까지 겹치며 2030년을 향한 검색 시장의 재편은 이미 현재진행형이다. ▶ 해당 보고서 보기 https://ameet.zdnet.co.kr/uploads/b52a31fd.html ▶ 이 기사는 리바랩스의 'AMEET'과의 제휴를 통해 제공됩니다. 더 많은 보고서를 보시려면 'AI의 눈' 서비스로 이동해주세요 (☞ 보고서 서비스 바로가기)

2026.01.30 13:48AMEET

[현장] 피지컬 AI 시대, LLM이 곧 '월드 모델'…노빅 "기존 토대 활용해야"

"2026년 우리는 에이전트 인공지능(AI)과 로봇 공학이 결합된 피지컬 AI 시대를 목격하고 있습니다. 그렇다면 이 새로운 흐름을 위해 지금까지 쌓아온 거대언어모델(LLM)을 모두 허물고 처음부터 다시 시작해야 할까요? 제 대답은 '아니오'입니다." 피터 노빅 구글 연구총괄 겸 스탠퍼드대학교 인공지능연구소 위원은 30일 서울 강남구 코엑스에서 개막한 'AI 서울 2026' 콘퍼런스 영상 기조연설에서 이같이 밝혔다. 최근 AI 산업 담론의 축이 모델 성능에서 상용화와 수익성으로 옮겨가면서 기존 파운데이션 모델인 LLM의 효용성이 논쟁거리로 떠오르고 있다. 노빅 위원은 먼저 물리적 세계가 가진 본질적인 불확실성에 주목했다. 전통적인 소프트웨어 공학은 코드의 불확실성을 제거하고 통제하려 하지만 현실 세계의 예외 상황에는 한계가 있다는 지적이다. 그는 1999년 나사(NASA) 화성 탐사선 '마스 폴라 랜더' 추락 사고를 예로 들었다. 당시 착륙선은 다리가 펴질 때 발생한 진동을 착륙 신호로 오인해 추락했다. 노빅 위원은 센서 오류 가능성을 판단하고 상황을 추론할 수 있는 '공유된 월드 모델'이 있었다면 사고를 막을 수 있었을 것이라고 분석했다. 피지컬 AI의 두뇌 구축에 대해서는 LLM의 확장을 지지했다. 일각에서는 '딥러닝의 대부'로 불리는 얀 르쿤 전 메타 수석 과학자 등의 주장을 빌려 기존 LLM을 버리고 새로운 아키텍처를 도입해야 한다고 주장한다. 하지만 노빅 위원은 기존 LLM이 이미 세상을 이해하는 월드 모델로서 기능하고 있다고 반박했다. 그는 "언어 모델은 단순히 다음 단어를 예측하는 시퀀스 모델이지만, 텍스트뿐만 아니라 비디오 프레임과 같은 시퀀스도 처리할 수 있다"며 "이 과정에서 AI는 인과관계나 물체 간 관계 등 세상이 작동하는 원리를 자연스럽게 학습한다"고 말했다. 예를 들어 렌터카 반납을 위해 자전거를 타라고 제안했던 과거 소프트웨어와 달리, 지금의 파운데이션 모델은 렌터카를 반납하면 이동 수단이 사라진다는 맥락을 완벽히 이해하고 바로잡을 수 있다는 것이다. 노빅 위원은 "언어 모델이 텍스트 시퀀스 예측을 넘어 비디오와 오디오 데이터를 학습하며 월드 모델로 확장 중"이라며 "피지컬 AI는 기존의 거대 모델을 폐기하는 것이 아니라 그 토대 위에서 구축돼야 한다"고 제언했다.

2026.01.30 13:47이나연 기자

바이낸스, 구글플레이서 조만간 중단...FIU "기술적 문제로 지연"

지난 28일부터 구글플레이의 새 정책에 따라 국내 가상자산사업자(VASP) 미등록 거래소 앱 설치 중단이 예고됐지만, 현재까지 별다른 조치가 이뤄지지 않으면서 이용자 혼란이 커지고 있다. 30일 금융정보분석원(FIU) 관계자는 “구글에 확인한 결과 앱 차단을 위한 기술적, 행정적 작업에 시간이 소요되고 있다는 답변을 받았다”며 “거래소뿐 아니라 가상자산 관련 앱 전반을 대상으로 검토하고 있어 신중하게 접근하는 것으로 보인다”고 말했다. 앞서 구글플레이는 한국에서 FIU에 VASP로 등록하지 않은 가상자산 서비스 사업자 앱 설치 지원을 중단하겠다고 공지했다. 이에 따라 바이낸스를 비롯해 비트겟, 바이비트 등 주요 글로벌 가상자산 거래소가 대상에 포함됐다. 그러나 정책 시행일 이후에도 구글플레이에서 바이낸스 등 국내 미등록 거래소 앱 설치가 여전히 가능해 이용자들의 혼란이 이어지고 있다. 가상자산 커뮤니티와 소셜네트워크서비스(SNS)에서는 '안드로이드 바이낸스 차단 여부'가 최대 화두로 떠오른 상황이다. 관련해 가상자산 거래 앱 차단이 이용자 반발로 이어질 수 있는 만큼, 이를 고려하고 있는 것으로 보인다. FIU 관계자는 “정책 시행 자체는 맞지만, 차단 대상 앱을 선별하는 과정에 시간이 걸리고 있다는 설명을 들었다”고 전했다. 다만 금융당국은 앱 설치 중단까지 오랜 시간이 소요되지는 않을 것으로 보고 있다. 구글이 당국에 구체적인 시행 시점을 밝히지 않았으나, 내부 정리가 마무리되는 대로 곧바로 앱 차단에 나설 가능성이 크다는 관측이다. 아울러, 가상자산 업계에서는 애플 역시 앱스토어에 유사한 지침을 두고 있는 만큼 구글과 동일한 조치를 취할 가능성이 제기된다. 애플 앱스토어는 가상자산 거래 앱에 대해 관련 라이선스와 허가를 요구하고 있다. 이에 대해 FIU 관계자는 “애플은 현재로서 구글처럼 적극적으로 미등록 VASP를 차단할 계획은 없다는 입장을 전달해왔다”고 말했다. 다만 업계 일각에서는 애플이 과거 구글의 정책을 후속 적용한 사례를 들어 이번에도 유사한 흐름이 나타날 수 있다는 전망을 내놓고 있다. 한 가상자산 업계 관계자는 “지난해 3월 구글이 국외 미신고 가상자산사업자 앱을 차단한 뒤 한 달 후 애플이 동일한 조치를 취한 전례를 고려하면, 이번에도 비슷한 수순을 밟을 가능성이 있다”고 밝혔다.

2026.01.30 11:38홍하나 기자

머스크의 큰 그림…"스페이스X, 테슬라·xAI와 합병 추진"

일론 머스크가 이끄는 우주탐사 기업 스페이스X가 전기차 업체 테슬라 또는 인공지능(AI) 기업 xAI와 합병을 검토하고 있다고 블룸버그 통신이 29일(현지시간) 보도했다. 보도에 따르면 스페이스X는 테슬라와의 합병을 우선적으로 검토하는 한편, xAI와의 기업 결합도 대안으로 논의 중이다. 이와 별도로 스페이스X와 xAI의 기업공개(IPO)를 앞두고 전략적 제휴 가능성도 함께 모색하고 있는 것으로 전해졌다. 일부 소식통은 이번 거래가 성사될 경우 인프라 전문 펀드와 중동 국부펀드 등 대형 투자자들의 높은 관심을 끌 수 있을 것으로 전망했다. 다만 거래 추진 과정에서 대규모 자금 조달이 필요할 가능성도 제기됐다. 아직 최종 결정은 내려지지 않았으며, 협상 과정에서 세부 조건이 변경되거나 각 회사가 독립 경영을 유지하는 방향으로 결론이 날 가능성도 남아 있다. 블룸버그는 이번 논의가 머스크 CEO가 자신의 사업 전반을 어떻게 통합, 강화할지에 대해 전략적 선택을 고민하고 있음을 보여주는 신호라고 분석했다. 합병이 성사될 경우 스페이스X의 로켓 발사 사업과 스타링크 위성 네트워크, 소셜미디어 플랫폼 엑스(X), AI 챗봇 '그록(Grok)' 등이 하나의 기업 체계 아래 편입될 수 있다. 이를 통해 머스크가 구상해 온 우주 기반 데이터센터 구축 등 다양한 시나리오가 현실화될 가능성도 제기된다. 머스크 CEO는 최근 AI 학습과 구동을 위한 데이터센터를 우주에 구축하는 것이 가장 효율적인 방안이라고 주장해 왔다. 이번 합병 추진은 오픈AI와 구글, 메타 등 글로벌 빅테크와의 경쟁에서 xAI가 우주 인프라를 활용해 차별화된 경쟁력을 확보하려는 전략으로 해석된다. 앞서 로이터 통신도 스페이스X와 xAI의 합병 가능성을 보도한 바 있다. 로이터에 따르면 합병안은 xAI 주식을 스페이스X 주식으로 교환하는 구조로 검토되고 있다. 이를 위해 미국 네바다주에는 지난 21일 두 개의 법인이 설립됐으며, 스페이스X 최고재무책임자(CFO) 브렛 존슨이 핵심적인 역할을 맡고 있는 것으로 알려졌다. 다만 거래 규모와 구체적인 시점, 최종 구조는 아직 확정되지 않았다. 한편 스페이스X는 일론 머스크의 생일이 있는 오는 6월을 전후해 기업공개를 검토 중이며, 최대 500억 달러의 자금 조달을 목표로 할 가능성이 거론된다. 이는 성사될 경우 역사상 최대 규모의 IPO 가운데 하나가 될 전망이다. 이날 테슬라 주가는 정규장에서 소폭하락 했으나 장외 거래에서 최대 4.5%까지 급등했다.

2026.01.30 09:52이정현 미디어연구소

아이폰17 바람 탄 애플 '어닝 서프라이즈'…중국 사업 38%↑

아이폰17 흥행 바람을 탄 애플이 매출 16% 증가라는 양호한 성적표를 내놨다. 애플의 2026 회계연도 1분기(지난해 10~12월) 매출이 전년 동기 대비 16% 증가한 1천437억6천만 달러(약 206조원)로 집계됐다고 CNBC 등 외신들이 보도했다. 이는 시장 예상치였던 1천384억8천만 달러를 크게 웃도는 수치다. 지난 해 같은 기간 363억 3천만 달러였던 순익도 421억 달러로 증가했다. 주당순이익(EPS) 역시 2.84달러로 지난해 같은 기간의 2.40달러를 상회했다. 아이폰 매출, 전년比 23%↑ 이번 실적 호조는 아이폰 판매가 주도했다. 아이폰 매출은 전년 대비 23% 급증한 852억7천만 달러를 기록했다. 애플은 지난해 9월 출시한 아이폰17 시리즈의 강력한 수요가 실적을 끌어올렸다고 설명했다. 팀 쿡 애플 최고경영자(CEO)는 CNBC와의 인터뷰에서 “아이폰에 대한 수요는 그야말로 엄청났다”고 말했다. CNBC는 이번 분기 실적이 아이폰 판매량이 소폭 감소했다고 보고됐던 지난해 연말 분기와는 정반대의 흐름이라고 평가했다. 쿡 CEO는 현재 아이폰과 맥을 비롯한 애플 기기의 활성 사용자 수가 25억 대에 달한다고 밝혔다. 이는 지난해 1월 발표한 23억5천 만 대에서 늘어난 수치로, 애플 서비스와 플랫폼 소프트웨어의 잠재 시장 규모를 보여주는 핵심 지표로 꼽힌다. 지역별로는 중국 시장에서 두드러진 성장세를 보였다. 해당 분기 중국 매출은 전년 대비 38% 증가한 255억3천만 달러를 기록했다. 팀 쿡은 “중국 본토에서 아이폰 업그레이드 고객 수가 사상 최고치를 기록했고, 기존에 다른 브랜드 스마트폰을 사용하던 고객도 두 자릿수 성장세를 보였다”고 밝혔다. 케반 파레크 애플 최고재무책임자(CFO)는 3월 분기 매출이 전년 동기 대비 13~16% 증가한 1천8억~1천106억6천 만 달러에 이를 것으로 전망했다. 반면 시장조사기관 LSEG가 집계한 애널리스트들의 해당 분기 매출 전망치는 1천48억4천 만 달러다. 아이패드·서비스 부문 매출도 증가…맥·웨어러블 부문은 감소 제품별로 보면 아이패드 매출은 전년 대비 6% 증가한 86억 달러로 시장 예상치를 웃돌았다. 서비스 부문 매출은 전년 대비 14% 늘어난 263억4천 만 달러를 기록했다. 쿡 CEO는 애플 TV의 지난해 12월 시청률이 전년 동기 대비 36% 증가했다고 밝혔다. 반면 맥 매출은 전년 대비 7% 감소했으며, 에어팟과 애플워치, 비전 프로 등이 포함된 웨어러블·홈·액세서리 부문 매출도 2% 줄어 월가의 기대에 미치지 못했다. 애플은 서비스 부문의 성장률이 12월 분기와 비슷한 수준을 유지할 것으로 내다봤다. 한편 애플은 이달 초 구글과 협력해 구글의 생성형 AI 모델 '제미나이'를 애플 인텔리전스 소프트웨어에 활용할 계획이라고 발표했다. 쿡 CEO는 “우리는 AI 분야에서 세계 최고 수준의 플랫폼을 보유하고 있다”고 강조했다. 애플 주가는 실적 발표 이후 시간 외 거래에서 약 1% 상승했다.

2026.01.30 08:34이정현 미디어연구소

"논문 올리면 45초짜리 틱톡 영상 완성"… AI가 바꾸는 학술 소통의 미래

어려운 학술 논문을 45초짜리 짧은 영상으로 자동 변환해주는 인공지능 시스템이 나왔다. 해당 논문에 따르면, 미국 워싱턴대학교(University of Washington) 연구팀이 만든 '페이퍼톡(PaperTok)'은 AI를 활용해 연구자들이 자신의 논문을 일반인도 쉽게 볼 수 있는 영상 콘텐츠로 바꿀 수 있도록 돕는다고 밝혔다. 연구팀은 이 시스템이 학계와 일반 대중 사이의 소통 벽을 낮추는 혁신적 도구가 될 것으로 보고 있다. 소셜미디어로 뉴스 보는 시대, 학술 소통도 바뀐다 학술 논문은 과학적 발견을 나누는 중요한 매체지만, 전문 용어가 많고 구조가 복잡해 일반인이 읽기 어렵다. 2024년 퓨 리서치 센터(Pew Research Center) 조사에 따르면, 절반 이상의 사람들이 소셜미디어로 뉴스를 접한다. 2025년 조사에서는 미국 성인의 17%가 틱톡에서 정기적으로 뉴스를 본다고 답했다. 워싱턴대학교 연구팀은 이런 변화에 주목해 페이퍼톡을 개발했다. 연구자가 PDF 논문 파일을 올리면, 구글의 제미나이라는 AI가 핵심 내용을 분석하고 사람들이 이해하기 쉬운 대본을 만든다. 그다음 베오2(Veo 2)라는 AI가 대본에 맞는 영상을 제작하고, 음성 변환 AI가 목소리를 입힌다. 연구팀은 시스템을 만들기 전에 과학 콘텐츠를 만드는 전문가 8명을 인터뷰했다. 이들은 유튜브, 틱톡 등에서 과학 영상을 만드는 사람들로, 평균 5년 이상 경력자들이었다. 조사 결과, 좋은 과학 영상은 시청자의 일상과 관련이 있고 최신 이슈를 다루며, 처음 2-5초 안에 시청자의 관심을 끌어야 한다는 점을 확인했다. 45초 영상으로 논문 핵심 전달, 사람과 AI가 함께 만든다 페이퍼톡의 가장 큰 특징은 사람이 중요한 순간마다 직접 선택하고 수정할 수 있다는 점이다. 시스템이 자동으로 4가지 영상 대본을 만들지만, 어떤 것을 쓸지는 연구자가 정한다. 연구자는 편집 도구를 통해 대본을 고치고, 목소리 톤을 조정하며, 각 장면의 영상을 다시 만들 수 있다. 영상 제작은 3단계로 진행된다. 1단계에서는 시작 문구와 대본을 고르고 목소리 스타일을 정한다. AI가 각 대본에 어울리는 목소리를 추천하지만, 연구자가 직접 바꿀 수 있다. 2단계에서는 대본을 8개 장면으로 나누고 각각에 맞는 영상을 만든다. 연구자는 장면마다 영상을 다시 만들거나 대본을 수정할 수 있다. 마지막 3단계에서는 논문 저자 정보와 만든 사람 이름을 넣은 크레딧 화면을 추가해 신뢰도를 높인다. 시작 문구를 만드는 과정은 특히 정교하다. AI는 먼저 논문에서 구체적이고 실생활과 관련된 4가지 핵심 내용을 뽑는다. 그다음 모순, 놀라움, 개인적 관심사, 호기심 같은 방법을 써서 각 내용을 흥미로운 이야기로 바꾼다. 예를 들어 "AI가 X를 일으킨다"는 확실한 말을 "AI가 X를 일으킬 수 있을까?"라는 질문으로 바꿔 과학적으로 정확하면서도 시청자의 관심을 끈다. 최종적으로 15단어 이내의 대화체 시작 문구 4개를 만들고, AI가 스스로 평가해 가장 좋은 것만 보여준다. 기존 플랫폼 압도하는 성적, 정보도 많고 재미도 있다 연구팀은 페이퍼톡의 효과를 확인하기 위해 연구자 18명과 일반인 100명에게 평가를 받았다. 참가자들은 같은 논문으로 만든 3가지 영상을 비교했다. 페이퍼톡 영상과 함께 PDFtoBrainrot, 사이스페이스(SciSpace) 같은 기존 서비스의 영상을 평가했다. 결과는 페이퍼톡이 압도적으로 좋았다. 11개 평가 항목 중 8개에서 가장 높은 점수를 받았다. 특히 정보가 많다(4.09점), 믿을 만하다(3.92점), 흥미롭다(3.91점)는 평가가 높았다. PDFtoBrainrot는 신뢰성, 정확성, 완성도 등에서 계속 낮은 점수를 받았다. 사이스페이스는 정보량에서는 페이퍼톡과 비슷했지만, 흥미도와 재미에서는 크게 떨어졌다. 페이퍼톡 영상은 참가자들이 더 많이 보고 싶어하고(3.50점), 다른 사람과 공유할 의향(3.05점)도 가장 높았다. 틱톡 영상으로 과학 소통이 가능하다는 점에서 연구자 참가자들은 페이퍼톡이 과학 소통의 문턱을 크게 낮췄다고 평가했다. 18명 모두 시스템이 쉽고 빠르다고 답했으며, 한 참가자는 "엄마도 쉽게 쓸 수 있을 것"이라고 말했다. 평균 20분이면 영상을 만들 수 있었고, 특히 눈에 띄는 콘텐츠를 만드는 데 어려움을 겪던 연구자들에게 큰 도움이 됐다. 연구자들은 페이퍼톡을 일반인에게 연구를 소개하거나, 영상 시안 제작, 내부 공유 등 다양하게 쓸 수 있다고 답했다. 크레딧 화면은 신뢰도를 높이는 장치로 특히 좋은 평가를 받았다. 자동으로 논문 저자 목록을 뽑아내고 만든 사람이 이름을 추가할 수 있는 이 기능에 대해, 참가자들은 "실제 논문이라는 걸 보여준다", "트위터의 아무 정보가 아니라는 걸 알 수 있다"고 반응했다. 일부는 발표된 학회나 연도를 넣으면 더 좋을 것 같다고 제안했다. 더 세밀한 조정 원하는 연구자들, AI의 한계도 드러나 연구자들은 페이퍼톡이 빠르고 편하다는 점을 인정하면서도 더 꼼꼼하게 조정하고 싶어했다. 자신의 연구에 대한 애정이 큰 만큼 영상이 정확해야 한다고 강조했다. 하지만 글을 영상으로 바꾸는 AI의 한계로 원하는 대로 영상을 고치기 어려운 점이 가장 큰 불만이었다. 대본은 마음에 드는데 영상의 특정 부분만 바꾸고 싶을 때 방법이 없다는 점, 갑자기 나타나는 흐릿한 글씨나 이상한 사람 모습 같은 AI 오류가 연구의 신뢰도를 떨어뜨린다는 우려가 나왔다. 일부 연구자는 AI에게 직접 명령할 수 있는 "전문가 모드"를 요청했지만, 동시에 AI에게 명령하는 것 자체가 어렵다는 점도 인정했다. 참가자들은 분위기판 제공, 목소리 억양 조정, 논문의 그림 직접 넣기 등 다양한 개선 방법을 제안했다. 흥미롭게도, 연구자들은 영상이 "너무 AI 같으면" 사람들이 싫어할 거라고 걱정했지만, 실제 일반인들의 반응은 더 너그러웠다. 일반인들은 명백한 오류가 아니면 AI 사용 자체를 문제 삼지 않았고, 내용을 이해할 수 있는지, 흥미로운지, 제작이 깔끔한지를 더 중요하게 봤다. AI 사용에 대한 생각에서도 차이가 났다. 연구자들은 일반인보다 AI를 활용한 과학 소통에 대한 신뢰가 확실히 낮았다(2.67점 vs 3.22점). 영상이 AI로 만들어졌다는 사실을 알았을 때, 연구자의 66.7%가 신뢰도가 낮아졌다고 답한 반면, 일반인은 36%만 같은 반응을 보였다. 일반인의 55%는 AI 사용 여부가 영향을 주지 않았다고 답했다. 그래도 양쪽 모두 AI가 보조 역할을 해야 하며, 전문가가 과정에 참여해야 한다는 데 동의했다. AI가 잘못된 정보를 만들어내거나 내용을 왜곡할 수 있다는 점을 알고 있었고, 연구자가 결과물을 확인하는 게 필수라고 강조했다. 이런 이유로 페이퍼톡의 크레딧 화면이 사람이 참여했다는 걸 보여주는 신뢰 신호로 작용했다. FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 페이퍼톡은 어떻게 논문을 영상으로 만드나요? A. 연구자가 PDF 논문 파일을 올리면 AI가 핵심 내용을 분석해 4가지 대본 옵션을 만듭니다. 연구자가 마음에 드는 대본을 고르면 AI가 각 장면에 맞는 영상을 만들고 목소리를 입힙니다. 전체 과정은 평균 20분 정도 걸리고, 연구자는 각 단계에서 내용을 고치거나 다시 만들 수 있습니다. Q2. 페이퍼톡 영상은 얼마나 믿을 만한가요? A. 페이퍼톡은 마지막에 크레딧 화면을 넣어서 원래 논문 저자와 영상 만든 사람 정보를 보여줍니다. 이를 통해 연구자가 내용을 확인했다는 걸 알 수 있고, 시청자가 원래 논문을 찾아볼 수 있습니다. 평가에서 이 크레딧 화면이 강력한 신뢰 신호로 작용했고, 참가자들은 이를 통해 검증된 학술 연구라는 걸 알 수 있었다고 답했습니다. Q3. 기존 서비스와 페이퍼톡의 차이는 뭔가요? A. PDFtoBrainrot이나 사이스페이스 같은 기존 서비스는 자동 생성에 더 많이 의존합니다. 반면 페이퍼톡은 연구자가 대본 선택, 목소리 조정, 장면별 영상 다시 만들기 등 제작 과정에 직접 참여하는 방식입니다. 평가 결과 페이퍼톡 영상은 정보량과 흥미도 모두에서 기존 서비스를 앞섰고, 시청자들의 공유 의향도 가장 높았습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.29 21:34AI 에디터

'국대 AI' 도전사 트릴리온랩스, 민관 협력으로 차세대 기술 국산화

구글 등 글로벌 빅테크가 기존 거대언어모델(LLM) 모델의 한계를 극복하기 위해 '디퓨전(확산)' 모델을 시도하는 가운데, 트릴리온랩스가 정부 지원사업을 통해 이 기술을 독자적으로 구현해 주목 받고 있다. 스타트업의 혁신 기술과 정부의 인프라 지원이 만나 차세대 인공지능(AI) 원천 기술을 국산화한 민관 협력 성과로 평가돼서다. 트릴리온랩스는 정보통신산업진흥원(NIPA)의 고성능 컴퓨팅 지원사업을 통해 대규모 언어 모델 '트리다(Trida)-7B'를 개발했다고 29일 밝혔다. 트릴리온랩스는 단어를 순차적으로 생성하는 방식 대신, 문장 전체를 병렬로 생성하는 확산 기술을 트랜스포머 아키텍처에 이식해 추론 속도와 효율성을 개선했다. 개발 과정에서는 NIPA가 지원한 H200 80장 규모의 고성능 연산 자원을 활용해 '컴퓨팅 파워 부족' 문제를 해결했다. 트릴리온랩스 관계자는 "막대한 자본이 소요되는 하드웨어 인프라를 정부로부터 적시에 지원받아 기술적 난제였던 블록 디퓨전 효율 학습 전략과 독자적 전이 학습 기법을 단기간에 완성했다"고 설명했다. 트리다-7B는 복잡한 수리적 사고를 요하는 'ko_gsm8k'(수학)에서 61.26점을 기록하며 엔비디아의 'Fast dLLM'(56.94점) 등 기존 글로벌 모델들을 유의미한 차이로 앞서며 1위를 차지했다. 사용자의 복잡한 명령어를 얼마나 정확하게 수행하는지 측정하는 'koifeval'(한국어 지시 이행 능력)에서도 53.42점을 획득해 경쟁 모델 대비 성능 우위를 증명했다. 한국어 지식 이해 능력을 측정하는 'kmmlu'(한국어 상식)에서는 46.35점으로 최고점을 획득했다. 트릴리온랩스는 이번 과제의 결과물인 모델 가중치와 추론 코드를 전면 공개해 국내 AI 생태계의 동반 성장을 견인할 계획이다. 트릴리온랩스는 과학기술정보통신부 주관 'AI 특화 파운데이션 모델 프로젝트'를 통해 세계 최초 의과학 특화 파운데이션 모델을 개발하고 있다. 최근 과기정통부가 추진하는 '독자 AI 파운데이션 모델(독파모)' 사업팀 재공모에도 도전 의사를 밝혔다. 신재민 트릴리온랩스 대표는 "스타트업이 감당하기 힘든 막대한 연산 자원 확보 문제를 NIPA의 지원을 통해 해결하면서 연구 개발에만 매진했다"며 "확산 기반 트랜스포머라는 차세대 아키텍처 선점을 통해 대한민국이 글로벌 AI 기술 경쟁에서 주도권을 확보하는 데 기여하겠다"고 말했다.

2026.01.29 13:49이나연 기자

'깃허브 코파일럿' 유료 구독 75%↑…"AI 개발 생태계 주도"

마이크로소프트가 깃허브 코파일럿을 앞세워 글로벌 인공지능(AI) 개발 생태계를 한층 넓혔다. 29일 마이크로소프트는 2025 회계연도 2분기 깃허브 코파일럿 유료 구독자 수가 전년 대비 75% 증가한 470만 명이라고 발표했다. 개인 개발자용 '코파일럿 프로+' 구독은 직전 분기보다 77% 오른 것으로 집계됐다. 카일 데이글 깃허브 최고운영책임자(COO)도 서비스 성장세가 탄력을 받았다고 강조했다. 데이글 COO는 "이번 성과는 개인 개발자들이 일상적인 업무 흐름에 코파일럿을 적극 도입한 결과"라며 "기업도 깃허브 플랫폼을 전사적으로 채택하고 있다"고 링크드인을 통해 밝혔다. 깃허브는 지난해부터 '에이전트 HQ'를 통해 AI 통합 개발 생태계를 구축하고 있다. 개발자들은 깃허브 플랫폼에서 앤트로픽을 비롯한 오픈AI, 구글, xAI 등 글로벌 기업들의 에이전트에 자유롭게 접근·작업할 수 있다. 최근 출시된 '코파일럿 소프트웨어 개발 키트(SDK)'는 개발자가 코파일럿 에이전트 기능을 자신이 원하는 환경으로 확장하도록 돕는다. 라일리 COO는 "18년 전 협업 목표로 시작된 깃허브 비전이 코파일럿과 에이전트를 만나 더 넓은 영역으로 확장한 결과"라고 강조했다. 데이글 COO는 "앞으로 글로벌 커뮤니티와 지속적으로 협업할 것"이라며 "우리 팀과 커뮤니티가 함께 만들어갈 결과물이 매우 자랑스럽다"고 덧붙였다.

2026.01.29 10:03김미정 기자

로보티즈, 로봇 핸드·핑거 액추에이터 출시

로보티즈는 인간 수준의 자유도를 구현한 로봇 핸드(HX5-D20)와 이를 구동하는 초소형 핑거 액추에이터(XM335-T323-T)를 출시한다고 27일 밝혔다. 신제품은 출시 전부터 업계 관심을 모았다. 구글과 애플 등 글로벌 빅테크 기업들과 MIT 등 세계적 연구기관들이 해당 제품의 초도 물량을 이미 확보했다. 신형 로봇 핸드(HX5-D20)는 기존 섬세한 조작 능력과 피드백 기능을 갖췄다. 가장 큰 특징은 '전 관절 액티브 구동' 방식이다. 로보티즈는 모든 관절에 독자 개발한 초소형 핑거 액추에이터를 심었다. 기존 많은 로봇 핸드들이 무게와 제어의 복잡성을 피하기 위해 일부 관절을 와이어 방식으로 연결하는 링크·텐던 구동 방식을 썼던 것과 대비된다. 덕분에 사람과 동등한 수준의 자유도를 확보했다. 단순히 쥐는 동작을 넘어 피아노를 치거나 가위질을 하는 등 섬세한 모션을 구현할 수 있다. 손끝에는 고감도 촉각 센서를 내장하고 있다. 카메라 사각지대에 있는 물체라도 손끝에 닿는 감각만으로 위치를 파악하고 잡을 수 있다. 시각 데이터 처리에 드는 연산 비용을 줄이면서 작업 성공률을 획기적으로 높였다. 또한 로보티즈 '전류 제어 기반의 힘 제어' 기술을 통해 로봇이 물체를 잡을 때 형태나 강도를 몰라도 모터가 전류 변화를 감지해 스스로 힘을 조절한다. 비정형 물체도 모드 변경 없이 즉각적으로 안전하게 파지할 수 있다는 의미다. 김병수 로보티즈 대표는 "HX5-D20은 시각 정보 없이도 작업을 수행할 수 있다"며 "연산 부하를 줄이려는 글로벌 AI 로봇 기업들에게 효율적인 하드웨어 솔루션이 될 것"이라고 말했다.

2026.01.29 10:00신영빈 기자

"갤럭시S26 울트라, 사생활 보호 탁월"…어떻게 구현했나

삼성전자가 다음 달 공개할 것으로 예상되는 갤럭시S26 울트라의 티저 영상이 공개됐다. 폰아레나 등 외신은 28일(현지시간) 유명 IT 팁스터 아이스유니버스가 엑스(X)를 통해 갤럭시S26 울트라의 티저 영상을 공개했다고 보도했다. 티저 영상, '프라이버시 디스플레이' 기능 강조 공개된 영상은 갤럭시S26 울트라 화면의 콘텐츠가 특정 각도에서 사라지는 모습을 담고 있다. 화면을 비스듬히 바라볼 경우 내용을 확인할 수 없도록 해 주변 시선을 차단하는 '프라이버시 디스플레이' 기능이 강조해서 보여준다. 프라이버시 디스플레이는 스마트폰 화면을 엿보는 이른바 '숄더 서핑(shoulder surfing)'을 방지해, 기기 잠금 해제 방식이나 개인 정보가 외부에 노출되는 것을 막아준다. 엘리베이터나 버스 등 밀폐된 공간에서도 타인에게 화면이 노출되는 것을 효과적으로 차단할 수 있다는 점이 특징이다. 갤럭시S26 울트라 주요 사양은 주요 사양으로는 6.9인치 QHD+(1440×3120) OLED 디스플레이를 비롯해 스냅드래곤 8 엘리트 5세대 프로세서, 12GB 램, 256GB부터 최대 1TB까지의 저장 공간이 탑재될 것으로 예상된다. 후면 카메라는 삼성 아이소셀 HP2 센서를 적용한 2억 화소 메인 카메라를 중심으로, 삼성 JN3 센서의 5천만 화소 초광각 카메라, 3배 광학 줌을 지원하는 1천200만 화소 망원 카메라, 5배 광학 줌을 지원하는 5천만 화소 잠망경식 망원 카메라로 구성될 전망이다. 전면 카메라는 1천200만 화소가 적용될 것으로 보인다. 배터리 용량은 전작과 동일한 5천mAh를 유지할 가능성이 크다. 다만 유선 충전 속도는 기존 45W에서 60W로 향상될 수 있다는 관측이 나오고 있으나, 이에 대해서는 전망이 엇갈리고 있다. 가격은 전작과 마찬가지로 256GB 모델 기준 1천299달러에서 시작할 것으로 예상된다. 512GB 모델은 1천419달러, 1TB 모델은 1천659달러에 출시될 가능성이 제기되고 있다. 그 동안 전해진 정보에 따르면 갤럭시S26 울트라는 오는 2월 25일 열리는 삼성 언팩 행사에서 공개될 가능성이 높으며, 출시 시점은 3월 첫째 주 또는 둘째 주가 유력하다. 폰아레나는 갤럭시S26 울트라가 구글 픽셀10 프로 XL에 맞서 한층 강화된 인공지능(AI) 경쟁력을 갖춘 플래그십 스마트폰으로 자리매김할 수 있을지 주목된다고 전했다.

2026.01.29 09:59이정현 미디어연구소

"흩어진 AI 통합"…세일즈포스, '뮬소프트 에이전트 패브릭' 출시

세일즈포스가 기업 내부에 흩어진 인공지능(AI) 에이전트와 도구를 통합 관리할 수 있는 차세대 플랫폼을 공개했다. 세일즈포스는 AI 에이전트를 자동 탐색·식별하는 '뮬소프트 에이전트 패브릭'을 출시했다고 29일 밝혔다. 최근 기업이 AI 도입을 서두르고 있지만 중앙 통제 없이 무분별하게 에이전트가 생성되는 '에이전트 스프롤' 현상을 겪는 것으로 나타났다. 시장조사기관 IDC는 전 세계 인공지능 에이전트 수가 2029년까지 10억 개를 넘어설 것으로 내다봤다. 새 플랫폼은 세일즈포스 '에이전트포스'를 비롯해 AWS '아마존 베드록'과 구글클라우드 '버텍스 AI', 마이크로소프트 '코파일럿 스튜디오' 등 주요 플랫폼 에이전트를 자동으로 찾아낸다. 특히 에이전트 스캐너 기능을 통해 각 플랫폼에 배포된 에이전트 역할과 사용 모델, 접근 데이터 범위를 별도 수작업 없이 식별할 수 있다. 탐색된 정보는 '에이전트 레지스트리'를 통해 한 목록으로 정리돼 실시간 운영 현황을 유지한다. '에이전트 비주얼라이저'는 기업 전반 운영 현황을 직관적으로 보여주며 유사 기능 중복 운영 여부를 확인한다. 이를 통해 AI 투자 현황을 명확히 파악하도록 돕는다. 이 서비스는 플랫폼 간 상호 운용성을 위해 구글클라우드 표준 '에이전트-투-에이전트(A2A) 프로토콜' 사양으로 정보를 정규화해 매핑한다. 또 모델 컨텍스트 프로토콜(MCP) 서버를 손쉽게 등록할 수 있는 기능까지 제공해 기업 내 모든 AI 자산을 단일 체계에서 운영할 수 있도록 설계됐다. 박세진 세일즈포스코리아 대표는 "성공적인 AX을 위해서는 파편화된 자산을 얼마나 유기적으로 연결하고 제어할 수 있느냐가 관건"이라며 "뮬소프트 에이전트 패브릭은 멀티 클라우드 환경에 흩어진 에이전트들을 하나의 생태계로 통합하는 'AI 관제탑' 역할을 수행할 것"이라고 밝혔다.

2026.01.29 09:07김미정 기자

아마존, 사무직 9% 감축…AI 경쟁 속 1만6천명 추가 감원

아마존이 인공지능(AI) 경쟁 격화 속에서 직원 1만6천명을 추가로 감원한다. 지난해 10월 말 단행한 1만4천명 감원에 이은 조치로 최근 3개월 사이 두 번째 대규모 구조조정이다. 28일(현지시간) 아마존은 의사결정 속도를 높이기 위해 조직 내 불필요한 절차와 계층을 줄이기로 했다며 이같이 밝혔다. 베스 갈레티 아마존 인사 담당 수석부사장(SVP)은 “조직의 계층을 줄이고 책임을 강화하며 관료주의를 제거하는 방식으로 조직을 강화해왔다”고 말했다. 아마존은 지난해 10월 말에도 앤디 재시 최고경영자(CEO)의 지시에 따라 직원 1만4천명을 감원하겠다고 발표한 바 있다. 재시 CEO는 AI가 기술 산업 전반을 빠르게 재편하는 상황에서 대기업도 민첩성을 유지해야 한다는 입장을 강조해왔다. 아마존은 월마트에 이어 미국 내 두 번째로 큰 민간 고용주다. 미 평등고용기회위원회(EEOC)에 제출된 2024년 자료에 따르면 아마존의 사무직 직원 수는 35만 명을 웃돈다. 최근 두 차례 감원 규모를 합치면 전체 사무직 인력의 약 9%에 달한다. 다만 회사 측은 인력 감축이 상시적인 흐름으로 굳어지지는 않을 것이라고 선을 그었다. 갈레티 SVP는 “고객을 위한 책임, 속도, 혁신 역량을 평가하고 이에 따라 조정을 진행하고 있다”며 “회사의 미래에 핵심적인 분야에서는 전략적 채용을 이어갈 방침”이라고 덧붙였다. 아마존은 마이크로소프트, 구글, 메타, 오픈AI 등과 함께 대규모 언어 모델(LLM)과 컴퓨팅 인프라를 둘러싼 AI 주도권 경쟁을 벌이고 있다. 재시 CEO는 이번 감원이 비용 절감보다는 운영 효율성 제고를 위한 조치라고 강조했다. 감원은 이날부터 전사적으로 시행된다. 대부분 직원에게는 사내 다른 직무를 찾을 수 있도록 90일의 유예 기간이 주어진다. 재고용되지 않을 경우 퇴직금과 추가 복지가 제공된다. 아마존은 이와 별도로 아마존 프레시와 아마존 고 등 식료품 사업을 종료하고, 홀푸즈 브랜드 매장에 역량을 집중하겠다고 최근 밝힌 바 있다.

2026.01.29 09:01김민아 기자

사람 눈 움직임 닮아가는 AI...중국 딥시크 문서 인식 AI, 인식률 91% 돌파

중국 AI 기업 딥시크(DeepSeek)가 사람의 눈 움직임을 따라하는 새로운 문서 인식 기술을 공개했다. 해당 논문에 따르면, 기존 AI가 이미지를 로봇처럼 무조건 왼쪽 위에서 오른쪽 아래로 읽었다면, 새 기술은 사람이 나선 그림을 볼 때처럼 의미 있는 순서로 시선을 옮긴다고 밝혔다. 덕분에 복잡한 표나 수식이 섞인 문서도 정확하게 읽을 수 있게 됐다. 로봇식 읽기 버리고 사람처럼 '의미' 따라 읽는다 딥시크가 공개한 딥시크-OCR 2(DeepSeek-OCR 2)는 문서를 읽는 AI의 새로운 방식을 보여준다. 지금까지 이미지를 보는 AI들은 사진을 작은 조각으로 나눈 뒤, 무조건 왼쪽 위부터 시작해서 오른쪽 아래까지 순서대로 읽었다. 마치 책을 한 줄씩 읽듯이 말이다. 하지만, 이 방식은 문제가 있었다. 실제 문서는 2차원 평면인데, 이를 억지로 1차원 줄로 만들어 읽다 보니 표와 텍스트, 수식이 섞여 있을 때 내용의 연결 관계를 제대로 이해하지 못했다. 새로운 딥인코더 V2(DeepEncoder V2)는 이 문제를 해결했다. 사람의 눈이 작동하는 방식에서 힌트를 얻었다. 우리 눈은 중심부는 선명하게 보면서도 주변 전체를 동시에 인식한다. 그리고 나선 그림을 볼 때처럼, 눈동자가 의미 있는 순서로 움직인다. 각각의 시선은 이전에 본 것에 영향을 받는다. 이 기술의 핵심은 '인과적 흐름 쿼리'라는 개념이다. 쉽게 말해 "이전에 뭘 봤는지에 따라 다음엔 어디를 봐야 할지 결정한다"는 뜻이다. AI가 이미지의 정보 조각들을 공간상의 위치가 아니라 내용의 의미에 따라 다시 정리한다. 예를 들어 논문을 볼 때 제목 → 저자 → 본문 → 표 → 그림 순서로 읽는 것처럼, AI도 이제 문서의 논리적 구조를 파악해서 읽는 순서를 스스로 정한다. 기존 방식 버리고 언어 모델 구조 활용... 적은 계산으로 효율 높여 딥인코더 V2의 또 다른 특징은 이미지를 분석하는 방식을 완전히 바꿨다는 점이다. 기존에는 CLIP이라는 이미지 분석 도구를 사용했는데, 이번에는 글을 이해하는 언어 모델 구조를 이미지 분석에 적용했다. 구체적으로는 Qwen2-0.5B라는 5억 개 규모의 학습 값을 가진 모델을 사용했다. 이는 기존 CLIP의 3억 개와 비슷한 수준이라 컴퓨터 계산량을 크게 늘리지 않으면서도 효율적으로 작동한다. 이 구조는 실제로 2단계로 나뉜다. 1단계에서 이미지 분석 엔진이 이미지 정보 조각들을 의미 있는 순서로 다시 배열한다. 2단계에서 언어 모델이 이렇게 정리된 순서대로 내용을 이해한다. 기존 방식이 위치만 보고 순서를 정했다면, 새 방식은 내용의 의미를 파악해서 순서를 정하기 때문에 언어 모델이 훨씬 이해하기 쉽다. 이미지 한 장당 처리하는 정보 조각은 256개에서 1,120개 사이다. 최소 256개는 1024×1024 크기 이미지 하나를 처리할 때 나오고, 최대 1,120개는 구글의 제미나이-3 프로 AI가 사용하는 최대치와 같다. 큰 이미지는 1024×1024 크기로, 작은 부분은 768×768 크기로 나눠서 보는 방식을 사용했다. 문서 인식 정확도 91%... 읽는 순서 찾기도 크게 개선 딥시크-OCR 2는 옴니닥벤치(OmniDocBench) v1.5라는 평가 시험에서 뛰어난 성적을 거뒀다. 이 시험은 잡지, 학술 논문, 연구 보고서 등 9가지 종류의 문서 1,355장으로 구성되어 있고, 중국어와 영어 문서를 모두 포함한다. 결과는 전체 정확도 91.09%였다. 이전 버전인 딥시크-OCR의 87.36%보다 3.73% 올랐다. 더 놀라운 건 더 적은 정보량으로 이 성적을 냈다는 점이다. 이전 버전은 이미지 하나당 최대 1,156개의 정보 조각을 사용했지만, 새 버전은 1,120개만 사용했다. 특히 '읽는 순서를 얼마나 정확하게 찾아내는가'를 측정하는 지표에서 큰 개선이 있었다. 오류 정도가 0.085에서 0.057로 줄었다. 숫자가 작을수록 정확하다는 뜻이다. 이는 새 AI가 이미지를 보고 어떤 순서로 읽어야 할지 스스로 잘 판단한다는 의미다. 텍스트 인식 오류는 0.073에서 0.048로, 수식 인식은 0.236에서 0.198로, 표 인식은 0.123에서 0.096으로 모두 좋아졌다. 구글의 제미나이-3 프로와 비교해도 딥시크-OCR 2가 더 나았다. 비슷한 정보량(1,120개)을 사용했을 때 문서 해석 오류가 0.100으로, 제미나이-3 프로의 0.115보다 낮았다. 적은 계산으로도 더 정확하다는 얘기다. 실제 서비스에서도 같은 내용 반복 오류 대폭 줄어 딥시크-OCR 2는 시험 환경뿐 아니라 실제 서비스에서도 개선된 성능을 보였다. 딥시크-OCR은 두 가지 용도로 쓰인다. 하나는 사용자가 올린 이미지를 실시간으로 읽는 온라인 서비스고, 다른 하나는 대량의 PDF 파일을 처리하는 데이터 준비 작업이다. 실제 서비스에서는 정답을 알 수 없기 때문에 '같은 내용을 얼마나 반복하는가'를 주요 품질 지표로 본다. AI가 혼란스러워하면 같은 문장을 여러 번 반복하는 경향이 있기 때문이다. 온라인 사용자 이미지의 경우 반복 오류가 6.25%에서 4.17%로 2.08% 줄었다. PDF 처리에서는 3.69%에서 2.88%로 0.81% 감소했다. 연구팀은 9가지 문서 유형별로 자세히 비교했다. 딥시크-OCR 2는 대부분 이전 버전보다 나았지만, 신문에서는 여전히 0.13 이상의 오류를 보였다. 연구팀은 두 가지 이유를 추정했다. 첫째, 정보 조각 개수에 제한을 뒀는데 텍스트가 아주 많은 신문에는 부족할 수 있다. 둘째, 학습 데이터에 신문이 25만 장밖에 없어서 충분히 배우지 못했을 수 있다. 하지만 읽는 순서를 찾아내는 능력은 모든 문서 종류에서 일관되게 이전 버전을 앞섰다. 진짜 2차원 이해하는 AI와 모든 정보 처리 가능한 AI로 발전 딥시크-OCR 2는 새로운 AI 구조의 가능성을 보여준다. 이미지 분석 엔진과 언어 모델을 연결한 이 방식은 진짜 2차원 이해로 가는 길을 제시한다. 이미지 분석 엔진이 시각 정보를 의미 있는 순서로 다시 정리하고, 언어 모델이 그 순서대로 이해한다. 2차원 이미지 이해를 서로 보완하는 두 개의 1차원 순서 처리 작업으로 나눈 것이다. 물론 완벽한 2차원 이해까지는 갈 길이 멀다. 예를 들어 한 곳을 여러 번 다시 보거나 복잡한 경로로 시선을 옮기려면 지금보다 훨씬 더 많은 정보 조각이 필요할 것이다. 더 중요한 건 이 기술이 모든 종류의 정보를 처리하는 통합 AI로 발전할 가능성이다. 하나의 이미지 분석 엔진이 글, 소리, 이미지를 모두 처리할 수 있다는 뜻이다. 핵심 구조는 같고, 각 정보 종류마다 다른 질문 방식만 학습하면 된다. 이 엔진은 같은 기본 구조 안에서 글을 압축하고, 소리 특징을 뽑아내고, 이미지 내용을 재구성할 수 있다. 연구팀은 딥시크-OCR이 이 방향으로 가는 첫 시도였고, 딥시크-OCR 2는 한 걸음 더 나아간 것이라고 밝혔다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 딥시크-OCR 2가 기존 문서 인식 AI와 뭐가 다른가요? A. 기존 문서 인식 AI는 이미지를 무조건 왼쪽 위에서 오른쪽 아래로 한 줄씩 읽었습니다. 하지만 이번 논문에서 사용한 딥시크의 문서 인식 AI인 딥시크-OCR 2는 사람처럼 의미를 파악하며 읽습니다. 제목 보고, 본문 읽고, 표 확인하는 식으로 내용에 맞춰 순서를 정하기 때문에 복잡한 문서도 정확하게 이해합니다. Q2. 이 기술은 어디에 쓸 수 있나요? A. 종이 문서를 스캔해서 컴퓨터로 옮기거나, 논문을 자동으로 분석하거나, 업무 자동화에 쓸 수 있습니다. 특히 수식이나 표가 많이 들어간 연구 보고서, 잡지, 교과서를 정확한 디지털 텍스트로 바꿀 수 있습니다. Q3. 다른 AI보다 얼마나 더 좋은가요? A. 문서 인식 시험에서 91.09%의 정확도를 기록했습니다. 이전 버전보다 3.73% 올랐고, 계산량은 더 적습니다. 구글 제미나이-3 프로 같은 대형 AI와 비슷하거나 더 나은 성능을 보였고, 특히 문서를 읽는 순서를 찾아내는 능력이 크게 좋아졌습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.01.28 23:18AI 에디터

  Prev 21 22 23 24 25 26 27 28 29 30 Next  

지금 뜨는 기사

이시각 헤드라인

[ZD브리핑] 삼성전자 잠정실적 발표...기아 CEO 인베스터 데이 개최

7년전 개발된 '완벽진공' 시스템…"외산장악 반도체 공정 효자될까"

넥슨 '바람의나라', 30년 장기 흥행 비결은?

쇠고기 넘어 GPU·클라우드까지…美, 韓 첨단 디지털 산업 '통상 전선' 확대

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.