• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'AI 에디터'통합검색 결과 입니다. (742건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

미드저니 V8 알파 공개…이미지 생성 속도 5배 빨라지고 텍스트 렌더링도 대폭 개선

AI 이미지 생성 플랫폼 미드저니(Midjourney)가 차세대 모델 V8의 알파 버전을 커뮤니티에 공개했다. 미드저니 공식 업데이트 채널에 따르면, 3월 18일 알파 사이트(alpha.midjourney.com)를 통해 V8 모델 조기 테스트 버전을 사용자들에게 개방하고 피드백 수집에 나섰다. 미드저니 측은 "V8은 세밀한 지시를 훨씬 잘 따르면서도 예상치 못한 결과로 사용자를 놀라게 한다"고 밝혔다. 개인화 기능과 스타일 레퍼런스(sref), 무드보드를 통해 사용자의 미적 감각을 이해하는 능력이 크게 향상됐으며, 이미지의 일관성과 디테일도 이전 버전 대비 눈에 띄게 개선됐다. 특히 텍스트 렌더링 기능이 대폭 강화되어, 프롬프트에서 따옴표로 지정하면 그 어느 때보다 정확하게 텍스트를 이미지에 구현한다. 이미지 생성 속도는 기존 대비 약 5배 빨라졌으며, 이에 맞춰 웹 인터페이스도 함께 업그레이드됐다. V8은 다양한 화면 비율과 함께 카오스(--chaos), 위어드(--weird), 실험(--exp), 로우(--raw) 등 주요 파라미터를 지원한다. 기존 V7의 개인화 프로필, 무드보드, 스타일 레퍼런스와의 하위 호환성도 유지된다. 새롭게 추가된 HD 모드(--hd)는 2K 해상도 네이티브 렌더링을 지원하며, 추가적인 이미지 일관성이 필요할 경우 고품질 모드(--q 4)를 활용할 수 있다. 웹 인터페이스도 함께 개편됐다. 대화 흐름에 따라 자연스럽게 소통할 수 있는 개선된 대화 모드, 하나의 큰 이미지 세트에 집중할 수 있는 그리드 모드(Grid Mode)가 추가됐다. 또한 설정 메뉴가 사이드바로 이동해 작업 화면을 가리지 않고 옵션을 조정할 수 있게 됐다. 다만 현재 알파 버전에서는 릴렉스(Relax) 모드가 지원되지 않는다. 미드저니 측은 릴렉스 모드와 저렴한 렌더링 옵션을 위한 새로운 서버 클러스터를 준비 중이라고 밝혔다. HD 모드, 고품질 모드, 스타일 레퍼런스, 무드보드 작업은 일반 작업 대비 속도가 4배 느리고 비용도 4배 부과된다. 미드저니는 V8 개선에 있어 사용자 피드백을 가장 중요한 요소로 꼽았다. 라이트박스에서 이미지를 클릭한 뒤 좋아요·싫어요 버튼을 통해 평가하는 방식으로 모델 개선에 참여할 수 있으며, 단축키 1·2·3과 방향키를 활용하면 빠르게 평가할 수 있다고 안내했다. 미드저니 측은 "V8은 완전히 새로운 모델로, 기존과 다른 프롬프팅 방식이 필요할 수 있다"며 "개인화 기능을 적극 활용하고 보다 길고 구체적인 프롬프트를 사용할 때 V8의 진가를 발휘할 수 있을 것"이라고 조언했다. 자세한 내용은 미드저니 공식 업데이트 페이지에서 확인할 수 있다. 이미지 출처: 미드저니 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.19 21:19AI 에디터

웨어러블 데이터가 심부전 치료 바꾼다…AI가 7500만 건 분석해 입원율 뚝

소비자용 웨어러블 기기에서 수집한 데이터를 AI로 분석해 심부전 환자의 입원율을 대폭 낮출 수 있다는 초기 임상 연구 결과가 나왔다. 카디오배스큘러 비즈니스(Cardiovascular Business)에 따르면, 보스턴에서 열린 THT 2026 학회에서 중재 심장 전문의이자 캘리포니아 대학교 어바인 의과대학 임상 조교수인 아프난 타리크(Afnan Tariq) 박사가 소비자용 웨어러블 기기 데이터를 임상적으로 유용한 정보로 전환하는 수동형 기기 독립형 AI 플랫폼의 최초 인체 적용 결과를 발표했다. 타리크 박사는 "일상 업무로 바쁜 사람들에게 기술을 보급하는 것은 중요한 과제"라며 "소비자들 손에는 기술이 넘쳐나는데, 심장 전문의인 우리 의사들은 그 수요를 따라잡는 데 어려움을 겪었다"고 개발 배경을 설명했다. 스마트워치나 피트니스 트래커 같은 소비자 기기는 심박수, 활동량, 산소 포화도 등 지속적인 생리 데이터를 수집할 수 있다. 그러나 이 데이터를 임상 현장에 통합해 실질적인 정보로 활용하는 것은 여전히 큰 과제였다. 타리크 박사는 환자와 의료진 모두 이 정보를 효과적으로 해석할 도구가 부족하다고 지적했다. "환자들은 집에 있으면서 데이터를 어떻게 활용해야 할지 모르고, 의사들 역시 마찬가지"라고 그는 말했다. 그의 팀이 개발한 플랫폼은 여러 기기의 데이터를 통합·분석한 뒤, 일상 진료에 활용할 수 있는 형식으로 결과를 제공한다. 타리크 박사는 "FDA 승인을 받은 기기를 활용해 환자들이 진료 방문 사이에 실제로 어떤 상태인지 파악할 수 있도록 돕는다"고 설명했다. 초기 연구는 71명의 심부전 환자를 대상으로 한 단일 기관 실제 임상 관찰 연구로, 108 환자년 이상의 데이터를 확보했다. 참가자들은 애플(Apple), 핏비트(Fitbit), 삼성(Samsung) 등 자신이 이미 보유하고 사용하던 기기를 그대로 활용했으며, 별도의 기기는 제공되지 않았다. 플랫폼은 약 7,500만 건의 생리적 측정값을 수집했고, 신호 가용성 중앙값은 98%에 달해 실제 사용 환경에서의 높은 활용성을 입증했다. 타리크 박사는 "고빈도 데이터를 확보하면 상황을 더 빨리 파악할 수 있다"며 "AI를 활용해 데이터를 이해하고, 확신을 가지고 행동할 수 있는 근거를 구축하면 무슨 일이 일어나고 있는지 명확히 알 수 있다"고 말했다. 후향적 분석 결과, 모든 원인으로 인한 입원율은 환자당 연간 0.11건으로 나타났다. 이는 기존 메디케어(Medicare) 심부전 입원율인 환자당 연간 0.87~2건보다 현저히 낮은 수치다. 타리크 박사는 "수치가 모든 것을 말해준다"며 "의료진이 통찰력을 갖고 더 일찍 조치를 취할 수 있게 되면 지속적인 효과를 거둘 수 있다"고 강조했다. 기존 원격 모니터링 시스템은 단일 이식형 또는 착용형 장치에 의존하는 반면, 이 AI 플랫폼은 스마트폰, 스마트워치, 이식형 장치 등 여러 소스의 데이터를 통합해 활용한다. 타리크 박사는 "단일 측정 기기는 어느 정도 신호를 제공하지만 활용도는 제한적"이라며 "임상적으로 활용 가능한 모든 데이터를 수집하고, AI를 활용해 의료진이 적절한 조치를 취하도록 지원하는 소프트웨어를 개발하는 것이 정말 흥미로운 부분"이라고 말했다. 플랫폼이 기존 진료 방식보다 임상적 악화를 더 빨리 감지한 사례도 발표됐다. 한 88세 환자의 경우, 웨어러블 기기 데이터를 통해 증상 악화와 생리적 변화가 감지됐다. 타리크 박사는 "단 4분 만에 44만 건의 과거 데이터를 확인했다"며 "AI 없이도 데이터를 볼 수는 있지만, 기술을 활용해 해석하는 것이 핵심"이라고 설명했다. 해당 환자는 심부전으로 인한 폐고혈압으로 확인됐고, 적시에 치료를 조정해 추가 입원을 막을 수 있었다. 이 기술은 심부전 예방 및 가치 기반 진료 전략에도 시사하는 바가 크다. 타리크 박사는 심부전으로 인한 환자 1인당 연간 비용이 약 3만 5,000달러에 달하며, 이 중 약 75%가 입원과 관련된다고 밝혔다. 심부전은 매년 미국 의료 시스템에 약 1,795억 달러의 비용을 발생시키는 메디케어 최대 지출 원인 중 하나다. 그는 "AI는 위험도가 높아지는 환자들을 이해하기 쉽고 검증 가능한 방식으로 보여주기 때문에, 그에 따라 조치를 취할 수 있다"고 말했다. 타리크 박사는 AI가 2027년 1월 1일부터 시행 예정인 외래 전문 진료 모델(ASM) 지불 모델에서도 중요한 역할을 할 것으로 전망했다. 이 프로그램은 심부전과 요통을 초기 대상으로 고비용 만성 질환의 예방 및 조기 관리 개선을 목표로 하며, 불필요한 입원과 시술을 줄이기 위한 지불 모델이다. ASM 참여는 외래 환자 진료 환경에서 메디케어 환자를 치료하는 특정 전문의에게 의무화된다. 자세한 내용은 Cardiovascular Business에서 확인할 수 있다. 이미지 출처: 이디오그램 생 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.19 15:57AI 에디터

"챗GPT야, 강아지 좀 살려줘"… AI로 세계 최초 반려견 암 백신 만든 남자

의학 지식이 전혀 없는 호주 IT 기업가가 챗GPT를 활용해 세계 최초로 반려견 맞춤형 암 백신을 개발하는 데 성공했다. 포춘에 따르면, 시드니 출신 테크 창업가 폴 코닝햄이 말기 암 진단을 받은 반려견 로지를 위해 AI 도구를 동원한 끝에 맞춤형 mRNA 암 백신을 제조했으며, 대부분의 종양이 현저히 줄어드는 성과를 거뒀다. 2024년 코닝햄의 반려견 로지는 비만세포암 진단을 받았다. 수술과 항암치료를 반복했지만 종양은 사라지지 않았고, 로지의 상태는 점점 나빠졌다. 사면초가에 몰린 코닝햄은 의학 교과서 대신 챗GPT를 열었다. 코닝햄은 의학 배경은 없지만 전기·컴퓨팅 공학자 출신으로 IT 컨설팅 기업의 공동 창업자이며, 호주 데이터사이언스·인공지능 협회 이사직도 역임한 인물이다. 그는 챗GPT를 통해 면역치료라는 방향을 잡고, 뉴사우스웨일스대학교 유전체학 센터에 접촉했다. 3,000달러를 지불하고 로지의 건강한 DNA와 종양 DNA를 동시에 유전자 시퀀싱하는 데 성공했다. 이후 구글 딥마인드의 인공지능 단백질 구조 예측 도구인 알파폴드를 활용해 암을 일으키는 돌연변이 단백질을 찾아내고 치료 타깃을 특정했다. 유망한 면역치료제를 찾아냈지만 제약사가 제공을 거부하는 난관도 겪었다. 그때 나노의학 전문가이자 뉴사우스웨일스대학교 RNA 연구소 소장인 팔 소르다르손 교수가 나섰다. 코닝햄이 설계한 데이터를 받아 두 달도 채 안 돼 맞춤형 mRNA 백신을 완성한 것이다. 소르다르손 교수는 호주 일간지 더 오스트레일리안을 통해 "반려견을 위한 맞춤형 암 백신이 설계된 것은 이번이 처음"이라며 "이것은 암 면역치료의 최전선에 있는 기술이고, 궁극적으로는 인간 치료에도 활용될 것"이라고 밝혔다. 이어 "로지가 우리에게 가르쳐 주는 것은, mRNA 기술을 활용하면 맞춤형 의학이 매우 효과적으로, 그리고 빠르게 실현될 수 있다는 사실"이라고 덧붙였다. 로지는 2025년 12월 첫 주사를 맞고 이후 부스터 접종을 받았다. 결과는 놀라웠다. 대부분의 종양이 극적으로 줄어들었다. 코닝햄은 "12월에는 종양이 너무 커서 로지가 기운이 없었는데, 치료 6주 후 도그파크에서 토끼를 발견하고 담장을 훌쩍 뛰어넘었다"고 말했다. 다만 그는 "완치라는 환상은 갖고 있지 않다. 하지만 이 치료가 로지에게 훨씬 더 많은 시간과 삶의 질을 가져다줬다고 믿는다"고 했다. 소르다르손 교수는 소셜미디어를 통해 로지의 사례가 암 백신 설계 과정을 '민주화'할 수 있음을 보여준다고 강조했다. 일부 종양은 아직 반응하지 않았으며 완치는 아니라는 점도 함께 언급했다. 로지의 여정은 IT 업계에도 파장을 일으켰다. 한 AI 스타트업 최고경영자는 소셜미디어에 "이것이 바로 세상이 곧 매우 이상하게 변할 거라는 말의 의미"라며 "이런 이야기들이 앞으로 점점 더 많이, 더 믿기 어려운 형태로 나올 것"이라고 썼다. 자세한 내용은 포춘(Fortune)에서 확인할 수 있다. 이미지 출처: 이디오그램 생성 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.18 22:09AI 에디터

뉴스 기사 260만 건을 데이터로…구글, 제미나이로 홍수 예측 정확도 높인다

구글(Google)이 전 세계 뉴스 기사를 AI로 분석해 대규모 재난 데이터셋을 구축하는 새로운 방법론을 공개했다. 이를 통해 만들어진 홍수 데이터는 도시 지역의 홍수 예측 정확도를 높이는 데 활용된다. 구글 리서치(Google Research)는 지난 12일 공식 블로그를 통해 비정형 글로벌 뉴스를 활용 가능한 역사적 데이터로 변환하는 확장 가능한 방법론, '그라운드소스(Groundsource)'를 소개했다. 구글에 따르면 첫 번째 공개 데이터셋은 도시 돌발 홍수를 주제로 150개국 이상에서 수집된 260만 건의 기록으로 구성됐으며, 누구나 접근할 수 있도록 공개됐다. 구글 리서치에 따르면 지진과 같은 일부 자연재해는 통합된 글로벌 센서 네트워크를 통해 추적되지만, 홍수와 같은 기상 수문학적 재해는 표준화된 관측 인프라가 없다. 기존 위성 기반 데이터베이스는 구름 간섭이나 위성 재방문 주기 같은 물리적 한계로 인해 크고 장기간 지속되는 재해만 포착하는 경향이 있다. 유엔(UN)과 유럽위원회(European Commission)가 공동 운영하는 글로벌 재해 경보 및 조정 시스템(GDACS)의 경우 약 1만 건의 데이터를 보유하고 있지만, 이는 주로 대규모 충격을 준 사건 위주다. 글로벌 AI 모델 훈련과 검증에 필요한 데이터 양과 비교하면 턱없이 부족한 수준이라고 구글은 설명했다. 그라운드소스는 이 문제를 해결하기 위해 전 세계 뉴스 기사를 분석해 홍수 세부 정보를 추출하고, 이를 구조화된 현지화 이벤트 아카이브로 변환한다. 데이터 수집 범위는 2000년부터 현재까지이며, 150개국 이상을 포괄한다. 구글 리서치에 따르면 추출 과정의 핵심 단계에는 제미나이(Gemini) 대규모 언어 모델(LLM)이 사용된다. 제미나이는 실제 발생했거나 진행 중인 홍수 보도와 미래 경보, 정책 회의, 일반적 위험 모델링을 다루는 기사를 구분하는 분류 작업을 수행한다. 또한 기사 발행일을 기준으로 '지난 화요일' 같은 상대적 시간 표현을 실제 날짜로 변환하는 시간 추론도 담당한다. 위치 정보의 경우 동네나 거리 수준의 세부 위치를 파악하고, 구글 맵스 플랫폼(Google Maps Platform)을 활용해 표준화된 공간 폴리곤(Polygon)에 매핑한다. 처리 과정에서 뉴스 기사는 구글 리드 어라우드(Google Read Aloud) 크롤러를 통해 80개 언어에서 주요 텍스트를 추출하고, 클라우드 번역 API(Cloud Translation API)를 거쳐 영어로 표준화된다. 기술적 정확도 검증 결과도 공개됐다. 구글 리서치에 따르면 수동 검토 결과 추출된 이벤트의 60%는 위치와 시간 정보 모두 정확했고, 82%는 실제 분석에 활용 가능한 수준의 정확도를 보였다. 또한 그라운드소스는 2020년부터 2026년 사이 GDACS에 기록된 심각한 홍수 이벤트의 85~100%를 포착했다. 구글은 이 데이터를 활용해 이벤트 발생 최대 24시간 전에 도시 돌발 홍수를 예측할 수 있는 능력을 갖추게 됐다고 밝혔다. 현재 이 예측 기능은 구글의 플러드 허브(Flood Hub)를 통해 순차적으로 배포되고 있다. 구글 리서치는 이 방법론이 홍수에만 국한되지 않는다고 강조했다. 가뭄, 산사태, 눈사태처럼 정확한 역사적 기록이 부족한 다른 자연재해에도 동일한 접근 방식을 적용할 수 있다는 설명이다. 구글은 현재 농촌 지역으로 커버리지를 확대하고 새로운 데이터 소스를 통합하는 작업을 진행 중이라고 밝혔다. 자세한 내용은 구글 리서치(Google Research) 공식 블로그에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.17 15:24AI 에디터

"TSMC 70% 수준 생산한다"…테슬라 테라팹, AI 반도체 판을 바꿀까

일론 머스크(Elon Musk)가 테슬라(Tesla)의 자체 반도체 생산 프로젝트 '테라팹(Terafab)'이 오는 3월 21일 출범한다고 직접 공언했다. 핀테크위클리(FinTech Weekly)에 따르면, 머스크는 지난 3월 14일 엑스(X)에 "테라팹 프로젝트가 7일 후 시작된다"고 게시하며 일정을 공식화했다. 테라팹은 테슬라가 지난 1월 28일 실적 발표에서 처음 공식 확인한 프로젝트다. 머스크는 당시 투자자들에게 3~4년 내 공급 부족이 현실화될 것으로 예상되며, 이를 막으려면 자체 반도체 생산 시설이 반드시 필요하다고 밝혔다. 이 시설은 로직 처리, 메모리 저장, 첨단 패키징을 한 지붕 아래 통합하는 수직 계열화 구조로, 대만과 한국 외 민간 기업 중 이 규모로 운영하는 곳은 현재 없다. 프로젝트 추정 비용은 약 250억 달러(약 36조 원)로, 테슬라의 2026년 사상 최대 설비투자 계획 중 일부를 이룬다. 다만 최고재무책임자(CFO) 바이브하브 타네자(Vaibhav Taneja)는 실적 발표에서 테라팹 전체 비용이 해당 수치에 아직 완전히 반영되지 않았다고 밝혔다. 생산 목표는 구체적이다. 연간 1,000억~2,000억 개의 맞춤형 AI 및 메모리 반도체 생산을 목표로 하며, 초기 월 웨이퍼(wafer) 생산량 10만 장에서 출발해 100만 장까지 확대하겠다는 포부를 밝혔다. 이는 미국 단일 시설 기준으로 현재 TSMC 전체 생산량의 약 70%에 해당하는 규모다. 공정 기술은 현재 양산 중인 가장 앞선 노드인 2나노미터(nm)를 목표로 한다. 테라팹의 수혜자는 테슬라만이 아니다. 이 시설은 완전 자율주행(FSD) 소프트웨어, 사이버캡(Cybercab) 로보택시, 옵티머스(Optimus) 휴머노이드 로봇에 들어갈 AI 반도체를 공급한다. 머스크의 옵티머스 생산 계획이 요구하는 반도체 물량은 기존 외부 공급사인 TSMC나 삼성(Samsung)이 테슬라의 일정에 맞춰 공급을 약속하기 어려운 수준이다. 머스크의 또 다른 회사 엑스에이아이(xAI)도 이 그림 안에 있다. 머스크는 테라팹의 범위가 자율주행 모델 훈련용 슈퍼컴퓨터 도조(Dojo)와 xAI의 그록(Grok) 모델 훈련 인프라용 반도체까지 포괄한다고 밝혔다. xAI가 현재 운영하는 멤피스(Memphis) 슈퍼클러스터는 이미 세계 최대 규모의 GPU 클러스터 중 하나다. 테라팹은 그 다음 세대 인프라를 외부 공급망에서 완전히 독립시키는 토대가 된다. 핀테크위클리에 따르면, 테라팹이 성공할 경우 테슬라는 자체적으로 최첨단 AI 반도체를 대량 생산할 수 있는 극소수 주체 중 하나가 된다. 이는 자율주행차와 로보틱스 사업의 비용 구조를 근본적으로 바꾸고, xAI의 외부 연산 자원 의존도를 완전히 제거하는 결과로 이어질 수 있다. 자세한 내용은 핀테크위클리(FinTech Weekly)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.16 22:13AI 에디터

앤트로픽이 1억 달러 쏟아붓는 이유…클로드를 기업 AI 표준으로 만든다

앤트로픽이 클로드 파트너 네트워크를 공식 출범하며 2026년 한 해 동안 1억 달러(약 1,400억 원)를 투자하겠다고 밝혔다. 생성형 AI 시장이 초기 과열 국면을 지나 실질적인 성과 중심으로 재편되는 가운데, 앤트로픽은 클로드를 글로벌 기업 운영의 핵심 인프라로 자리매김하겠다는 전략을 명확히 했다. 크리에이티(Creati.ai)에 따르면, 이번 파트너 네트워크 출범은 단순한 자금 투입이 아닌 구조적 전환을 의미한다. 앤트로픽은 액센추어(Accenture), 딜로이트(Deloitte), 코그니전트(Cognizant), 인포시스(Infosys) 등 글로벌 대형 컨설팅·IT 기업들과 심층 협력 체계를 구축함으로써, 클로드가 직면해온 기업 도입의 '마지막 단계' 문제를 정면 돌파하겠다는 의도다. 포춘 500대 기업들에게 AI 도입의 장벽은 더 이상 모델 접근성이 아니다. 보안, 규정 준수, 복잡한 레거시 환경과의 통합이 핵심 과제로 떠올랐다. 클로드 파트너 네트워크는 이 간극을 메우기 위해 설계됐다. 파트너사들에게 클로드 배포에 필요한 교육, 기술 지원, 업계 공인 인증을 제공함으로써, 앤트로픽은 제품의 신뢰 구축 역할을 파트너사에 위임하는 전략을 택했다. 앤트로픽은 모델 연구와 인프라에 집중하고, 파트너사들이 각 산업에 특화된 AI 솔루션 구축이라는 복잡한 과제를 전담하는 구조다. 각 파트너사의 역할은 뚜렷이 구분된다. 액센추어는 대규모 AI 실행과 인력 전환을, 딜로이트는 규제 산업에서의 보안 우선 AI 구현을 맡는다. 코그니전트는 글로벌 인력 역량 강화와 표준 고객 업무에 클로드를 내재화하고, 인포시스는 에이전틱 AI와 인프라 최적화를 통해 복잡한 기업 자동화 영역에서 클로드와 클로드 코드(Claude Code)를 확장하는 역할을 담당한다. 앤트로픽은 파트너 전담 팀을 기존 대비 5배 규모로 확대하고, 응용 AI 엔지니어, 기술 아키텍트, 현지화 시장 전문가로 구성된 인력을 새롭게 배치할 계획이다. 기존의 셀프서비스 API 방식에서 벗어나, 고밀도 컨설팅 기반의 영업 및 구현 모델로 전환하겠다는 의지다. 이번 전략의 핵심 경쟁력은 두 가지다. 딜로이트나 액센추어 같은 대형 기업이 구현을 주도하면, 해당 기업의 보안·규정 준수 신뢰도가 함께 이전돼 보수적인 기업 고객의 리스크 인식을 낮추는 효과가 생긴다. 또한 혼잡한 소프트웨어 시장에서 경쟁하는 대신, 세계 최대 기업들의 IT 구조를 이미 좌우하는 대형 서비스 계약 안에 클로드를 직접 내재화해 확장성을 확보한다. 클로드의 경쟁력은 헌법적 AI(Constitutional AI)와 모델 신뢰성을 중심으로 구축돼 있다. 기업 시장에서 이 가치는 마케팅 문구가 아니라 필수 조건이다. 멀티 에이전트 시스템과 자동화 코딩으로의 전환이 가속화되는 상황에서 오류 허용 범위는 극도로 좁아질 수밖에 없다. 앤트로픽이 인증과 전문 기술 교육을 강조하는 파트너 네트워크를 구축하는 것도 이 맥락에서다. 크리에이티에 따르면, 이번 1억 달러 투자의 성공 여부는 파트너 계약 건수가 아니라 컨설팅 기업 고객들에게 실제로 돌아가는 투자 수익률로 판가름 날 전망이다. 더 많은 기업이 클로드를 도입할수록 모델 개선을 위한 피드백이 강화되고, 성능 향상으로 이어지는 선순환 구조가 형성된다. 자세한 내용은 Creati.ai에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.16 17:09AI 에디터

벤 애플렉의 AI 영화 후반 작업 스타트업, 넷플릭스가 6억 달러에 샀다

넷플릭스(Netflix)가 배우 겸 영화감독 벤 애플렉(Ben Affleck)이 공동 창업한 AI 스타트업을 최대 6억 달러(약 8,700억 원)에 인수한 것으로 알려졌다. 테크크런치(TechCrunch)에 따르면, 넷플릭스는 지난 3월 5일 AI 영화 제작 기술 스타트업 인터포지티브(InterPositive) 인수를 공식 발표했다. 블룸버그(Bloomberg)는 이번 거래 규모가 최대 6억 달러에 달할 수 있다고 보도했다. 이는 넷플릭스 역대 최대 인수 금액인 로알드 달 스토리 컴퍼니(Roald Dahl Story Company) 인수가(약 7억 달러)에 버금가는 수준이다. 넷플릭스는 거래 세부 내용을 공개적으로 확인하지 않았다. 블룸버그 소식통에 따르면 실제 현금 지급액은 이보다 낮을 수 있으며, 인터포지티브 소유주들은 특정 성과 목표 달성 시 추가 보상을 받을 수 있는 구조로 계약이 체결됐다. 인터포지티브는 영화 후반 작업(post-production)에서 제작자들이 보다 효율적으로 작업할 수 있도록 돕는 AI 툴을 만드는 회사다. 연속성 오류를 바로잡거나 특정 장면을 보정하는 방식으로 작동하며, 새로운 콘텐츠를 생성하거나 허가 없이 영상을 활용하지는 않는다. 이번 인수는 넷플릭스가 콘텐츠 제작에 AI를 통합하려는 전략의 일환으로 풀이된다. 넷플릭스는 이미 자체 오리지널 시리즈와 영화에 생성형 AI(Generative AI)를 활용하고 있으며, 아르헨티나 시리즈 '이터노트(The Eternaut)'에서 건물 붕괴 장면을 생성형 AI로 제작한 바 있다. 경쟁사들도 같은 방향으로 움직이고 있다. 아마존(Amazon)은 영화·TV 프로젝트를 위한 사내 AI 팀을 구축 중이며, 디즈니(Disney)는 오픈AI(OpenAI)와 파트너십을 체결했다. 다만 업계 내 우려의 목소리도 크다. 영화 산업 종사자들은 AI 도입으로 인한 일자리 감소와, AI 기업들이 학습 데이터로 활용한 창작자들에게 정당한 보상이 이뤄지지 않는다는 점을 문제로 제기하고 있다. 자세한 내용은 테크크런치(TechCrunch)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.13 09:41AI 에디터

"AI 때문에 자를 수밖에 없었다"…아틀라시안, 직원 1600명 해고

호주 출신 기업용 소프트웨어 기업 아틀라시안(Atlassian)이 전체 인력의 약 10%에 해당하는 1,600명을 감원한다고 3월 11일 발표했다. AI 전환에 대응하기 위한 구조조정이라는 게 회사 측 설명이다. 아틀라시안(Atlassian)은 지라(Jira), 컨플루언스(Confluence) 등 소프트웨어 개발 및 프로젝트 관리에 특화된 협업 도구를 제공하는 SaaS 기업이다. 블룸버그(Bloomberg)에 따르면, 아틀라시안 공동창업자 겸 최고경영자(CEO) 마이크 캐넌-브룩스(Mike Cannon-Brookes)는 임직원에게 보낸 내부 메모에서 "AI가 필요한 역량의 구성과 특정 직군의 필요 인원 수를 바꾼다는 사실을 모른 척하는 건 솔직하지 못한 일"이라며 이번 결정이 아틀라시안을 위한 옳은 선택이라고 밝혔다. 로이터(Reuters)에 따르면, 이번 감원과 사무 공간 축소에 따른 세전 비용은 2억 2,500만~2억 3,600만 달러(약 3,200억~3,400억 원)에 달할 것으로 예상된다. 이 중 현금으로 지출될 금액은 1억 6,900만~1억 7,400만 달러로, 퇴직금·통지 기간·전직 지원 등의 비용이다. 구조조정은 2026 회계연도 4분기 말까지 마무리될 예정이다. 캐넌-브룩스 CEO는 직원들에게 보낸 이메일에서 "AI와 기업 영업 부문에 대한 투자를 자체적으로 조달하고, 재무 구조를 강화하기 위한 것"이라며 "일하는 방식도 바꾸고, 더 빠르게 움직이기 위해 업무 체계를 중심으로 조직을 재편할 것"이라고 설명했다. 또 "우리는 여러 차례의 기술 전환과 시장 사이클을 헤쳐 왔고, 이번에도 해낼 것"이라고 덧붙였다. 이번 감원과 함께 최고기술책임자(CTO) 라제브 라잔(Rajeev Rajan)이 약 4년 만에 3월 31일자로 퇴임한다. 회사는 타룬 만다나(Taroon Mandhana)를 팀워크 부문 CTO로, 비크람 라오(Vikram Rao)를 엔터프라이즈 부문 CTO 겸 최고신뢰책임자로 각각 선임해 AI 중심의 제품 로드맵을 이끌게 했다. 아틀라시안의 주가는 발표 이후 시간 외 거래에서 약 2% 상승했다. 하지만 주가는 최근 1년 새 3분의 2가량 폭락했으며, 2026년에만 50% 넘게 떨어져 시가총액이 200억 달러 아래로 내려앉았다. 비상장 기업인 캔바(Canva)보다도 시총이 낮아진 셈이다. 이번이 처음은 아니다. 아틀라시안은 지난해 7월 고객 서비스·지원 직군을 중심으로 150명을 감원했고, 같은 해 9월에는 유럽에서 200명을 추가로 정리했다. AI 주도의 구조조정 물결 속에 호주 물류 소프트웨어 기업 와이즈테크 글로벌(WiseTech Global)도 전체 인력의 3분의 1에 달하는 2,000명 감원을 발표한 바 있다. 자세한 내용은 블룸버그(Bloomberg)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.12 16:07AI 에디터

포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명

포켓몬 고 플레이어들이 스마트폰으로 찍은 수백억 장의 사진이 배달 로봇의 길잡이가 되고 있다. MIT 테크놀로지 리뷰에 따르면, 나이언틱의 AI 분사 기업 나이언틱 스페이셜이 포켓몬 고 이용자들의 크라우드소싱 데이터를 활용해 로봇 내비게이션용 위치 측위 시스템을 개발했다. 나이언틱 스페이셜 최고기술책임자 브라이언 맥클렌던은 "500만 명이 60일 만에 그 앱을 설치했다"며 포켓몬 고의 폭발적인 확산이 얼마나 방대한 데이터를 만들어냈는지 설명했다. 게임 회사 스코플리에 따르면 포켓몬 고는 출시 8년이 지난 2024년에도 1억 명 이상의 이용자를 유지하고 있다. 나이언틱 스페이셜은 이 게임 이용자들이 도심 곳곳에서 촬영한 300억 장의 이미지를 학습 데이터로 삼아, 단 몇 장의 건물 사진만으로도 현재 위치를 수 센티미터 오차 이내로 파악하는 모델을 만들어냈다. 이 기술의 첫 번째 실전 적용 파트너는 배달 로봇 스타트업 코코 로보틱스다. 코코 로보틱스는 로스앤젤레스, 시카고, 저지시티, 마이애미, 헬싱키 등에서 약 1,000대의 로봇을 운영 중이며, 현재까지 50만 건 이상의 배달을 완료했다. 시속 약 8킬로미터로 인도를 누비는 이 로봇들의 가장 큰 약점은 GPS였다. 고층 건물이 밀집한 도심에서는 GPS 신호가 건물에 반사되며 오차가 발생하기 때문이다. 코코 로보틱스 최고경영자 재크 래쉬는 "고층 건물과 고가도로가 밀집한 지역에서 GPS는 제대로 작동하지 않는다"고 말했다. 맥클렌던도 "스마트폰의 파란 점이 50미터씩 튀어나가는 걸 보면 알 수 있다. 그러면 아예 다른 블록, 다른 방향, 다른 쪽 도로에 있는 것처럼 인식된다"고 설명했다. 나이언틱 스페이셜의 기술은 바로 이 문제를 해결한다. 나이언틱 스페이셜 최고경영자 존 행키는 "피카츄를 현실 공간에 자연스럽게 배치하는 것과 코코의 로봇이 세상을 안전하게 이동하는 것은 사실 같은 문제"라고 말했다. 이 기술이 실제로 적용되면 로봇이 식당 앞 정확한 픽업 위치에 서거나 고객 문 앞에 정확히 멈추는 것이 가능해진다. 나이언틱 스페이셜이 그리는 큰 그림은 '살아있는 지도'다. 코코 로보틱스를 비롯한 여러 기업의 로봇들이 도시를 돌아다니며 새로운 지도 데이터를 계속 공급하고, 이를 바탕으로 세계의 초정밀 디지털 복제본이 점점 더 정교해지는 구조다. 행키는 "이 시대는 기계가 세상을 이해할 수 있도록 유용한 설명을 구축하는 시대"라며 "우리가 가진 데이터는 세상의 연결 구조를 이해하는 데 훌륭한 출발점"이라고 강조했다. 구글 딥마인드, 월드 랩스 등이 가상의 세계를 생성하는 방식으로 AI 에이전트를 훈련시키는 것과 달리, 나이언틱 스페이셜은 현실 세계를 그대로 재현하는 방향을 택하고 있다. 맥클렌던은 "아직 거기까지 도달하진 못했지만, 현실 세계를 그대로 재현하는 것이 목표"라고 밝혔다. 자세한 내용은 MIT 테크놀로지 리뷰에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.12 10:14AI 에디터

챗GPT가 스택 오버플로 오염시키고 있다…AI가 AI를 잡아낸다

개발자들의 성지로 불리는 스택 오버플로(Stack Overflow)가 조용히 무너지고 있다. 챗GPT(ChatGPT)가 생성한 그럴듯한 답변들이 플랫폼을 채우기 시작하면서, 수백만 개발자가 매일 의존하는 이 지식 공유 플랫폼의 신뢰성이 흔들리고 있다. 이 문제를 해결하기 위해 연구자들이 AI로 AI를 탐지하는 새로운 도구를 개발했다. 챗GPT 답변이 개발자 커뮤니티를 위협하는 이유 스택 오버플로는 2008년 서비스를 시작한 이래 전 세계 소프트웨어 개발자들이 기술 질문과 해답을 나누는 핵심 플랫폼으로 자리 잡았다. 수천만 명의 개발자가 일상적인 코딩 문제부터 복잡한 알고리즘까지 이곳의 답변에 의존한다. 문제는 챗GPT의 등장 이후 불거졌다. 챗GPT가 생성한 답변들은 겉으로 보기에 논리적이고 잘 정리되어 있지만, 실제로는 틀린 정보를 포함하는 경우가 빈번하다. 논문에 소개된 대표적인 사례가 이를 잘 보여준다. "가장 최근의 로컬 커밋을 어떻게 취소하나요?"라는 질문에 인간 개발자는 git rm, git add, git commit --amend 명령어를 정확히 안내한 반면, 챗GPT는 존재하지 않는 명령어인 git delete commit을 사용하라고 안내했다. 이 답변을 그대로 따른 개발자는 오류에 빠질 수밖에 없다. 스택 오버플로 측은 이미 챗GPT 생성 답변이 "실질적으로 해롭다"고 규정하고 이를 전면 금지했다. 그러나 자원봉사자로 운영되는 콘텐츠 검토 시스템은 쏟아지는 AI 생성 답변을 일일이 걸러내기에 역부족이다. 답변을 만들어내는 것은 순식간이지만, 그 정확성을 검증하는 데는 전문 지식과 시간이 필요하기 때문이다. SOGPTSpotter가 AI 답변을 탐지하는 방법 호주 CSIRO 데이터61(Data61), 독일 뮌헨공과대학교(Technical University of Munich), 호주 디킨대학교(Deakin University), 모나시대학교(Monash University) 공동 연구팀은 이 문제를 해결하기 위해 'SOGPTSpotter'라는 탐지 도구를 개발했다. 핵심 기술은 샴 신경망(Siamese Neural Network)이다. 이는 마치 쌍둥이처럼 동일한 구조의 두 신경망이 각각 입력을 처리하고, 두 입력 사이의 유사도를 측정하는 방식이다. 연구팀은 세 가지 답변을 함께 비교하는 방식을 채택했다. 기준 답변(reference answer), 인간이 작성한 답변, 그리고 챗GPT가 생성한 답변이다. 기준 답변은 AI 특유의 문체와 특성을 의도적으로 담아 만든 비교 기준점 역할을 한다. 샴 신경망은 트리플렛 손실(triplet loss)이라는 학습 방법으로 훈련된다. 이 방법은 기준 답변과 챗GPT 답변 사이의 거리를 좁히고, 기준 답변과 인간 답변 사이의 거리는 최대한 벌리도록 모델을 학습시킨다. 결과적으로 모델은 새 답변이 들어왔을 때 기준 답변과의 유사도 점수를 계산해 0.5 이상이면 AI 생성, 미만이면 인간 작성으로 분류한다. 연구팀은 빅버드(BigBird)라는 언어 모델을 샴 신경망 내부에 탑재했다. 기존의 언어 처리 모델들은 처리할 수 있는 텍스트 길이에 한계가 있어 긴 답변을 다루기 어렵다. 빅버드는 무작위 어텐션(random attention), 슬라이딩 윈도우 어텐션(sliding window attention), 글로벌 어텐션(global attention)을 조합한 독자적인 메커니즘으로 이 한계를 극복하고 긴 텍스트도 효율적으로 처리한다. 기존 탐지 도구를 압도한 97.67% 정확도 연구팀은 스택 오버플로에서 수집한 6,000개의 고품질 게시물로 데이터셋을 구성했다. 평판 점수 1,000점 이상의 사용자 답변, 5개 이상의 추천수, 채택된 답변 등 엄격한 기준을 적용해 데이터 품질을 높였다. 챗GPT가 서비스를 시작한 2021년 11월 이전에 작성된 게시물만 인간 답변 데이터로 사용해 오염 가능성도 차단했다. 성능 비교 실험에서 SOGPTSpotter는 정확도 97.67%, 정밀도(precision) 98.64%, F1 점수 97.64를 기록했다. 이는 현재 널리 쓰이는 AI 탐지 도구들을 크게 앞서는 수치다. GPT제로(GPTZero)보다 정확도가 21.71% 높았고, 딜렉트GPT(DetectGPT)보다는 22.35%, GLTR보다는 5.50% 높았다. 버트(BERT), 로버타(RoBERTa), GPT-2 같은 강력한 언어 모델 기반 탐지기와 비교해도 각각 3.30%, 1.88%, 4.18% 높은 정확도를 보였다. 특히 주목할 점은 정밀도다. 정밀도는 AI가 생성했다고 판단한 답변 중 실제로 AI가 생성한 비율을 나타낸다. 정밀도가 높을수록 인간이 쓴 답변을 AI 생성으로 잘못 분류하는 일이 줄어든다. SOGPTSpotter의 정밀도 98.64%는 모든 비교 모델 중 가장 높았다. 스택 오버플로처럼 커뮤니티 신뢰가 중요한 플랫폼에서는 억울하게 삭제되는 인간 답변을 최소화하는 것이 핵심이기 때문에, 이 결과는 실제 적용 가능성 측면에서 특히 중요한 의미를 갖는다. 적대적 공격과 타 플랫폼에서도 통한 강건함 연구팀은 SOGPTSpotter가 실제 환경에서도 신뢰할 수 있는지 검증하기 위해 세 가지 방식의 공격 실험을 진행했다. 동의어 대체(synonym substitution), 텍스트 변형(perturbation), 문장 바꿔쓰기(paraphrasing)를 적용해 AI 생성 답변을 인간 답변처럼 위장하려 한 것이다. 이런 조작은 실제로 일부 사용자들이 AI 생성 답변을 탐지 시스템에 걸리지 않게 하려고 사용하는 방법이기도 하다. 세 가지 공격 방식 모두에서 SOGPTSpotter는 기존 도구들보다 높은 F1 점수를 유지했다. 동의어 대체 공격 시 94.43%, 텍스트 변형 시 94.90%, 문장 바꿔쓰기 시 95.85%를 기록해 모든 비교 모델을 앞섰다. 또한 성능 저하 비율도 가장 낮았다. 문장 바꿔쓰기 공격으로 GPT제로는 7.64% 성능이 떨어진 반면, SOGPTSpotter는 1.83% 하락에 그쳤다. 일반화 성능도 확인했다. 연구팀은 수학 스택익스체인지(Mathematics Stack Exchange), 전자공학 스택익스체인지(Electronics Stack Exchange), 비트코인 스택익스체인지(Bitcoin Stack Exchange)에서 각각 100개의 게시물을 수집해 테스트했다. SOGPTSpotter는 세 분야 모두에서 비교 모델들을 앞섰다. 챗GPT 외에 메타(Meta)의 라마3(LLaMA 3), 구글(Google)의 제미나이(Gemini), 앤스로픽(Anthropic)의 클로드3(Claude 3)가 생성한 답변을 탐지하는 실험에서도 가장 높은 성능을 보였다. 기준 답변을 활용해 해당 언어 모델의 생성 패턴을 학습하는 구조 덕분에 다양한 AI 모델에도 대응할 수 있었다. 실제 스택 오버플로에서 47개 AI 게시물 삭제 연구팀은 실험실을 넘어 실제 스택 오버플로에서도 효과를 확인했다. 2022년 11월 30일부터 2024년 4월 30일 사이에 작성된 게시물 5만 개를 무작위로 선정해 SOGPTSpotter로 분석했다. 모델은 이 중 146개를 AI 생성 의심 답변으로 분류했고, 연구팀은 이 가운데 50개를 직접 스택 오버플로에 수정 요청으로 제출했다. 결과는 인상적이었다. 제출한 50건 중 47건, 즉 94%가 커뮤니티 검토를 통과해 해당 게시물이 실제로 삭제됐다. 거부된 3건 중 2건은 30토큰 미만의 매우 짧은 답변이었고, 나머지 1건은 긴 코드 조각에 짧은 설명만 붙은 형태였다. 짧은 텍스트는 AI와 인간 모두 비슷한 방식으로 작성하는 경향이 있어 구별이 어렵고, 코드 위주의 답변은 자연어 패턴이 부족해 탐지의 단서가 줄어드는 한계가 있다. 연구팀은 이 두 가지 상황, 즉 매우 짧은 답변과 코드 중심의 답변을 향후 개선 과제로 꼽으면서, 실시간 탐지 기능 개발과 다른 Q&A 플랫폼으로의 확장도 향후 연구 방향으로 제시했다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. SOGPTSpotter는 어떤 원리로 챗GPT가 쓴 답변을 탐지하나요? SOGPTSpotter는 샴 신경망(Siamese Neural Network)과 빅버드(BigBird) 언어 모델을 결합해 만든 AI 탐지 도구입니다. AI가 작성한 것으로 알려진 기준 답변과 검사 대상 답변을 비교해 유사도를 계산하고, 일정 수준 이상으로 유사하면 챗GPT가 생성한 답변으로 분류합니다. Q. 챗GPT가 쓴 답변이 스택 오버플로에서 왜 문제가 되나요? 챗GPT 생성 답변은 논리적으로 보이지만 실제로 존재하지 않는 명령어나 잘못된 정보를 포함하는 경우가 많습니다. 개발자들이 이를 검증 없이 따를 경우 심각한 오류가 발생할 수 있어, 스택 오버플로는 이미 챗GPT 답변을 공식적으로 금지한 상태입니다. Q. SOGPTSpotter는 챗GPT 외에 다른 AI가 쓴 글도 탐지할 수 있나요? 네, 가능합니다. 연구팀이 라마3(LLaMA 3), 제미나이(Gemini), 클로드3(Claude 3)를 대상으로 실험한 결과, SOGPTSpotter는 세 모델 모두에서 기존 탐지 도구보다 높은 성능을 보였습니다. 다만 학습에 사용된 챗GPT 데이터와 다른 AI 모델의 생성 패턴 차이로 인해 성능이 다소 낮아질 수 있습니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: SOGPTSpotter: Detecting ChatGPT-Generated Answers on Stack Overflow ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.12 08:35AI 에디터

"AI와 대화하며 작업"…어도비, AI 이미지 편집 기능 발표

어도비가 포토샵·파이어플라이에 대화형 인공지능(AI) 편집 기능을 확대해 자동화 업무 수준을 높였다. 어도비는 포토샵 웹과 모바일용 'AI 어시스턴트' 공개 베타 버전, '파이어플라이 이미지 에디터'를 11일 발표했다. 이번 기능은 대화형 AI를 통해 복잡한 이미지 편집 작업을 보다 효율적으로 수행하도록 돕는다. 포토샵 AI 어시스턴트는 채팅 기반 인터페이스를 통해 사용자 편집 의도를 이해하고 작업을 자동으로 수행하거나 단계별로 안내한다. 배경 제거·변경, 색상 조정, 조명 보정 등 주요 편집 작업을 자동 적용할 수 있다. 사용자는 음성으로도 편집 요청을 할 수 있다. 이를 통해 이동 중 모바일 환경에서 간편하게 이미지 편집 작업을 수행할 수 있다. 포토샵 웹에서는 'AI 마크업' 기능이 공개 베타로 제공된다. 사용자가 이미지 특정 영역을 표시한 뒤 프롬프트를 입력하면 해당 영역에 원하는 요소를 생성하도록 제어할 수 있다. 예를 들어 이미지 위 특정 영역을 표시한 뒤 '꽃 추가' '산 추가' 같은 프롬프트를 입력하면 해당 위치에 맞춰 새로운 이미지를 생성할 수 있다. 어도비는 파이어플라이 이미지 에디터를 통해 생성형 이미지 편집 기능을 통합했다. AI 생성 이미지와 사용자가 업로드한 이미지를 동일한 편집 환경에서 수정할 수 있도록 설계됐다. 파이어플라이 이미지 에디터는 생성형 채우기, 생성형 제거, 생성형 확장, 생성형 업스케일 배경 제거 등 주요 AI 편집 기능을 제공한다. 사용자는 프롬프트 기반으로 이미지 요소 추가, 교체, 보정, 확장, 해상도 개선 작업을 수행할 수 있다. 파이어플라이는 어도비 파이어플라이 모델 외에도 외부 AI 모델을 선택해 사용할 수 있도록 지원한다. 구글 '나노 바나나 2'를 비롯한 오픈AI 이미지 생성 등 25개 이상 모델을 지원한다.

2026.03.11 12:56김미정 기자

구글 나노 바나나, 가짜 흉부 X선으로 폐렴 92% 정확도로 잡아냈다

의료 AI 개발의 가장 큰 걸림돌 중 하나는 환자 데이터를 구하기 어렵다는 점이다. 개인정보 보호 규정, 병원 간 데이터 공유 제한, 희귀 질환의 절대적인 데이터 부족 등이 맞물려 우수한 알고리즘을 개발하고도 훈련 데이터가 없어 상용화에 실패하는 사례가 반복돼 왔다. 그런데 이 문제를 정면으로 돌파하는 연구가 나왔다. 영국 옥스퍼드대학교(University of Oxford)와 임페리얼 칼리지 런던(Imperial College London), UAE 모하메드 빈 자예드 인공지능대학교(Mohamed bin Zayed University of Artificial Intelligence) 공동 연구팀이 실제 환자 흉부 X선 사진을 전혀 사용하지 않고, AI가 생성한 합성 이미지만으로 폐렴 진단 모델을 훈련시켜 실제 데이터에서 92.3%의 정확도를 달성했다. 합성 X선 사진으로만 훈련한 AI, 실제 데이터에서 92% 달성 연구팀은 구글(Google)의 이미지 생성 AI 모델인 '나노 바나나(Nano Banana)'를 활용해 300장의 흉부 X선(CXR, Chest X-Ray) 합성 이미지를 만들었다. 폐렴 환자와 건강한 사람의 이미지를 각각 생성했으며, 성별, 체형, 나이, 촬영 자세 등을 다양하게 변형해 실제 임상 환경의 다양성을 최대한 반영했다. 이 합성 데이터만으로 훈련된 AI 분류기(classifier, 이미지를 특정 범주로 구분하는 모델)를 실제 환자 데이터셋에 적용한 결과, RSNA(미국방사선학회) 폐렴 탐지 데이터셋(14,863장)에서 AUROC(수신자 조작 특성 곡선 아래 면적, 모델 성능 지표) 0.923을 기록했다. 또 다른 공개 흉부 X선 데이터셋(5,856장)에서는 AUROC 0.824를 달성했다. 두 데이터셋 모두 합성 데이터만으로 훈련했음에도 의미 있는 진단 성능을 보여줬다는 점에서 주목받고 있다. 이미지 후처리가 성능을 가른 결정적 변수 연구 과정에서 예상치 못한 변수가 성능에 큰 영향을 미쳤다. 나노 바나나가 생성한 이미지에는 두 가지 문제가 있었다. 흉부 영역 아래로 필요 없는 부분이 포함돼 있었고, AI가 자동으로 삽입하는 디지털 워터마크(watermark, 이미지에 삽입되는 식별 표시)가 존재했다. 연구팀은 생성된 이미지의 하단 30%를 일괄 잘라내는 후처리를 적용했다. 이 단순한 처리 하나가 성능을 크게 바꿔놓았다. 후처리를 하지 않은 원본 합성 이미지로 훈련한 모델의 AUROC는 RSNA 데이터셋 기준 0.853에 그쳤지만, 후처리된 이미지로 훈련한 모델은 0.923으로 뛰어올랐다. 워터마크와 불필요한 영역이 모델 학습을 방해했던 것이다. 이 결과는 합성 데이터의 품질 관리와 전처리가 모델 성능만큼이나 중요하다는 사실을 시사한다. 기존 전문 의료 AI보다 나은 성능, 그 이유는 연구팀은 나노 바나나 생성 이미지를 흉부 X선 전용으로 설계된 텍스트-이미지 변환 모델인 '뢴트겐-v2(RoentGen-v2)'의 합성 이미지와도 비교했다. 뢴트겐-v2는 의료 영상 특화 모델임에도 불구하고, 후처리된 나노 바나나 이미지로 훈련된 분류기가 두 실제 데이터셋 모두에서 더 나은 성능을 기록했다. 연구팀은 이 결과를 설명하기 위해 그래드캠(Grad-CAM)이라는 시각화 기법을 활용했다. 그래드캠은 AI가 이미지의 어느 부분을 보고 판단을 내렸는지 열지도(heatmap) 형태로 보여주는 도구다. 분석 결과, 나노 바나나 이미지로 훈련된 모델은 폐렴 환자에서는 폐 내 경화(consolidation, 폐포가 액체로 채워진 상태) 부위를, 건강한 환자에서는 심장과 횡격막 경계를 집중적으로 살피는 것으로 나타났다. 이는 실제 영상의학과 의사가 X선을 판독할 때 주목하는 임상적으로 의미 있는 부위와 일치한다. 가능성과 한계, 임상 적용까지 넘어야 할 산 연구팀은 결과가 고무적이라고 평가하면서도 현재 단계의 한계를 명확히 짚었다. 우선 프롬프트(prompt, AI에게 내리는 명령어) 설계만으로는 촬영 각도나 자세의 다양성을 세밀하게 제어하는 데 한계가 있었다. 또한 이번 연구는 폐렴 인식에만 국한됐으며, 다른 질환이나 다양한 의료 영상 분야로의 일반화 가능성은 아직 검증되지 않았다. 무엇보다 합성 데이터만으로는 미국 FDA(식품의약국)나 유럽 CE 인증 등 의료기기 규제 승인을 받기 어렵다는 점도 현실적인 장벽이다. 디지털 워터마크가 지식재산권과 책임 소재에 미치는 영향, AI가 합성 데이터로 훈련된 경우의 법적 책임 프레임워크도 아직 정립되지 않은 상태다. 연구팀은 합성 의료 데이터의 투명하고 책임 있는 활용을 위한 정책과 가이드라인이 기술 발전과 함께 마련돼야 한다고 강조한다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. AI가 만든 가짜 X선 사진으로 진짜 환자를 진단하는 게 가능한가요?이번 연구에서는 AI가 생성한 300장의 합성 흉부 X선 이미지만으로 훈련한 모델이 실제 환자 데이터 약 2만 장에서 최고 92.3%의 정확도(AUROC)를 기록했습니다. 다만 현재는 임상 적용 전 단계로, 규제 승인과 추가 검증이 필요합니다. Q2. 합성 데이터가 실제 환자 데이터를 대체할 수 있나요?완전한 대체는 아직 어렵습니다. 합성 데이터는 개인정보 문제를 피하면서 AI 훈련에 활용 가능한 보완재로서 가능성을 보여줬습니다. 하지만 현행 의료기기 규제는 실제 임상 데이터를 통한 검증을 요구하고 있어, 합성 데이터만으로 규제 승인을 받는 것은 현재로서는 불가능합니다. Q3. 이미지를 자르는 후처리가 왜 그렇게 큰 차이를 만드나요?AI가 생성한 이미지에는 진단과 무관한 워터마크나 흉부 외 신체 부위가 포함됩니다. 이 불필요한 정보가 모델 학습을 방해해 성능을 떨어뜨립니다. 하단 30%를 잘라내는 단순한 후처리만으로도 AUROC가 0.853에서 0.923으로 크게 향상됐습니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Recognizing Pneumonia in Real-World Chest X-rays with a Classifier Trained with Images Synthetically Generated by Nano Banana ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.10 18:58AI 에디터

앤트로픽이 '적'에서 '동반자'로…소프트웨어 주가 반등

앤트로픽(Anthropic)이 기업용 AI 협업 도구의 새 파트너십을 공개하면서 최근 급락세를 보이던 소프트웨어 주가가 일제히 반등했다. CNBC에 따르면 앤트로픽은 2월 24일(현지 시간) 기업용 에이전트(agent) 행사를 열고 클로드 코워크(Claude Cowork)의 업데이트 버전을 공개했다. 이번 업데이트를 통해 기업들은 세일즈포스(Salesforce) 산하 슬랙(Slack), 인튜이트(Intuit), 도큐사인(DocuSign), 리걸줌(LegalZoom), 팩트셋(FactSet), 구글(Google)의 지메일(Gmail) 등 다양한 기업용 앱과 클로드 코워크를 연동할 수 있게 됐다. 재무 분석, 엔지니어링, 인사(HR) 등 특정 분야에 특화된 맞춤형 플러그인(plugin)도 함께 배포됐다. 앤트로픽의 잇따른 신제품 출시는 최근 수 주 동안 소프트웨어·사이버보안 업종 주가를 크게 끌어내린 배경으로 작용했다. AI 도구가 기존 기업 소프트웨어 비즈니스 모델을 대체할 수 있다는 투자자들의 우려가 커진 탓이다. 그러나 이번 행사에서 앤트로픽이 기존 소프트웨어 기업들과의 협력을 전면에 내세우자 분위기는 반전됐다. 아이셰어즈 확장 기술·소프트웨어 섹터 상장지수펀드(ETF, Exchange-Traded Fund)인 아이지브이(IGV)는 전날 4% 넘게 하락했다가 이날은 1% 이상 올라 마감했다. 개별 종목에서도 오크타(Okta)와 클라우드플레어(Cloudflare)가 약 2%, 제이스케일러(Zscaler)와 테너블(Tenable)은 각각 약 4%, 센티넬원(SentinelOne)은 3% 상승했다. 반면 아이비엠(IBM) 주가는 이날도 약세를 이어갔다. 앤트로픽이 코볼(COBOL) 프로그래밍 언어 현대화를 자동화할 수 있는 클로드 코드(Claude Code) 기능을 전날 공개한 여파였다. 웨드부시 시큐리티스(Wedbush Securities) 애널리스트들은 이날 리서치 노트에서 앤트로픽의 이번 행사가 소프트웨어 업종에 대한 AI의 경쟁 위협이 "과장됐다(overblown)"는 것을 보여준다고 평가했다. 이들은 AI 모델이 소프트웨어 인프라에 "깊이 내재된" 전체 워크플로우(workflow)를 대체하는 것은 불가능하다고 주장했다. "이 새로운 AI 도구들은 기존 소프트웨어 생태계와 데이터 환경을 완전히 뒤엎지 못할 것이다. AI 도구는 결국 접근할 수 있는 데이터만큼만 유용하기 때문"이라고 이들은 밝혔다. 한편 앤트로픽의 경제학 책임자 피터 맥크로리(Peter McCrory)는 이날 라이브스트림에서 현재까지 노동 시장에서 광범위한 인력 대체 현상이 나타나고 있다는 증거는 없다고 말했다. 다만 그는 AI 기술이 경제에 미치는 영향의 범위가 넓어지고 있으며, 데이터 입력 같은 일부 직군은 다른 직종보다 더 큰 위험에 노출돼 있다고 덧붙였다. 자세한 내용은 CNBC에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.10 13:41AI 에디터

의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕

챗GPT(ChatGPT)가 의사 시험과 변호사 시험을 통과했다는 소식이 나온 지 꽤 됐다. 그렇다면 한국 수능은 어떨까? 국립대만사범대학교(National Taiwan Normal University)와 서울대학교(Seoul National University) 공동 연구팀이 GPT-4o, 제미나이-2.5-플래시(Gemini 2.5 Flash), 제미나이-2.5-프로(Gemini 2.5 Pro) 세 모델에게 2025학년도 수능 지구과학I 문제를 풀게 했다. 최선의 조건에서 제미나이-2.5-프로는 상위권 수험생에 근접하는 성적을 냈지만, 나머지 두 모델은 랜덤으로 찍는 수준을 벗어나지 못했다. 연구팀이 주목한 건 점수 자체보다 '왜 틀렸는가'였다. AI는 특정 유형의 문제에서 반복적이고 체계적인 방식으로 실패했고, 그 패턴은 사람이 틀리는 방식과 뚜렷하게 달랐다. 문제지를 통째로 주면 찍는 것보다 못한 성적 연구팀은 같은 AI에게 세 가지 방식으로 문제를 줬다. 첫 번째는 시험지 전체 페이지를 이미지 파일로 그대로 넘겨주는 방식이었다. 결과는 예상보다 낮았다. 제미나이-2.5-플래시는 50점 만점에 4점(8%), GPT-4o는 7점(14%)을 받았다. 5지선다에서 랜덤으로 찍으면 기댓값이 10점(20%)인데, 두 모델 모두 그보다 낮았다. 제미나이-2.5-프로는 14점(28%)으로 그나마 높았지만 이 역시 낮은 수준이다. 문자 인식 단계에서부터 오류가 쌓였다. GPT-4o는 은하 스펙트럼 문제를 운석 스펙트럼 문제로 잘못 읽었고, 제미나이-2.5-플래시는 암석의 용융 곡선 문제를 '암염 용융 곡선' 문제로 완전히 다르게 인식했다. 문제는 이 모델들이 잘못 인식한 문제를 바탕으로 그럴듯한 해설까지 자신 있게 내놨다는 점이다. "암염은 온도가 올라가면 녹을 수 있다"는 설명은 과학적으로 맞는 말이지만, 출제된 문제와는 전혀 상관없는 내용이었다. 문제를 따로 줘도 드러나는 모델별 한계 두 번째 실험에서 연구팀은 20개 문항을 각각 별도 이미지 파일로 잘라서 줬다. 이렇게 하면 여러 문제가 섞인 복잡한 지면을 AI가 스스로 분석하는 부담이 사라진다. 제미나이-2.5-프로는 14점에서 28점(56%)으로 크게 올랐다. 반면 제미나이-2.5-플래시는 4점에서 9점(18%), GPT-4o는 7점에서 8점(16%)으로 거의 변화가 없었다. 이 차이가 중요한 단서를 준다. 제미나이-2.5-프로의 점수가 많이 오른 건, 이 모델의 첫 번째 실험 실패 원인이 추론 능력 부족이 아니라 복잡한 문서 레이아웃 분석 실패였기 때문이다. 문제를 제대로 읽게 해줬더니 숨어 있던 추론 능력이 발휘된 것이다. 반면 나머지 두 모델은 입력 방식을 바꿔줘도 성적이 거의 오르지 않았다. 이 모델들의 한계가 단순한 문서 구조 문제가 아니라 시각 정보 해석과 추론 과정 전반에 있다는 점을 보여준다. 이상적인 조건에서도 AI는 도식의 의미를 읽어내지 못했다 세 번째 실험에서 연구팀은 텍스트는 직접 입력하고 그래프와 도표만 이미지로 제공했다. 문자 인식 오류 가능성을 원천 차단한 이상적인 조건이다. 제미나이-2.5-프로는 34점(68%)으로 상위권 수험생 수준에 근접했다. 그러나 제미나이-2.5-플래시는 10점(20%), GPT-4o는 11점(22%)으로 랜덤 선택 기댓값과 비슷한 수준에 머물렀다. 이 조건에서 발생한 36개의 오답을 분석한 결과, 가장 많이 나온 오류 유형은 '지각 오류(Perception Errors)'로 전체의 43%를 차지했다. AI가 그래프의 수치를 잘못 읽거나, 도식에 담긴 상징적 의미를 제대로 해석하지 못하는 문제가 가장 많았다. 논문은 이를 단순한 시각 오류가 아니라, 인식한 정보를 과학 개념으로 연결하는 인지 과정의 단절로 설명한다. 추론 오류(25%), 환각으로 분류되는 지식 생성 오류(17%), 개념 오류(15%)가 그 뒤를 이었다. AI가 반복적으로 실패하는 세 가지 문제 유형 연구팀이 특히 주목한 건 AI 고유의 반복적 실수 패턴이었다. 첫 번째는 '지각-인지 단절(Perception-Cognition Gap)'이다. AI가 시각 정보를 인식은 하지만 그 안에 담긴 과학적 규칙으로 연결하지 못하는 현상이다. 태풍의 풍향 변화를 나타내는 방사형 그래프에서 AI는 그림 자체는 봤지만, 시계 방향과 반시계 방향의 과학적 의미를 읽어내지 못했다. 세 모델 모두 이 문제를 틀렸다. 두 번째는 '계산-개념 불일치(Calculation-Conceptualization Discrepancy)'다. GPT-4o는 20번 문항에서 λmax(B)/λmax(C)=0.5라는 계산은 정확하게 해냈다. 그런데 이 값이 "C의 최대 파장이 B의 두 배"라는 개념적 의미로 연결되지 않아 틀렸다. 절차적 계산은 수행하지만 그 결과의 의미를 적용하지 못하는 것이다. 세 번째는 '과정 환각(Process Hallucination)'이다. AI가 복잡한 추론 과정을 건너뛰고 관련 있어 보이는 배경 지식을 가져다 붙이는 현상이다. 3번 문항에서 두 모델은 P-T 다이어그램을 실제로 확인하는 과정을 생략하고 "맨틀이 상승하면 감압 용융이 일어난다"는 배경 지식을 바로 적용해 틀렸다. 데이터 검증 없이 그럴듯한 결론으로 직행한 것이다. FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다. Q. AI가 수능을 못 푸는 건 한국어를 잘 못해서인가요? A. 연구팀은 문제를 영어로 번역해 제공하는 등 언어 장벽을 최소화했습니다. AI가 특정 문제에서 어려움을 보이는 핵심 원인은 언어가 아니라, 그래프와 도식에 담긴 과학적 규칙을 해석하는 시각 인지 능력의 한계에 있었습니다. Q. 제미나이-2.5-프로가 68점을 받았다면 AI가 수능을 어느 정도 풀 수 있다는 건가요? A. 논문은 제미나이-2.5-프로의 68점이 상위권 수험생 수준에 근접한다고 평가했습니다. 다만 이는 텍스트를 미리 직접 입력해주는 이상적인 조건에서 나온 결과입니다. 실제 시험지를 그대로 입력했을 때 같은 모델의 점수는 28점에 그쳤습니다. Q. 이번 연구가 교육 현장에 주는 시사점은 무엇인가요? A. 연구팀은 AI가 반복적으로 어려움을 보이는 문제 유형을 역으로 활용해 'AI 내성 문항'을 설계할 수 있다고 제안했습니다. 단순 x-y 그래프가 아닌 비정형 도식의 규칙을 해석해야 하는 문항, 계산 결과의 개념적 의미를 다시 적용해야 하는 문항 등은 학생의 실제 이해도를 측정하는 동시에 AI 활용을 어렵게 만드는 효과적인 설계 방향으로 제시됐습니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test - Earth Science I ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.09 15:28AI 에디터

네이버 클립, 제3회 '크리에이터스 데이' 개최

네이버는 지난 8일 각 분야 클립 크리에이터를 대상으로 클립팀과 함께 창작자 지원방안과 서비스 방향성에 대해 의견을 나누는 제3회 '클립 크리에이터스 데이'를 개최했다고 9일 밝혔다. 클립은 창작자가 이전보다 편리하게 콘텐츠를 제작하고, 콘텐츠 성과를 분석해 앞으로의 전략을 세울 수 있도록 기술적 지원 강화에 대한 계획을 공유했다. 콘텐츠 제작 단계를 간소화하는 'AI 에디터'를 연내 선보일 계획이다. AI 에디터는 ▲같은 장소에서 촬영한 영상, 이미지를 자동으로 분류해 모아주고 ▲미디어 정보를 알아서 분석해 정보태그를 달아줄 뿐 아니라 ▲콘텐츠와 어울리는 해시태그 및 음원까지 추천해주는 등 창작자들의 콘텐츠 제작 편의를 강화할 전망이다. 아울러, 클립 창작자들이 콘텐츠 지표를 확인하고 수익을 정산할 수 있는 '클립 크리에이터 앱'의 기능을 강화한다. ▲게시물 타입의 콘텐츠 분석을 새롭게 제공하고 ▲유입처, 시청시간 등 상세한 분석툴을 추가하며 ▲이달의 해시태그 미션, 크리에이터 월간 어워즈, 이달의 활동 미션 등 수익 창출을 위한 프로그램들을 한눈에 확인하고 관리할 수 있도록 지원할 예정이다. 클립은 숏폼 소비 트렌드를 수익 모델에 적극 반영하며 창작자 보상을 꾸준히 확대해왔다. 지난해 홈피드 등 '피드 지면'에서의 소비까지 산정하도록 보상 구조를 개편한 데 이어 올해는 숏폼 영상뿐만 아니라 텍스트나 이미지가 결합된 '게시물 형태'의 콘텐츠로도 수익 창출 대상을 확대한다. 창작자의 콘텐츠가 '팬덤 구축'으로 이어지도록 네이버 앱 내 '클립탭'도 전면 개편할 계획이다. 새로운 클립탭은 ▲먼저 시청자가 자신의 취향에 맞는 새로운 창작자의 영상을 발견하게 돕는 '탐색' ▲마음에 드는 창작자의 신규 콘텐츠를 놓치지 않고 받아보는 '구독' ▲내가 만든 콘텐츠를 한눈에 관리할 수 있는 '내클립판'으로 구성될 예정이다. 클립 챌린지의 인기가 높아짐에 따라 창작자들이 보다 연속성 있게 참여할 수 있도록 다양한 챌린지 프로그램을 '오늘 클립 챌린지'로 일원화해 운영한다. 이날부터 매주 참여할 수 있고, 참여 성과가 두드러진 우수 창작자에게는 클립 크리에이터 합류 기회도 제공해 프로그램 참여가 크리에이터로서의 성장으로까지 이어질 수 있도록 지원할 계획이다. 김광현 네이버 최고데이터·콘텐츠책임자는 "AI 시대 콘텐츠보다 더 중요한 것은 콘텐츠를 만드는 창작자들"이라며 "네이버는 창작자들이 생산해낸 양질의 콘텐츠가 네이버 전반의 서비스 및 기술과 연결되어 더 많은 사용자와 만날 수 있도록 지원과 투자를 아끼지 않겠다"고 말했다.

2026.03.09 13:52박서린 기자

AI가 지도 공부한 게 아니었다…단어 패턴만으로 세계 지리 독파

내비게이션 앱도 아닌데, 지도 데이터도 없는데, AI가 "레이캬비크"라는 단어 하나만 보고 그 도시가 북쪽의 추운 곳이라는 걸 맞혔다면 믿겠는가. 플로리다 애틀랜틱 대학교(Florida Atlantic University)의 일란 바렌홀츠(Elan Barenholtz) 교수 연구팀이 2026년 3월 발표한 논문에서 10년 전 기술로 이것을 해냈다. 더 놀라운 건 최신 AI가 아니라 2013년에 만들어진 단어 통계 기술을 썼다는 점이다. 과연 AI는 세상을 '이해'하는 걸까, 아니면 글자들의 패턴을 '기억'하는 걸까. 단어가 모이면 지도가 된다 연구팀이 사용한 기술 이름은 글러브(GloVe)와 워드투벡(Word2Vec)이다. 둘 다 2013~2014년에 개발된, AI 세계에서는 꽤 오래된 기술이다. 이 기술들이 하는 일은 단순하다. "어떤 단어들이 같은 문장이나 문단에 자주 함께 등장하는가"를 숫자로 바꾸는 것이다. 예를 들어 "커피"와 "카페"는 자주 같이 나오니까 두 단어의 숫자가 비슷해지고, "커피"와 "눈보라"는 거의 같이 안 나오니까 숫자가 멀어진다. 이 숫자 덩어리를 300개 차원의 벡터(vector), 즉 방향이 있는 좌표라고 부른다. 연구팀은 이 숫자 좌표에 선형 회귀 프로브(linear regression probe)라는 탐색 도구를 붙였다. 프로브는 일종의 탐지기다. X선이 몸속을 들여다보듯이, 단어 좌표 안에 숨어 있는 정보를 꺼내 보는 장치라고 생각하면 된다. 연구팀은 전 세계 100개 도시 이름을 이 탐지기에 넣고 물었다. "이 단어 좌표 안에 위도와 경도 정보가 들어있나요?" 결과는 놀라웠다. 위도는 최대 87%, 경도도 비슷한 수준으로 맞혔다. 연평균 기온도 52%까지 예측했다. 반면 인구수, 국내총생산(GDP), 해발고도는 거의 맞히지 못했다. 이게 중요하다. 아무 정보나 다 나온 게 아니라, 특정 정보만 골라서 나온 것이다. "파리"가 "프랑스"와 붙어다니는 이유 그렇다면 어떻게 단어 숫자에 지리 정보가 담겼을까. 연구팀은 2만 개의 영어 단어를 전부 뒤졌다. 각 단어가 86개 도시 이름과 얼마나 가까운지 계산하고, 그 거리가 실제 기온이나 위도와 얼마나 연관되는지 봤다. 답은 명쾌했다. 따뜻한 도시 이름 옆에는 "덩기(dengue, 열대 질병)", "사이클론(cyclone)", "코코넛(coconut)", "야자수(palms)"같은 단어들이 자주 붙었다. 차가운 도시 이름 옆에는 "화학자(chemist)", "물리학자(physicist)", "스키(skiing)"가 자주 등장했다. 이건 연구팀이 미리 골라서 넣은 단어들이 아니다. 2만 개 단어를 무작위로 분석했더니 저절로 이런 패턴이 나왔다. 여기서 핵심 발견이 나온다. 바로 국가 이름이었다. 연구팀은 일부러 국가 이름들을 지웠다. 글러브 좌표에서 국가 이름들이 차지하는 방향을 통째로 제거한 것이다. 그랬더니 위도 예측 정확도가 87%에서 76%로 떨어졌고, 기온 예측은 52%에서 36%로 뚝 내려갔다. 같은 수의 무작위 단어를 지웠을 때는 정확도가 거의 안 변했다. 즉, 국가 이름이 지리 정보를 전달하는 핵심 다리 역할을 하고 있었다. 이유는 일상 언어에 있다. 뉴스 기사에서 "방콕"은 늘 "태국", "열대", "아세안(ASEAN)"과 함께 나온다. "오슬로"는 "노르웨이", "피요르드(fjord)", "북유럽"과 같이 등장한다. 이런 동행이 수억 번 반복되면 단어 좌표 안에 지리적 지도가 저절로 새겨진다. 역사 인물 이름으로 시대를 추측하다 연구팀은 공간 정보에서 멈추지 않았다. 시간 정보도 실험했다. 호메로스(Homer, 기원전 800년경)부터 스티븐 호킹(Stephen Hawking, 1942년생)까지 역사적 인물 194명의 이름을 같은 방식으로 분석했다. "이 이름의 단어 좌표를 보면 이 사람이 언제 태어났는지 알 수 있을까?"라는 질문이었다. 정확도는 약 48~52%였다. 지리 정보보다는 낮지만 완전히 우연보다는 훨씬 높다. 탐지기가 고대(기원전~서기 500년), 중세(500~1400년), 근현대(1400년 이후)를 대략 구분하는 데 성공했다. "아인슈타인(Einstein)"이라는 이름 옆에는 "상대성이론", "20세기", "물리학"이 자주 붙고, "아리스토텔레스(Aristotle)"옆에는 "고대", "그리스", "철학"이 따라다닌 덕분이다. 지리 정보보다 시간 정보의 정확도가 낮은 것도 흥미롭다. 텍스트에서 공간은 명시적으로 자주 언급된다. "파리는 프랑스에 있다"는 문장은 넘쳐나지만, "나폴레옹은 1769년에 태어났다"는 문장은 상대적으로 드물다. 언어 자체가 공간에 대해 더 수다스럽다는 뜻이다. AI 도구에는 어떤 도움이 될까 이 연구는 단순히 흥미로운 실험에 그치지 않는다. 실용적인 메시지도 담고 있다. 첫 번째는 비용과 효율이다. 요즘 챗GPT(ChatGPT)나 클로드(Claude) 같은 최신 대형 언어모델(LLM)은 수천억 개의 매개변수(parameter, AI가 학습하는 숫자 단위)를 가진다. 돌리려면 엄청난 전기와 서버가 필요하다. 하지만 이번 연구는 특정 작업에서는 300개 차원의 단순 단어 좌표만으로도 충분하다는 것을 보여줬다. 여행지 추천 앱이 도시 간 유사도를 계산하거나, 역사 문서를 시대별로 묶는 작업이라면 굳이 비싼 최신 AI를 쓸 필요가 없다는 뜻이다. 이는 전기 요금이나 서비스 비용을 크게 낮출 수 있다. 두 번째는 AI 연구 방법론의 경고다. 지금까지 많은 연구자들이 최신 AI의 내부 상태에서 지리나 시간 정보를 꺼낼 수 있다는 걸 발견하고 "AI가 세계 지도 같은 내부 모델을 만들었다"고 주장해왔다. 대표적으로 거니와 테그마크(Gurnee and Tegmark)가 2024년 라마-2(Llama-2)라는 대형 AI를 분석해 이런 주장을 펼쳤다. 바렌홀츠 교수 연구팀은 같은 방법으로 10년 전 기술을 분석해도 비슷한 결과가 나온다는 걸 보여주며 이렇게 말한다. "탐지기로 정보를 꺼낼 수 있다는 사실만으로는 AI가 진짜로 세계를 이해한다고 말할 수 없다." 냉장고 비유를 생각해보자. 냉장고에서 음식 냄새가 난다고 해서 냉장고가 요리를 이해한다고 말하진 않는다. 냄새는 그냥 음식이 거기 있었다는 흔적이다. AI에서 지리 정보가 나온다는 것도, 텍스트 원래부터 그 패턴이 있었다는 흔적일 수 있다. 세 번째는 언어 자체에 대한 새로운 시각이다. 이 연구가 진짜 놀라운 이유는 AI의 한계를 보여주는 게 아니라, 인간 언어의 풍부함을 새롭게 발견했기 때문이다. 우리가 매일 쓰는 문장들이 쌓이면 그 안에 지리, 기후, 역사가 고스란히 담긴다. 언어는 세상의 압축본이다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 이 연구는 챗GPT 같은 AI가 세상을 이해 못 한다는 뜻인가요? A. 꼭 그렇지는 않습니다. 이 연구는 AI가 지리나 시간 정보를 보여준다는 증거가 사실 텍스트 속에 원래부터 있던 패턴일 수 있다고 지적합니다. AI가 진짜로 세상을 이해하는지, 아니면 단어 패턴을 재현하는지는 여전히 학계에서 논의 중입니다. 다만 탐지기로 정보를 꺼낼 수 있다는 사실만으로 '진짜 이해'를 증명할 수는 없다는 것이 이 연구의 핵심입니다. Q. 10년 된 기술로도 된다면 굳이 최신 AI를 써야 하나요? A. 용도에 따라 다릅니다. 오래된 단어 통계 기술은 맥락을 구분하지 못합니다. '사과'가 과일인지 애플(Apple) 회사인지 모르고, 문장을 만들거나 대화를 이어가는 것도 불가능합니다. 최신 AI는 이런 복잡한 맥락 이해와 생성 능력에서 압도적으로 뛰어납니다. 단, 도시 유사도 비교나 시대 분류처럼 단순한 작업이라면 굳이 비싼 AI를 쓸 필요가 없을 수 있습니다. Q. 이 연구 결과가 실생활에서 어떻게 도움이 되나요? A. 여행 앱, 역사 교육 콘텐츠, 문서 자동 분류 시스템 같은 서비스를 만들 때 훨씬 저렴하고 가벼운 기술을 선택할 수 있다는 힌트를 줍니다. 또한 AI를 연구하는 분들이라면, 새로운 AI 실험 결과를 해석할 때 "이게 진짜 새로운 능력인가, 아니면 텍스트에 원래 있던 패턴인가"를 꼭 비교해봐야 한다는 교훈을 얻을 수 있습니다. 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 논문명: World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.09 13:35AI 에디터

AI도 시험 도중 실수를 고친다…5배 빠른 학습의 비밀

어떤 학생은 시험지를 한 번 훑고 바로 제출한다. 또 다른 학생은 풀이 과정을 천천히 되짚으며 틀린 부분을 고쳐 나간다. 당연히 후자가 더 좋은 점수를 받는다. 카네기멜론대학교(Carnegie Mellon University)와 바르샤바대학교(University of Warsaw) 공동 연구팀이 2026년 3월 공개한 논문은 AI도 이 두 번째 학생처럼 행동하도록 만드는 방법을 규명했다. '플로우 매칭(Flow Matching)'이라는 기법을 강화학습(Reinforcement Learning)에 적용하면 AI가 기존보다 최종 성능이 2배 높고 학습 속도는 5배 빠르다는 것이다. 더 놀라운 건 그 이유가 지금껏 학계가 믿어왔던 설명과 전혀 달랐다는 점이다. AI가 공부하다 갑자기 멍청해지는 이유 강화학습은 AI가 시행착오를 반복하며 스스로 최적의 행동을 터득하는 방식이다. 로봇이 걷는 법을 익히거나, 게임에서 전략을 배우거나, 자율주행차가 도로 상황에 적응하는 것이 모두 이 방식으로 이루어진다. 이때 AI의 판단을 평가하는 역할을 맡은 부분을 '비평가(Critic)'라고 부른다. 비평가는 AI가 어떤 행동을 했을 때 미래에 얼마나 좋은 결과를 얻을 수 있는지 점수를 매긴다. 그런데 기존의 '단일 구조 비평가(Monolithic Critic)'에는 심각한 문제가 있다. 학습이 거듭될수록 오히려 성능이 떨어지는 현상이 나타나는 것이다. 연구팀은 이를 '가소성 상실(Loss of Plasticity)'이라고 부른다. 가소성이란 AI가 새로운 정보를 유연하게 흡수하는 능력을 뜻한다. 마치 오래된 칠판처럼, 새 내용을 쓰려면 예전 내용이 지워져야 하는데 그 과정에서 중요한 것들이 함께 사라져버리는 것이다. 논문의 서론에 따르면 이 현상은 목표값이 계속 바뀌는 'TD 학습(Temporal Difference Learning)' 환경에서 특히 두드러진다. AI가 미래 보상을 예측하며 학습하는 핵심 메커니즘인 TD 학습은, 목표 자체가 움직이는 탓에 AI 내부 표현이 불안정해진다는 것이다. 정답을 한 번에 내놓지 않고 조금씩 다듬는 방식의 등장 플로우 매칭 비평가는 이 문제를 완전히 다른 방식으로 접근한다. 핵심은 '반복 계산(Iterative Computation)'이다. 기존 비평가가 입력값을 받아 단번에 점수를 출력한다면, 플로우 매칭 비평가는 처음의 불확실한 추정에서 출발해 여러 단계를 거치며 점진적으로 답을 다듬는다. 연구팀은 이 과정에서 초기 단계의 오류가 이후 단계를 거치며 자동으로 교정된다는 사실을 발견했고, 이를 '테스트 시점 복구(Test-time Recovery)'라고 이름 붙였다. 구체적으로 설명하면 이렇다. 플로우 매칭 비평가는 '속도장(Velocity Field)'이라는 개념을 학습한다. AI는 처음에 무작위에 가까운 초기값에서 출발해, 여러 번의 적분(Integration) 계산을 거치며 최종 예측값에 도달한다. 이 경로 전체를 훈련 단계에서 촘촘하게 지도 감독(Dense Supervision)하기 때문에, 초기에 오류가 생기더라도 이후 단계에서 수정이 가능하다. 논문 5장의 이론 분석에 따르면 통합 단계 수가 늘어날수록 오류 감쇠율이 단계 수의 음의 거듭제곱에 비례해 줄어든다. 즉 단계를 많이 밟을수록 초기 실수의 영향이 기하급수적으로 줄어드는 것이다. 논문의 실험 결과는 이를 직접 증명한다. 연구팀은 일부러 초기 통합 단계에 낡은 정보를 주입하는 실험을 했다. 놀랍게도 플로우 매칭 비평가는 처음 50%의 단계에서 낡은 정보를 사용했음에도 오히려 성능이 더 좋거나 비슷하게 유지됐다. 반면 기존 단일 구조 비평가는 이런 개입에 즉시 성능이 급락했다. 분포를 배우기 때문이라는 기존 통설은 틀렸다 플로우 매칭이 강화학습에 효과적이라는 사실은 이미 알려져 있었다. 그런데 그 이유에 대해 학계는 오랫동안 잘못된 설명을 믿어왔다. 많은 선행 연구들은 플로우 매칭이 단순히 평균값 하나가 아니라 보상이 나타날 수 있는 전체 확률 분포를 학습하기 때문에 효과적이라고 주장했다. 이를 '분포 강화학습(Distributional RL)'이라고 부른다. 연구팀은 이 가설을 직접 검증하기 위해 통제 실험을 설계했다. 플로우 매칭 구조는 동일하게 유지하되, 분포를 명시적으로 학습하는 방식과 평균값만 학습하는 방식을 비교한 것이다. 결과는 예상을 뒤집었다. 분포를 명시적으로 학습하는 방식이 오히려 성능을 떨어뜨렸다. 연구팀이 floq라고 이름 붙인 플로우 매칭 비평가 방식은 평균값만 목표로 삼으면서도 일관되게 더 나은 성능을 보였다. 논문 4장은 이 결과를 바탕으로 분포 강화학습은 플로우 매칭 성공의 이유가 아니라고 결론 내린다. 진짜 이유는 분포 모델링이 아니라, 통합 경로를 따라 속도장을 촘촘하게 훈련하는 구조 자체에 있었다. 뇌를 얼려도 망가지지 않는 AI의 유연한 기억 플로우 매칭의 두 번째 강점은 '가소성 보존(Plasticity Preservation)'이다. 논문 6장의 이론 분석은 이를 수학적으로 증명한다. 단일 구조 비평가는 새로운 목표값을 학습하려면 반드시 기존에 저장된 특징(Feature)을 덮어써야 한다. 반면 플로우 매칭 비평가는 특징 자체를 바꾸지 않고도 '이득 매개변수(Gain Parameter)'를 조정하는 것만으로 새로운 목표에 적응할 수 있다. 기존에 배운 내용은 그대로 두고, 각 내용에 부여하는 가중치만 재조정하는 방식이다. 연구팀은 극단적인 실험으로 이를 확인했다. AI 신경망의 초기 층들을 완전히 얼려버린 뒤 학습을 계속하는 것이다. 기존 단일 구조 비평가는 레즈넷(ResNet) 구조나 트랜스포머(Transformer) 구조를 써도 거의 예외 없이 성능이 0에 가깝게 붕괴했다. 반면 플로우 매칭 비평가는 층이 얼어붙은 상태에서도 학습을 이어가며 거의 동일한 수준의 성능을 회복했다. 마치 기억의 특정 부분이 손상된 상태에서도 다른 회로를 활용해 기능을 유지하는 뇌처럼, 플로우 매칭 비평가는 이미 학습된 특징들을 다시 조합해 새로운 문제에 대응할 수 있었다. 극한의 학습 환경에서 검증된 5배 빠른 효율 연구팀은 이 장점이 실제 학습 성능으로 이어지는지 검증하기 위해 높은 업데이트-데이터 비율(High UTD, Update-to-Data ratio) 환경을 테스트했다. 이는 새로운 데이터가 적게 들어오는데 학습 업데이트는 매우 자주 해야 하는, 가소성 상실이 가장 극심하게 나타나는 조건이다. 로봇 제어나 자율주행처럼 실시간으로 경험을 쌓으면서 빠르게 학습해야 하는 현실 환경과 유사하다. 실험 결과 floq는 UTD 비율이 32, 64, 128로 높아질수록 기존 단일 구조 비평가와의 격차가 벌어졌다. 많은 환경에서 최종 성능은 약 2배, 동일한 성능에 도달하는 데 필요한 학습 데이터량은 약 5배 적게 들었다. 더욱이 기존 비평가가 높은 UTD 환경에서 학습이 불안정해지거나 성능이 갑자기 무너지는 현상을 보인 반면, 플로우 매칭 비평가는 UTD 128이라는 극한 조건에서도 안정적인 학습 곡선을 유지했다. 논문은 마지막으로 이 원리가 대형 언어 모델(LLM)의 연쇄 추론(Chain-of-Thought)과 유사하다고 지적한다. LLM이 단번에 답을 내놓는 대신 여러 추론 단계를 밟을수록 정확도가 올라가는 것처럼, 플로우 매칭 비평가도 통합 단계가 늘어날수록 더 정교한 예측이 가능해진다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 플로우 매칭이 일반 사람들의 일상에서 쓰이는 AI를 어떻게 바꾸나요? A. 플로우 매칭 기술은 AI가 새로운 환경에 더 빠르게, 더 안정적으로 적응하도록 만듭니다. 예를 들어 자율주행차가 처음 가는 도로에서 실수를 줄이거나, 의료 AI가 최신 임상 데이터를 반영해 진단 정확도를 빠르게 높이는 등 실생활 AI 서비스의 신뢰도와 반응 속도를 높이는 데 직접 기여합니다. Q2. 가소성 상실이 왜 문제가 되나요? A. AI가 새로운 것을 배우려면 기존에 저장된 정보를 덮어써야 하는 경우가 생깁니다. 이 과정이 반복되면 AI는 이전에 잘하던 것도 잊어버리고 현재 목표에만 과도하게 맞춰지게 됩니다. 마치 단기 기억만 남고 장기 기억이 사라지는 것처럼, 시간이 지날수록 오히려 전체 성능이 떨어지는 현상이 나타납니다. Q3. 이 연구가 로봇이나 자율주행 같은 실제 기술에 얼마나 빨리 적용될 수 있나요? A. 이번 연구는 이론적 증명과 실험을 모두 갖춘 기초 연구입니다. 현재 로봇 제어와 오프라인-온라인 혼합 강화학습 환경에서 이미 유의미한 성능 향상이 확인됐습니다. 다만 실제 제품에 탑재되려면 다양한 환경에서의 추가 검증과 공학적 최적화 과정이 필요합니다. 기사에 인용된 논문 원문은 arXiv에서확인할 수 있다. 논문명: What Does Flow Matching Bring To TD Learning? ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.06 19:28AI 에디터

구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방

구글(Google)이 자사 AI 검색 기능인 AI 모드(AI Mode)에서 '캔버스(Canvas)' 기능을 미국 전체 영어 사용자에게 전면 개방했다. 테크크런치(TechCrunch)에 따르면, 구글은 지난해 구글 랩스(Google Labs) 실험 프로젝트로 처음 선보인 캔버스를 이번에 AI 모드를 통해 일반 사용자까지 확대 적용했다. 캔버스는 사용자가 프로젝트를 정리하거나 깊이 있는 조사를 수행할 수 있도록 설계된 도구다. 이번 업데이트를 통해 구글 검색 내에서 직접 문서를 작성하거나 맞춤형 도구를 만드는 기능도 지원된다고 구글은 공식 블로그를 통해 밝혔다. 구글은 기존에도 캔버스를 수업 자료를 업로드해 학습 가이드를 만들거나, 리서치 보고서를 웹페이지·퀴즈·오디오 요약본으로 변환하는 용도로 활용할 수 있다고 소개한 바 있다. 이 기능은 구글의 리서치 도구인 노트북 LM(Notebook LM)과 일부 겹치는 부분도 있다. 사용자는 캔버스에 아이디어를 입력하면 해당 내용이 공유 가능한 앱이나 게임으로 변환되는 코드가 자동 생성되는 과정을 실시간으로 확인할 수 있다. 창작물 초고를 다듬거나 프로젝트에 대한 피드백을 받는 용도로도 활용 가능하다. 캔버스는 구글 AI 프로(Google AI Pro)와 구글 AI 울트라(Google AI Ultra) 구독자를 대상으로 제미나이(Gemini) 앱에서 이미 제공되고 있었다. 해당 구독자들은 최신 모델인 제미나이 3(Gemini 3)와 복잡한 프로젝트에 유리한 100만 토큰(token) 규모의 컨텍스트 창(context window)을 이용할 수 있다. 캔버스가 AI 모드를 통해 미국 전체 사용자에게 열리면서, 기존에 제미나이를 사용해본 적 없는 사람들도 이 기능을 접할 수 있게 됐다. 테크크런치는 이를 두고 AI 경쟁에서 구글이 갖는 핵심 강점으로 분석했다. 수십억 명이 사용하는 구글 검색의 규모 덕분에 새로운 기능을 빠르게 대중에게 노출시킬 수 있다는 것이다. 캔버스를 사용하려면 AI 모드 내 도구 메뉴(+)에서 캔버스 옵션을 선택한 뒤 원하는 내용을 입력하면 된다. 사이드 패널(side panel)이 열리면서 웹과 구글 지식 그래프(Knowledge Graph)의 정보를 불러올 수 있다. 앱이나 프로토타입(prototype)을 만드는 경우 기능을 직접 테스트하거나 기반 코드를 확인하고, 제미나이와 대화하며 수정도 가능하다. 오픈AI(OpenAI)와 앤트로픽(Anthropic)도 유사한 기능을 제공하지만 작동 방식은 다르다. 챗GPT(ChatGPT)의 캔버스는 질문 내용에 따라 자동으로 실행되는 반면, 구글과 앤트로픽의 클로드(Claude)는 사용자가 직접 기능을 선택해야 한다. 세 서비스 모두 글쓰기 지원과 아이디어를 프로젝트로 발전시키는 기능은 공통으로 제공한다. 자세한 내용은 테크크런치(TechCrunch)에서 확인할 수 있다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 21:23AI 에디터

말만 하면 AI가 생각을 정리해주는 시대…'오럴리티'가 바꾸는 사고의 방식

회의 중 떠오른 아이디어를 메모하려다 놓친 경험이 있는가? 복잡한 생각을 정리하려고 키보드 앞에 앉았지만 막상 어디서부터 써야 할지 막막했던 적은? 홍콩시립대학교 연구팀이 개발한 '오럴리티(Orality)'는 이런 고민을 해결하는 새로운 방식의 AI 도구다. 사용자가 말로 생각을 쏟아내기만 하면, AI가 자동으로 핵심 내용을 추출해 연결 구조를 시각화하고, 심지어 사고의 모순까지 찾아낸다. 2026년 CHI 컨퍼런스에 발표될 이 연구는 12명의 참가자를 대상으로 한 실험에서 기존 챗GPT 음성 대화보다 생각 정리에 더 효과적이라는 결과를 입증했다. 생각을 말로 꺼내는 순간, AI가 지도로 그려낸다 오럴리티의 핵심은 '음성을 통한 생각의 외부화'다. 연구팀은 사람들이 생각을 정리할 때 머릿속에만 담아두는 것보다 밖으로 꺼내는 것이 훨씬 효과적이라는 확장 인지 이론(Extended Cognition)에 주목했다. 이 이론에 따르면 스케치, 메모, 다이어그램 같은 외부 도구는 우리 인지 과정의 일부가 된다. 음성은 특히 강력한 외부화 수단이다. 타이핑이나 그림 그리기보다 훨씬 빠르고 자연스럽게 머릿속 생각을 쏟아낼 수 있기 때문이다. 심리학 연구에서도 '소리 내어 생각하기(Think-Aloud)' 방법이 문제 해결 능력을 향상시킨다는 사실이 오래전부터 입증됐다. 하지만 문제가 있었다. 말로 표현한 내용은 선형적이고 비구조적이어서 나중에 다시 보고 정리하기 어렵다는 점이다. 오럴리티는 이 문제를 대형 언어 모델(LLM)을 활용해 해결했다. 사용자가 음성 입력 위젯을 통해 생각을 말하면, 시스템은 음성을 텍스트로 변환한 뒤 의미 분석을 수행한다. 그리고 핵심 정보를 추출해 노드(점)와 링크(선)로 이루어진 다이어그램을 캔버스에 자동으로 그려낸다. 마치 복잡하게 얽힌 실타래를 AI가 대신 풀어주는 셈이다. Figure 2.Our conceptual FRAMEwork for self thought clarification process 단순 녹음이 아니라 '생각의 구조'를 보여주는 캔버스 기존 음성 인식 도구들과 오럴리티의 가장 큰 차이는 '구조화'에 있다. 오터닷에이아이(Otter.ai)나 줌(Zoom) 같은 도구들도 음성을 텍스트로 변환하고 요약을 제공한다. 하지만 이들은 여전히 선형적인 텍스트 형태로 결과를 보여준다. 연구팀의 사전 조사(Formative Study)에서 참가자들은 이런 선형 구조가 비선형적으로 흐르는 자신의 사고방식과 맞지 않는다고 지적했다. 오럴리티는 이 문제를 '의미적 캔버스(Semantic Canvas)'로 해결한다. 사용자가 말한 내용은 단순히 위에서 아래로 나열되지 않는다. 대신 주제별로 묶이고, 관련된 개념들끼리 선으로 연결되며, 공간적으로 배치된다. 사용자는 이 노드들을 마우스로 드래그해 위치를 바꾸거나, 음성 명령으로 "비슷한 주제끼리 다시 묶어줘"라고 요청할 수 있다. 마치 화이트보드에 포스트잇을 붙이고 옮기며 생각을 정리하는 것과 비슷하지만, AI가 자동으로 내용을 분류하고 연결해준다는 점이 다르다. 이 시스템은 피롤리와 카드(Pirolli and Card)의 센스메이킹(Sensemaking) 모델을 개인의 사고 정리 맥락에 맞게 재구성한 4단계 프레임워크를 기반으로 설계됐다. 첫 번째 단계는 '생각 외부화 계층'으로 음성 입력을 지원한다. 두 번째는 '구조화 및 도식화 계층'으로 노드 기반 데이터 표현을 제공한다. 세 번째는 'AI 기반 심화 계층'으로 사고의 공백과 모순을 찾아낸다. 마지막은 '성찰 및 발표 계층'으로 최종 결과물을 정리하고 내보낼 수 있게 한다. AI가 던지는 질문이 생각의 깊이를 더한다 오럴리티의 또 다른 강점은 '사고 자극 기능(Thought Stimulation)'이다. 단순히 사용자가 말한 내용을 정리하는 데 그치지 않고, AI가 능동적으로 생각을 확장하도록 돕는다. "질문해줘(Ask Me Questions)" 버튼을 누르면 시스템이 현재 캔버스의 내용을 분석해 사용자가 미처 생각하지 못한 측면에 대한 질문을 생성한다. 예를 들어 창업 아이디어를 정리하는 중이라면 "목표 고객층은 누구인가요?" 같은 질문이 노드 형태로 캔버스에 추가된다. "모순 보여줘(Show Me Conflicts)" 기능도 흥미롭다. 사용자가 말한 내용 중 논리적으로 충돌하는 부분을 AI가 자동으로 감지해 해당 노드들을 빨간 선으로 연결한다. 예를 들어 "비용을 최소화하고 싶다"는 노드와 "최고급 재료를 쓰고 싶다"는 노드가 있다면, 시스템은 이 둘 사이의 모순을 지적한다. 이는 자신의 생각에서 일관성 없는 부분을 발견하고 재고하는 데 도움을 준다. "생각의 진화(Thought Evolution)" 기능은 시간에 따라 캔버스가 어떻게 변화했는지 시각적으로 보여준다. 처음 몇 개의 노드로 시작했던 아이디어가 점차 확장되고 재구조화되는 과정을 되돌아볼 수 있다. 이는 메타인지(Metacognition), 즉 자신의 사고 과정을 인식하고 평가하는 능력을 강화한다. 챗GPT 음성 대화보다 2배 이상 효과적 연구팀은 오럴리티의 효과를 검증하기 위해 12명의 참가자를 대상으로 실험을 진행했다. 참가자들은 오럴리티와 음성 대화 기능이 있는 챗GPT(커스텀 프롬프트로 개요와 개념도 생성 기능 추가)를 각각 사용해 자신의 생각을 정리하는 과제를 수행했다. 결과는 명확했다. 참가자 12명 중 10명이 오럴리티가 사고 과정을 더 잘 지원한다고 답했다. 특히 "생각을 명확히 하는 데 도움이 됐다"는 항목에서 오럴리티는 평균 4.5점(5점 만점)을 받았고, 챗GPT는 3.2점에 그쳤다. 참가자들은 "캔버스에서 노드를 직접 옮기며 생각을 재배치할 수 있어서 좋았다", "AI가 생성한 질문 덕분에 미처 생각하지 못한 부분을 발견했다"고 평가했다. 반면 챗GPT는 대화가 길어질수록 맥락을 잃고, 장황한 답변으로 오히려 핵심을 흐린다는 지적을 받았다. 한 참가자는 "챗GPT는 계속 새로운 정보를 추가하지만, 내 원래 생각이 뭐였는지 되돌아보기 어려웠다"고 말했다. 선형적인 채팅 인터페이스는 생각의 그물망 같은 연결 구조를 표현하기에 적합하지 않았던 것이다. 기능별 유용성 평가에서도 오럴리티의 "질문 생성" 기능과 "모순 감지" 기능은 각각 4.3점과 4.1점을 받으며 높은 점수를 기록했다. 참가자들은 특히 모순 감지 기능이 자신의 논리적 오류를 발견하는 데 유용했다고 평가했다. 회의실에서 교실까지, 확장되는 활용 가능성 오럴리티의 활용 가능성은 개인의 생각 정리를 넘어선다. 연구팀은 이 시스템이 회의, 브레인스토밍, 교육, 연구 등 다양한 맥락에서 사용될 수 있다고 제안한다. 예를 들어 팀 회의에서 참가자들이 각자 아이디어를 말하면, 오럴리티가 실시간으로 내용을 정리하고 시각화해 공유 캔버스를 만들 수 있다. 학생들은 복잡한 개념을 공부하며 자신의 이해를 음성으로 설명하고, 시스템이 생성한 질문을 통해 학습 공백을 메울 수 있다. 연구자들에게도 유용하다. 논문 아이디어를 구상하거나 연구 질문을 다듬을 때, 오럴리티를 사용해 초기 생각을 빠르게 외부화하고 구조화할 수 있다. 시스템이 생성한 질문은 연구 설계에서 놓친 변수나 가설을 발견하는 데 도움을 준다. 다만 연구팀은 몇 가지 한계도 인정한다. 현재 오럴리티는 개인 사용에 초점을 맞췄지만, 실시간 협업 기능은 아직 완전히 구현되지 않았다. 또한 음성 인식의 정확도는 사용자의 발음, 배경 소음, 언어에 따라 달라질 수 있다. 연구팀은 향후 다국어 지원과 협업 기능 강화를 계획하고 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 오럴리티는 어떤 언어를 지원하나요? A. 현재 논문에서는 영어 기반 실험 결과만 공개됐지만, 대형 언어 모델(LLM)을 기반으로 하기 때문에 다국어 지원이 기술적으로 가능합니다. 연구팀은 향후 한국어를 포함한 다양한 언어로 확장할 계획입니다. Q. 오럴리티를 실제로 사용할 수 있나요? A. 오럴리티는 현재 연구 단계의 프로토타입입니다. 2026년 CHI 컨퍼런스 발표 이후 상용화 여부나 공개 일정은 아직 발표되지 않았습니다. 관심 있는 사용자는 연구팀 웹사이트나 논문을 통해 향후 소식을 확인할 수 있습니다. Q. 챗GPT 음성 모드와 오럴리티의 가장 큰 차이는 무엇인가요? A. 챗GPT는 대화 내용이 위에서 아래로 나열되는 선형 구조인 반면, 오럴리티는 말한 내용을 주제별로 묶고 관계를 시각화하는 비선형 캔버스를 제공합니다. 사용자가 노드를 직접 옮기고 재배치할 수 있어 능동적인 사고 정리가 가능하며, AI가 생성한 질문과 모순 감지 기능으로 생각의 깊이를 더할 수 있습니다. 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 논문명: Orality: A Semantic Canvas for Externalizing and Clarifying Thoughts with Speech ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 21:22AI 에디터

AI가 연구자 대신 논문 댓글까지 분류…6천원에 5만 건 처리

인공지능(AI)이 인간 코더를 대체할 수 있을까. 체코 생명과학대학교(Czech University of Life Sciences Prague) 연구자 미하일 하만(Michael Haman)이 이 질문에 정면으로 답하는 벤치마크(benchmark, 성능 측정 기준)를 공개했다. 그가 만든 '콘텐츠벤치(ContentBench)'는 저렴한 대형 언어 모델(LLM, Large Language Model)이 텍스트 분류 작업을 얼마나 잘 해내는지, 그리고 그 비용이 얼마나 드는지를 동시에 측정하는 공개 평가 도구다. 결과는 놀라웠다. 최고 성능 모델은 99.8%의 정확도로 텍스트를 분류했고, 5만 건의 게시물을 처리하는 데 5달러(약 7,000원)도 채 들지 않았다. 인간 코더가 하던 일, AI가 초저가로 대체한다 사회과학 연구에서 '내용 분석(content analysis)'은 텍스트에서 의미를 추출하는 핵심 방법론이다. 뉴스 기사, 소셜미디어 게시물, 온라인 댓글을 분석해 어떤 내용인지 분류하는 작업을 말한다. 전통적으로 이 일은 훈련받은 인간 연구자들이 직접 텍스트를 읽고 분류 기준을 적용하며 의견 불일치를 협의하는 방식으로 이루어졌다. 비용이 많이 들고, 느리며, 대규모로 확장하기 어려운 작업이었다. 대형 언어 모델은 분류 한 건당 몇 분의 1센트(cent) 비용으로 인간 코더가 몇 분 걸리는 작업을 단 몇 초 만에 처리할 수 있다. 이 모델들이 해석적 분류 범주에서 충분한 수준의 일치도를 달성한다면, 인간 코딩의 경제적·실용적 근거는 크게 흔들릴 수밖에 없다. 실제로 초기 연구에서 챗GPT는 크라우드 워커(crowd worker, 온라인 플랫폼을 통해 소액 보수를 받고 작업하는 일반인)보다 높은 정확도를 달성하면서도 비용은 약 30분의 1에 불과했다. 59개 모델을 줄 세운 콘텐츠벤치의 탄생 하만 연구자가 만든 콘텐츠벤치는 단순한 성능 비교표가 아니다. 버전 관리가 되는 데이터셋, 고정된 분류 프롬프트, 투명한 평가 기준을 갖춘 공개 벤치마크 모음이다. 누구나 자신의 모델이나 인간 코더를 같은 조건에서 테스트하고 결과를 비교할 수 있다. 첫 번째 평가 트랙인 '콘텐츠벤치-리서치토크 v1.0(ContentBench-ResearchTalk v1.0)'은 학술 연구에 대한 소셜미디어 스타일 게시물 1,000개를 다섯 가지 범주로 분류하는 과제다. 다섯 범주는 칭찬(genuine praise), 비판(genuine critique), 빈정거림(sarcastic critique), 질문(neutral query), 절차적 진술(procedural statement)이다. 여기서 빈정거림이란 겉으로는 긍정적인 언어를 사용하지만 실제로는 비판하는 아이러니한 표현을 말한다. 기준 레이블(reference label, 정답 기준)은 최첨단 추론 모델 세 가지, 즉 GPT-5, 제미나이 2.5 프로(Gemini 2.5 Pro), 클로드 오퍼스 4.1(Claude Opus 4.1)이 만장일치로 동의할 때만 부여된다. 세 모델 모두 동의한 게시물만 데이터셋에 포함시키는 보수적인 기준을 적용한 것이다. 이렇게 선별된 데이터로 59개 저비용 모델의 성능을 측정했다. 구글의 독주, 그리고 빈정거림 앞에서 무너지는 소형 모델 1위는 구글(Google)의 제미나이 2.5 플래시 프리뷰(Gemini 2.5 Flash Preview)로, 99.8%의 일치도를 기록했다. 5만 건 처리 비용은 5.10달러(약 7,200원)다. 2위 역시 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)로 99.6%를 기록했다. 5위 오픈AI(OpenAI)의 GPT-5 미니(GPT-5 Mini)는 99.0%의 일치도를 보였고, 6위 중국 기업 지푸AI(Zhipu AI)의 GLM 4 32B는 98.7%로 뒤를 이었다. 메타(Meta)의 라마 4 매버릭(Llama 4 Maverick)도 98.4%로 7위에 올랐다. 반면 소형 오픈소스 모델은 특히 빈정거림 탐지에서 처참한 성적을 보였다. 예를 들어 라마 3.2 3B(Llama 3.2 3B)는 어려운 빈정거림 항목에서 4%의 일치도에 그쳤다. 59개 모델 전체의 평균을 봐도 빈정거림 범주의 평균 재현율(recall, 정답을 맞힌 비율)은 0.52에 불과했는데, 이는 다른 네 범주의 평균 재현율이 0.93~0.96인 것과 극명하게 대비된다. 왜 빈정거림이 이렇게 어려울까. 논문에 실린 예시를 보면 이해가 쉽다. "두 분 마음 챙김 명상이 시험 성과를 향상시킨다"는 논문에 대해 "100점 만점 테스트에서 통계적으로 유의미한 0.8점 향상(p=0.049), 효과 크기(effect size, 실험 효과의 크기를 나타내는 지표) d=0.08을 달성한 것은 우리에게 필요한 강력하고 확장 가능한 영향력의 모범 사례"라는 게시물이 있다. 인간이 읽으면 0.8점 향상을 극찬하는 게 명백한 빈정거림임을 바로 알아챈다. 하지만 AI 모델 59개 중 단 11개만이 이를 빈정거림으로 올바르게 분류했다. 나머지는 모두 진심 어린 칭찬으로 잘못 판단했다. 초기 챗GPT 대비 성능 격차, 이제는 비교 자체가 무의미 이번 연구에서 특히 주목할 지점은 초기 챗GPT 기반 모델과의 성능 비교다. GPT-3.5 터보(GPT-3.5 Turbo)는 균형 잡힌 핵심 데이터셋에서 79.6%의 일치도를 기록했다. 반면 현재 최상위 저비용 모델들은 97~99%대의 일치도를 달성했다. 수년 전 GPT-3.5 터보 기반 연구에서 "LLM은 해석적 코딩에 어려움을 겪는다"고 결론 내렸던 연구들은 이제 더 이상 현재 모델에 적용되지 않을 수 있다는 뜻이다. 비용 측면에서의 변화는 더욱 극적이다. 현재 가격 기준으로 상위 모델 여럿이 5만 건의 게시물을 단 몇 달러에 처리할 수 있다. 이는 대규모 해석적 코딩 작업의 실용적 가능성을 완전히 바꿔놓으며, 비용-성능 균형이 방법론적 의사결정의 핵심 요소가 되게 한다. 수백만 건의 소셜미디어 게시물을 의미 있는 범주로 분류하는 작업이 이제는 몇만 원대의 비용으로 가능해진 것이다. AI 코더가 연구실을 점령하기 전에 남은 과제들 그렇다고 인간 코더의 시대가 당장 끝났다는 뜻은 아니다. 연구자는 여러 중요한 한계를 솔직하게 인정한다. 콘텐츠벤치-리서치토크 v1.0은 영어로 된 짧은 게시물 다섯 가지 범주에 한정된 합성 데이터(실제 소셜미디어 데이터가 아닌 AI가 생성한 모의 데이터)를 사용했다. 다른 언어, 다른 도메인(domain, 특정 분야나 주제 영역), 더 복잡한 해석적 과제에서는 성능이 크게 달라질 수 있다. 또한 이번 연구의 기준 레이블 자체가 AI 모델 배심원단을 통해 만들어졌다는 점도 짚어야 한다. 훈련받은 인간 코딩팀이 만든 기준과 비교한 것이 아니므로, "AI가 인간만큼 잘한다"는 결론을 섣불리 내릴 수 없다. 연구자는 이를 명확히 인정하며 향후 트랙에서 인간 기준 레이블을 포함할 계획이라고 밝혔다. 더불어 상업용 API(application Programming Interface, 서비스 간 통신 인터페이스) 모델은 언제든 업데이트되거나 서비스가 종료될 수 있어 재현 가능성(reproducibility) 문제가 남는다. 오늘 99.8%를 달성한 모델이 내년에는 전혀 다른 결과를 낼 수도 있다. 이 때문에 연구자는 로컬 환경에서 직접 실행 가능한 오픈소스 모델을 차기 연구 목표로 삼고 있다. 현재로서는 소비자용 컴퓨터에서 실행 가능한 소형 모델이 빈정거림 같은 미묘한 언어 표현에서 여전히 크게 뒤처지는 상황이다. 콘텐츠벤치 프로젝트의 데이터, 리더보드(leaderboard, 성능 순위표), 대화형 퀴즈는 contentbench.github.io에서 누구나 확인하고 참여할 수 있다. 새로운 데이터셋을 보유한 연구자라면 새 트랙을 직접 기여할 수도 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 콘텐츠벤치(ContentBench)가 정확히 무엇인가요? A. 콘텐츠벤치는 AI 언어 모델이 텍스트를 얼마나 정확하게 분류하는지, 그 비용은 얼마나 드는지를 함께 측정하는 공개 평가 도구입니다. 누구나 자신의 모델이나 인간 코더를 동일한 조건에서 테스트하고 결과를 비교할 수 있도록 설계되었습니다. Q. AI가 빈정거림을 잘 못 잡아낸다는데, 왜 그런가요? A. 빈정거림은 겉으로는 칭찬하는 말을 쓰면서 실제로는 비판하는 표현 방식입니다. AI는 단어 자체의 의미에 의존하는 경향이 있어서, 긍정적인 단어로 이루어진 문장을 칭찬으로 잘못 분류하기 쉽습니다. 이번 연구에서도 소형 AI 모델은 빈정거림 탐지 정확도가 4%에 불과한 경우도 있었습니다. Q. AI가 연구자의 텍스트 분류 작업을 완전히 대체할 수 있나요? A. 아직은 아닙니다. 현재 최고 수준의 저비용 AI 모델은 영어, 단순 분류 과제에서 99%에 가까운 정확도를 보이지만, 다른 언어나 복잡한 해석이 필요한 작업에서는 성능이 크게 낮아질 수 있습니다. 전문가의 검증과 인간의 감수(監修) 과정은 여전히 필수적입니다. 기사에 인용된 리포트 원문은 arXiv에서확인할 수 있다. 논문명: Can Large Language Models Replace Human Coders? Introducing ContentBench ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

2026.03.05 11:04AI 에디터

  Prev 1 2 3 4 5 6 7 8 9 10 Next  

지금 뜨는 기사

이시각 헤드라인

"티켓 없어도 이미 모두가 축제"…BTS로 물든 서울의 밤

'K-온디바이스' 다크호스 모빌린트...자본·마케팅 장벽 넘을까

[써보고서] 덜어낸 것은 가격뿐…완성도 높인 '아이폰17e'

로저스 쿠팡 대표, 새벽배송 10시간 뛰더니...근무여건 강화 약속

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.