검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'강화학습'통합검색 결과 입니다. (7건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

UNIST 연구실 한곳서 세계 3대 AI학회 논문 3편 동시 발표

UNIST는 한승열 인공지능대학원 교수 연구팀 논문 3편이 오는 23일 브라질 리우데자네이루에서 열리는 표현학습국제학회(ICLR)에 채택됐다고 21일 밝혔다. ICLR은 신경정보처리시스템학회(NeurIPS), 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽힌다. UNIST 측은 "심사 기준이 까다로워 단일 연구실에서 3편의 논문이 동시에 채택된 것은 드문 사례"라고 말했다. 실제 올해 ICLR에는 전 세계에서 1만 9000여 편의 논문이 제출됐다. 이 중 약 27%인 5,300여 편만이 심사를 통과했다. 특정 연구실에서 논문 3편이 채택될 수학적 확률은 2%정도다. 논문 3편은 ▲자기 개선 스킬 학습법(SISL) ▲엄격한 하위 목표 실행(SSE)' 학습기술▲연속적 하위 가치 Q-러닝(S2Q) 등 모두 인공지능 분야 강화학습과 관련있다. 이상현, 황재박, 조용현 연구원이 각 연구의 제1저자로 참여했다.

2026.04.21 08:45박희범 기자

'알파고 쇼크' 10년…이세돌, AI와 다시 맞붙는다

기술과 인간 대결로 전 세계를 놀라게 했던 이세돌 9단이 10년 만에 다시 인공지능(AI) 앞에 선다. AI 에이전트로 바둑 모델을 직접 구축하고 대결까지 추진할 방침이다. 이세돌 9단은 9일 서울 종로구 포시즌스호텔에서 AI 스타트업 인핸스가 주최하는 행사에 참여한다. 이번 시연에서 이세돌 9단은 인핸스 솔루션으로 음성 명령을 통해 바둑 모델을 직접 설계·실행한다. 모델 실력 수준을 설정하거나 대국 흐름을 실시간으로 구성하는 방식으로 바둑 AI를 구동할 방침이다. 10년 전 이세돌 9단과 알파고 대결을 앞두고 다수 전문가들은 이세돌 9단 승리를 예상했다. 바둑 경우의 수가 약 10의 170승에 이르는 만큼 컴퓨터가 이를 모두 계산하기 어렵다고 봤기 때문이다. 그러나 알파고는 정책망과 가치망을 결합한 알고리즘으로 탐색 범위를 줄였다. 그 결과 4대 1 승리를 거두며 AI 기술 가능성을 입증했다. 이세돌 9단은 2019년 현역 은퇴를 선언했으며, 알파고를 비롯한 AI 기술은 빠르게 발전했다. 이후 구글 딥마인드는 트랜스포머 논문으로 멀티모달 AI 생태계 확장을 시작했다. 이후 2022년 시각 언어 모델 '플라밍고'를 공개했다. 이 모델은 이미지 정보를 이해하고 이를 언어로 설명하는 기능을 갖췄다. 같은 해 나온 모델 '가토'는 단일 AI로 텍스트 작성과 게임 수행, 로봇 팔 제어 등 600개 넘는 작업을 수행할 수 있도록 설계됐다. 알파고 낳은 구글 딥마인드, 멀티모달 시대 열다 구글 딥마인드는 알파고를 넘어 AI 연구를 한층 더 확장했다. 특히 구글 브레인과 딥마인드를 구글 딥마인드에 통합해 멀티모달 개발에 속도를 냈다. 우선 2023년 '제미나이 1.0'가 출시됐다. 당시 초기 버전부터 텍스트와 이미지, 오디오, 비디오를 동시에 학습한 '네이티브 멀티모달' 모델로 평가받았다. 이후 구글 딥마인드는 더 나아가 '프로젝트 아스트라'에 착수해 실시간 멀티모달 비서 시대를 열겠다는 포부를 밝혔다. 사용자가 스마트폰 카메라로 주변을 비추면 AI 비서가 사물을 실시간 식별해 원하는 물건을 찾아주는 기술을 만드는 것이 핵심이었다. 또 고해상도 비디오 생성 모델인 '베오'와 음작 제작 모델인 '리리아'를 통해 멀티모달 기술로 창작 생태계 영역을 넓히기도 했다. 구글 딥마인드는 '제미나이 3.1' 시리즈 중심으로 AI 생태계를 주도한다는 평을 받고 있다. 지난 3일 속도·비용 효율을 개선한 '제미나이 3.1 플래시 라이트'를 공개하며 모델 라인업을 확장했다. 최상위 모델 '제미나이 3.1 프로'는 복잡한 논리 추론과 심층 코딩 작업에 최적화된 모델로 평가된다. 또 사용자를 대신해 업무를 수행하는 에이전틱 AI 기능을 강화한 것이 특징이다. 시각 콘텐츠 생성에 특화된 모델도 등장했다. '제미나이 3.1 플래시' 기반으로 한 '나노 바나나 2'는 이미지와 시각 콘텐츠를 빠르게 생성하는 모델로 실시간에 가까운 제작 속도를 목표로 한다. '제미나이 3 딥 싱크' 모델은 과학 연구나 고난도 엔지니어링 문제 해결을 겨냥한 모델이다. 복잡한 사고 과정을 확장해 AI의 논리적 추론 능력을 강화하는 데 초점을 맞췄다. 최근 가장 주목받는 제미나이 모델 변화는 '싱킹 레벨(Thinking Levels)' 기능이다. 사용자가 AI 추론 깊이를 직접 조절해 간단한 질문부터 복잡한 전략 수립까지 필요한 연산 수준을 선택할 수 있도록 설계됐다. AI 모델, 세상 밖 나와...피지컬AI 개발 '시동' 구글 딥마인드가 2016년 알파고를 앞세워 AI 가능성을 제시했다면 현재 텍스트와 이미지 등 다양한 정보를 동시에 이해하고 현실 세계와 상호작용 하는 피지컬AI 역량 개발에 집중하고 있다. 현재 구글은 AI에 물리적인 팔과 다리를 붙여 '피지컬 AI' 생태계 구축하는 데 힘쓰고 있다. 대표 사례가 로봇 기술과 AI 모델을 결합한 'RT-2(Robotic Transformer 2)'다. 이 기술을 통해 AI가 추상적 언어 명령을 실제 물리 행동으로 전환하도록 힘쓰고 있다. 시각과 언어, 행동을 한 모델로 연결한 형태다. 구글 딥마인드는 휴머노이드 개발도 진행하고 있다. 올해 보스턴다이내믹스 휴머노이드 로봇 '아틀라스'에 제미나이 모델을 결합했다. 이를 통해 산업 현장에서 인간과 소통하며 작업할 수 있는 로봇 개발을 추진했다. 알파고와 대국했던 이세돌 9단은 최근 AI 기술 발전 속도에 대해 직접적인 체감을 밝혔다. AI 기반 프로그램 개발 환경이 과거와 비교할 수 없을 만큼 빨라졌다고 평가했다. 그는 지난 5일 서울대 과학학과와 한국과학기술학회가 주최한 대담에서 "에이전틱 AI는 알파고 같은 프로그램을 2~30분이면 만들 수 있는 시대가 됐다는 점을 확실히 느꼈다"고 밝혔다.

2026.03.09 12:50김미정 기자

KAIST·IBM, 차세대 AI 원리 제시…사람 뇌 메타학습 방법 첫 규명

KAIST와 IBM이 인간의 뇌가 생각하고 감정이나 행동을 조절하는 정보처리 방식을 처음 확인하고, 새로운 AI(인공지능) 강화학습 방향을 제시했다. KAIST는 뇌인지과학과 이상완 교수 연구팀이 IBM AI 연구소와 인간의 뇌가 목표 변화와 불확실한 상황을 처리하는 방식을 규명하고, 차세대 AI 강화학습이 나아가야 할 방향을 제시했다고 14일 밝혔다. 이상완 교수는 국내에서는 유일하게 인간의 지능을 AI의 틀 안에서 해석하는 새로운 패러다임의 연구를 진행 중이다. 최근 5년 간 이 분야에서 국내 및 해외 관련 특허를 50여 건 출원했다. 이 교수는 "사람은 갑작스러운 변화가 닥쳐도 금세 계획을 새로 세우고 목표를 조정하는 안정성과 유연성을 동시에 갖추고 있다. 그러나 이세돌 기사와 대국을 펼친 알파고를 비롯해 로봇 분야에 널리 사용되는 모델 프리 AI는 이러한 두 능력을 함께 구현하지 못한다"고 설명했다. 이 교수는 "그 이유가 전두엽의 독특한 정보 처리 방식에 있으며, 이 원리가 '뇌처럼 유연하고 안정적인 AI'를 만들 핵심 열쇠가 될 수 있음을 규명한 것"이라고 부연 설명했다. 연구팀은 기존 강화학습 모델들이 목표가 바뀌는 상황에서는 안정성이 떨어지고, 환경이 불확실하면 유연성이 부족해지는 한계가 있지만 인간은 두 요소를 동시에 달성한다는 점에 집중했다. 인간과 AI 차이가 전두엽이 정보를 표현하는 방식 자체에서 비롯된다고 본 것. 연구팀이 뇌 기능 MRI(fMRI) 실험, 강화학습 모델, AI 분석 기법을 활용한 결과, 인간 전두엽은 '목표 정보'와 '불확실성 정보'를 서로 간섭하지 않도록 분리해 저장하는 특별한 구조를 가지고 있음이 처음 밝혀졌다. 이런 구조가 뚜렷할수록 사람은 목표가 바뀌면 빠르게 전략을 바꾸고, 환경이 불확실해도 안정적인 판단을 유지했다. 연구팀은 이를 통신 기술의 멀티플렉싱(multiplexing)처럼 서로 다른 정보를 한 번에 처리하는 특징을 갖는다는 점도 확인했다. 이상완 교수는 "이렇게 인간의 전두엽은 목표가 바뀔 때마다 그 변화를 민감하게 추적해 의사결정의 유동성을 확보하는 '채널'이 있고, 동시에 또 다른 채널을 통해 환경의 불확실성을 분리해 안정적인 판단을 유지했다"고 말했다. 흥미로운 점은 전두엽이 첫 번째 채널을 통해 단순히 학습을 실행하는 수준을 넘어서, 두 번째 채널을 활용해 상황에 따라 어떤 학습 전략을 쓸지 스스로 고르는 역할까지 한다는 것이다. 연구팀은 전두엽이 단순히 학습을 실행하는 수준을 넘어, 상황에 따라 어떤 학습 전략을 사용할지 스스로 선택하는 '메타학습 능력'을 갖고 있다는 점을 보여줬다. 즉, 전두엽은 무엇을 배울지뿐 아니라 어떻게 배울지도 학습하는 구조를 가지고 있으며, 이것이 인간이 끊임없이 바뀌는 상황에서도 흔들리지 않는 이유다. 이 연구는 개인의 강화학습·메타학습 능력 분석, 맞춤형 교육 설계, 인지 능력 진단, 인간-컴퓨터 상호작용 등 다양한 분야에 활용될 수 있으며, 뇌 기반 표현 구조를 활용하면 '뇌처럼 생각하는 AI'기술로서 AI가 인간의 의도와 가치를 더 잘 이해해 위험한 판단을 줄이고 사람과 더 안전하게 협력하는 기술로 이어질 수 있다. 이상완 교수는 “이번 연구는 변화하는 목표를 유연하게 따라가면서도 안정적으로 계획을 세우는 뇌의 작동 원리를 AI 관점에서 규명한 성과이며, 이러한 원리가 앞으로 AI가 사람처럼 변화에 적응하고 더 안전하고 똑똑하게 학습하는 차세대 AI의 핵심 기반이 될 것”이라고 말했다. 연구는 성윤도 박사과정 학생이 1 저자, IBM AI 연구소 마티아 리고티(Mattia Rigotti) 박사가 2저자로 참여했다. 이상완 교수는 교신저자를 맡았다. 연구 결과는 국제 학술지 `네이처 커뮤니케이션스 (Nature Communications)'(11월 26일 자)에 게재됐다. 과학기술정보통신부 한계도전 R&D 프로젝트 사업 지원을 받아 수행됐다.

2025.12.14 12:00박희범 기자

美 실리콘밸리, AI 에이전트 미래 가를 'RL 환경' 각축전

미국 실리콘밸리에서 인공지능(AI) 에이전트 훈련을 위한 새로운 핵심 기술로 '강화학습(RL) 환경'이 급부상하고 있다. 챗GPT 에이전트나 퍼플렉시티의 코멧 등 현재 소비자용 AI 에이전트는 아직 한계가 뚜렷하다는 평가가 나온다. 이를 뛰어넘기 위해서는 다단계 작업을 반복 훈련할 수 있는 정교한 시뮬레이션 공간이 필요하다는 분석이다. 22일 테크크런치 등 외신에 따르면 주요 AI 연구소와 빅테크 기업들은 RL 환경을 자체적으로 구축하는 동시에 이를 전문적으로 공급할 수 있는 외부 업체에도 눈을 돌리고 있다. RL 환경은 AI가 실제 소프트웨어(SW)를 사용하는 상황을 가상으로 재현해 에이전트가 여러 단계를 거쳐 목표를 달성하도록 훈련시키는 가상의 작업장이다. 현재 시장에는 신생 스타트업부터 기존 데이터 라벨링 대기업까지 다양한 업체가 뛰어들고 있다. 스케일AI· 머코·서지 등은 기존 정적 데이터셋에서 한 단계 나아가 상호작용형 시뮬레이션으로 사업을 확장 중이다. 앤트로픽은 RL 환경 구축에만 내년에 10억 달러(약 1조3천억원) 이상을 투자하는 방안을 검토하는 것으로 알려졌다. 새롭게 주목받는 기업도 속속 등장하고 있다. AI 코딩 에이전트 훈련 환경을 공략하는 스타트업 메커나이즈는 엔지니어들에게 최대 50만 달러(약 6억원)의 연봉을 제시하며 인재 확보에 나섰다. 또다른 신생업체 프라임 인텔렉트는 안드레 카파시 등 유명 연구자와 벤처캐피털 투자를 등에 업고 오픈소스 생태계를 겨냥한 RL 환경 허브를 구축하며 허깅페이스와 같은 플랫폼을 지향하고 있다. 다만 RL 환경이 진정한 돌파구가 될지는 아직 미지수다. 막대한 연산 비용과 환경 확장성 부족이 여전히 난제로 꼽힌다. 오픈AI의 셔윈 우 엔지니어링 총괄은 최근 한 팟캐스트에서 "RL 환경을 구축하는 스타트업들에 대해 다소 부정적"이라고 평가하기도 했다. 그럼에도 업계 일부는 RL 환경이 AI 발전을 견인할 중요한 기반이 될 것으로 기대하고 있다. 스케일AI의 체탄 라네 제품 총괄은 "자율주행과 챗봇 시대를 거쳐 이제 RL 환경과 에이전트 영역으로 진화하는 것"이라고 강조했다. 로스 테일러 전 메타 AI 리서치 리드는 "RL 환경이 AI 발전의 차세대 엔진이 될지, 아니면 한계에 부딪힐지는 앞으로 1~2년 안에 판가름날 것"이라며 "실리콘밸리가 이 분야를 두고 치열한 경쟁에 나선 만큼 그 성패가 조만간 가려질 것"이라고 전망했다.

2025.09.22 13:42한정호 기자

[영상] 사람처럼 움직이는 로봇…AI로 배웠다

휴머노이드(인간형) 로봇 '아틀라스'가 인공지능(AI)으로 한층 더 자연스러운 움직임을 구사하고 있다. 보스턴다이내믹스는 로보틱스·AI연구소(RAI)와 지난달 시작한 강화학습 연구 성과를 담은 영상을 20일 공개했다. 영상 속 아틀라스는 팔로 땅을 딛고 일어서거나, 물구나무를 서는 등 사람의 움직임을 빼닮은 모습을 보여준다. 보스턴다이내믹스는 ▲시뮬레이션과 현실 간 간극 해소 ▲운동 중 조작능력 개선 ▲전신 연결을 통한 고성능 운동 탐구 등을 목표로 강화학습 훈련을 수행하고 있다.

2025.03.20 08:28신영빈 기자

[영상] "넘어져도 괜찮아"…끝없이 일어나는 中 휴머노이드 로봇

한번 넘어지면 일어나기 힘들었던 휴머노이드 로봇이 인공지능(AI) 기술로 사람처럼 일어나는 법을 배웠다. 과학전문매체 라이브사이언스는 4일(현지시간) 중국 상하이 자오퉁대학, 홍콩 대학 등 공동 연구진이 휴머노이드 로봇이 위치나 지형에 상관없이 복잡한 환경에서 일어설 수 있도록 해주는 AI 학습 프레임워크를 개발했다고 보도했다. 연구진은 중국 로봇사 유니트리의 G1 휴머노이드 로봇에 해당 프레임워크를 적용했다. 공개된 영상에서 두 발로 걷는 로봇이 바닥에 누워 있다가 벌떡 일어나고 벽이나 의자에 기대어 있다 일어나는 등의 다양한 동작을 취하는 것을 볼 수 있다. 또, 이 로봇은 돌길이나 나무 바닥, 경사면 등에 상관없이 부드럽고 안정적인 자세를 취했다. (▶영상 자세히 보기) 연구진들은 일어나려고 하는 로봇을 밀거나 발로 차는 등의 동작을 취해 일어서지 못하게 하기도 했다. 하지만 로봇은 이런 방해에도 불구하고 가뿐히 일어나는 데 성공했다. 이 로봇이 쓰러졌다가 다시 일어나는 이 놀라운 능력은 'HoST'(Humanoid Standing-up Control)이라는 시스템 덕분이다. 어떤 행동을 취하고 긍정적인 피드백을 받으면 추후 비슷한 상황에 처했을 때 다시 그 행동을 취하는 '강화학습'을 통해 훈련 받았다. 연구진은 더 구체적인 피드백을 주기 위해 4개의 별도 보상 그룹을 사용했고 불규칙하거나 격렬한 움직임을 막기 위해 속도 제한 등 동작 제약을 걸기도 했다. HoST 프레임워크는 엔비디아에서 개발한 물리 시뮬레이션 환경 '아이작 짐'(Isaac Gym) 시뮬레이터를 사용해 훈련됐다. 해당 프레임워크를 시뮬레이션에서 충분히 훈련시킨 후 유니트리 G1 휴머노이드 로봇에 배포시킨 후 테스트를 진행했다. "로봇은 다양한 실제 상황에서 부드럽고 안정적이며 견고한 기립 동작을 보여준다”며, "향후 이 연구는 스탠딩 컨트롤을 기존 휴머노이드 시스템에 통합해 실제 적용 가능성을 확대할 수 있는 길을 열어줄 것"이라고 연구진은 밝혔다. 해당 연구 결과는 지난 달 논문 공개 사이트인 '아카이브'(arxiv)에 공개됐다.

2025.03.05 14:52이정현 미디어연구소

공중제비 도는 로봇 '아틀라스', AI로 더 똑똑해진다

뛰어난 운동신경으로 업계를 놀라게 한 휴머노이드 로봇 '아틀라스'가 인공지능(AI)을 품으면서 기능을 한층 강화한다. 현대차그룹 로봇 계열사인 미국 보스턴다이내믹스는 로보틱스·AI연구소(RAI)와 강화 학습을 통해 휴머노이드 로봇을 발전시키기 위한 파트너십을 체결했다고 5일(현지시간) 밝혔다. 이번 협력은 기존 사족보행 로봇 '스팟'을 대상으로 하던 협력을 이족보행 로봇으로 확장한 것이다. 양 기관은 지난해 스팟의 강화학습 연구 키트를 개발해 초속 5.2m 속도로 주행하는 성과를 거둔 바 있다. 아틀라스는 강화학습 훈련으로 새로운 기능을 탑재할 예정이다. 크게 ▲시뮬레이션과 현실 간 간극 해소 ▲운동 중 조작능력 개선 ▲전신 연결을 통한 고성능 운동 탐구 등을 목표로 협력한다. 보스턴다이내믹스는 현대차가 지난 2020년에 인수한 미국 로봇 업체다. 메사추세츠 공과대학(MIT) 교수 출신인 마크 레이버트 박사가 1992년 설립했다. 이족보행 로봇 '아틀라스'와 '펫맨' 등을 만들고 2020년에는 사족보행 로봇 '스팟'을 상품화했다. RAI 연구소는 현대차그룹이 출자해 설립한 AI 연구소다. 보스턴 다이내믹스 창업자이자 전 회장인 마크 레이버트 박사가 연구소장을 맡았다. 연구소는 로보틱스와 자율주행 등 미래 사업 경쟁력 강화를 목표로 연구를 수행해왔다. 로버트 플레이터 보스턴다이내믹스 최고경영자(CEO)는 "휴머노이드가 유용하려면 다양한 종류의 환경에서 작업하고 다양한 애플리케이션에서 작업을 수행할 수 있을 만큼 유연해야 한다"며 "아틀라스와 같은 로봇을 사람들의 삶에 유용한 도구로 만들 수 있도록 필요한 핵심 기능을 가속화할 것"이라고 말했다. 마크 레이버트 RAI 연구소장은 "가장 정교한 휴머노이드 로봇에 대한 강화 학습을 발전시킬 수 있게 됐다"며 "휴머노이드의 기능을 확장할 뿐만 아니라 새로운 기술을 습득하는 과정을 간소화함으로써 휴머노이드의 역량을 발전시키는 데 중요한 역할을 할 것"이라고 밝혔다.

2025.02.06 09:46신영빈 기자