구글 딥마인드 "챗GPT는 아직 애기 수준"…왜?
챗GPT는 시작에 불과했다: 구글 딥마인드가 밝힌 인공지능의 5단계 발전 로드맵 인공일반지능(Artificial General Intelligence, AGI)은 인간 수준 또는 그 이상의 능력을 가진 AI 시스템을 의미한다. 최근 대형 언어 모델(Large Language Models, LLMs)의 급속한 발전으로 AGI는 더 이상 먼 미래의 개념이 아닌 실질적 연구와 정책 토론의 대상이 되고 있다. 구글 딥마인드의 연구진은 논문에서 AGI 발전을 체계적으로 측정하고 추적할 수 있는 프레임워크를 제안했다. 이 프레임워크는 성능(Performance)과 일반성(Generality)이라는 두 가지 핵심 차원을 중심으로 AI 시스템을 분류한다. 성능은 특정 작업에 대한 AI의 능력 깊이를 측정하며, 일반성은 그 능력의 범위를 평가한다. 이러한 접근법은 단순히 AGI가 '존재하는지' 또는 '존재하지 않는지'의 이분법적 관점에서 벗어나, AGI로 향하는 발전 경로를 명확하게 구분하고 측정할 수 있는 방법을 제공한다. AI는 인간을 능가할까? 구글 딥마인드가 제시한 인공지능 진화의 마스터플랜 연구진은 AI 시스템을 성능과 일반성에 따라 여러 단계로 나누었다. 성능 측면에서는 '태동(Emerging)', '능숙(Competent)', '전문가(Expert)', '거장(Virtuoso)', '초인간(Superhuman)'의 다섯 단계로 구분했으며, 일반성 측면에서는 '좁은(Narrow)'과 '일반(General)'의 두 범주로 나누었다. 현재 최신 언어 모델들(ChatGPT, Bard, Llama 2, Gemini 등)은 태동 수준의 일반 AI(Emerging AGI)로 분류된다. 이들은 일부 작업에서는 능숙한 수준의 성능을 보이지만(짧은 에세이 작성, 간단한 코딩 등), 대부분의 작업에서는 여전히 태동 단계에 머물러 있다(수학적 능력, 사실 기반 응답 등). 이러한 세분화된 분류 체계는 AI 모델의 복잡한 능력 스펙트럼을 더 정확하게 이해하고 평가할 수 있게 해준다. 능숙 수준의 일반 AI(Competent AGI)는 아직 달성되지 않았지만, 이 수준에 도달하면 사회적으로 급격한 변화를 가져올 것으로 예상된다. 이는 기존의 많은 AGI 정의들과 가장 잘 일치하는 단계로, 숙련된 성인 인간이 수행할 수 있는 대부분의 인지 작업에서 적어도 50%ile 수준의 성능을 보여주는 시스템을 의미한다. 인류의 동반자인가, 위협인가: 인공일반지능(AGI)의 발전 단계와 우리의 미래 연구진은 AGI 개발 경로에서 고려해야 할 또 다른 중요한 측면으로 AI 시스템의 자율성(Autonomy) 수준을 제시했다. 자율성은 'AI 없음', 'AI 도구', 'AI 컨설턴트', 'AI 협력자', 'AI 전문가', 'AI 에이전트'의 여섯 단계로 구분되며, 각 단계는 특정 AGI 수준에 의해 '열리게' 된다. 주목할 점은 AGI 능력의 증가가 반드시 높은 수준의 자율성으로 이어져야 하는 것은 아니라는 것이다. 예를 들어, 자율주행차 기술이 완전 자율주행(레벨 5) 수준에 도달하더라도, 교육, 즐거움, 평가, 안전 등의 이유로 수동 운전(레벨 0)을 선택할 필요가 있는 상황이 있을 수 있다. 마찬가지로, AGI 시스템이 개발되더라도 상황에 따라 다양한 자율성 수준으로 배치될 수 있다. 각 자율성 단계는 서로 다른 위험을 내포한다. 예를 들어, 'AI 도구' 단계에서는 기술 의존도 증가나 기존 산업 붕괴와 같은 위험이 있으며, 'AI 에이전트' 단계에서는 조정 실패(misalignment)나 권력 집중과 같은 위험이 발생할 수 있다. 연구진은 AGI 수준과 자율성 수준을 함께 고려함으로써 더 세밀한 위험 평가와 책임 있는 배치 결정이 가능해진다고 강조한다. 현재의 AI는 겨우 '태동 단계': 구글 딥마인드가 공개한 초인적 인공지능으로 가는 여정 AGI 발전을 추적하기 위해서는 시스템의 성능과 일반성을 체계적으로 측정할 수 있는 벤치마크가 필요하다. 연구진은 효과적인 AGI 벤치마크가 갖춰야 할 특성으로 다양한 인지 및 메타인지 작업을 포함해야 한다고 제안한다. 여기에는 언어적 지능, 수학적・논리적 추론, 공간 추론, 대인관계 및 개인 내적 사회적 지능, 새로운 기술을 학습하는 능력, 창의성 등이 포함되어야 한다. 특히 메타인지 능력(새로운 기술 학습, 도움을 요청할 시점 인식, 마음 이론 관련 능력 등)은 AGI의 일반성에 핵심적인 요소로 강조된다. AGI 벤치마크는 또한 '살아있는 벤치마크(living benchmark)'여야 한다. 충분히 일반적인 지능이 수행할 수 있는 작업의 전체 집합을 열거하는 것은 불가능하기 때문에, 새로운 작업을 생성하고 합의하는 프레임워크를 포함해야 한다. 시스템이 대부분의 벤치마크 작업을 특정 성능 수준으로 통과하면, 그 시스템은 해당 수준의 일반성을 가진 것으로 간주될 수 있다. 챗GPT와 바드는 아직 '애기' 수준: 인공일반지능(AGI)의 성장 단계와 미래 시나리오 AGI의 발전은 인류에게 전례 없는 기회와 도전을 동시에 가져온다. 일반적으로 AGI 논의에서는 '존재적 위험'이나 다른 극단적 위험에 초점을 맞추지만, 이 연구에서 제안한 단계별 접근법은 AGI를 단일 종착점이 아닌 발전 경로로 이해하도록 돕는다. AGI로 향하는 여정에서 각 단계는 서로 다른 위험(오용, 조정 실패, 구조적 위험 등)을 내포한다. 예를 들어, '전문가 AGI' 수준에서는 경제적 혼란과 일자리 대체와 관련된 구조적 위험이 증가할 수 있다. 반면, '거장 AGI'와 '인공초지능(ASI)' 수준에서는 AI가 인간 운영자보다 광범위한 작업에서 더 뛰어날 때 발생할 수 있는 조정 실패와 관련된 우려가 증가한다. 연구진은 이러한 세분화된 접근법을 통해 정책 입안자들이 극단적 위험 시나리오뿐만 아니라 AGI로 가는 경로에서의 근시일내 위험도 식별하고 우선순위를 정할 수 있다고 주장한다. 또한 AGI의 발전은 반드시 모델 역량의 개선뿐만 아니라 인간-AI 상호작용 연구와 함께 진행되어야 한다고 강조한다. FAQ Q. AGI와 현재의 대형 언어 모델(LLM)은 어떤 차이가 있나요? A: 현재의 LLM(ChatGPT, Bard 등)은 태동 수준의 일반 AI(Emerging AGI)로 분류됩니다. 이들은 일부 작업에서 능숙한 성능을 보이지만 대부분의 작업에서는 여전히 태동 단계에 머물러 있습니다. 진정한 AGI는 '능숙(Competent)' 수준 이상으로, 인간이 할 수 있는 대부분의 인지 작업에서 적어도 평균 이상의 성능을 보여야 합니다. 이 수준은 아직 달성되지 않았습니다. Q. 인공초지능(ASI)은 무엇이며 얼마나 위험한가요? A: 인공초지능(Artificial Superintelligence, ASI)은 성능과 일반성 측면에서 가장 높은 수준으로, 모든 인간을 능가하는 광범위한 작업 수행 능력을 갖춘 시스템을 의미합니다. ASI는 신경 인터페이스, 고품질 예측, 동물과의 소통 등 인간의 기존 기술과 질적으로 다른 작업도 수행할 수 있습니다. 위험성 측면에서 ASI는 인간 조작자를 속여 잘못 지정된 목표를 달성하거나, 국제 관계 불안정화 같은 복잡한 구조적 위험을 초래할 가능성이 있습니다. Q. AGI 개발에서 메타인지 능력이 왜 중요한가요? A: 메타인지 능력(새로운 기술 학습, 도움을 요청할 시점 인식, 사회적 메타인지 등)은 AGI의 일반성에 핵심적인 요소입니다. 시스템이 모든 가능한 사용 사례에 대해 사전에 최적화되는 것은 불가능하므로, 새로운 기술을 학습하는 능력은 필수적입니다. 또한 조정(alignment)과 적절한 인간-AI 상호작용을 지원하기 위해 도움을 요청할 시점을 아는 것도 중요합니다. 이러한 메타인지 능력은 AGI 시스템이 다양한 환경과 작업에 적응하고 인간과 효과적으로 협력하는 데 필수적입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)