깃허브, '코파일럿 하네스' 성능 공개…"토큰 줄이고 모델 선택권 넓혀"
깃허브가 코파일럿의 에이전틱 하네스를 앞세워 인공지능(AI) 토큰 효율과 모델 선택권을 강화했다. 깃허브는 '깃허브 코파일럿 에이전틱 하네스'가 주요 소프트웨어(SW) 엔지니어링 벤치마크에서 오픈AI, 앤트로픽 같은 모델 개발사가 제공하는 전용 실행 도구와 비슷한 수준으로 작업을 해결했다고 28일 공식 홈페이지를 통해 밝혔다. 특히 동일한 모델·작업을 기준으로 비교했을 때 대부분의 구성에서 더 적은 토큰을 사용해 비용 효율성을 높인 것으로 전해졌다. 하네스는 AI 모델이 실제 개발 업무를 처리하도록 파일 탐색, 도구 실행, 작업 순서 관리를 돕는 기능을 갖췄다. 깃허브 코파일럿 에이전틱 하네스는 코파일럿 CLI를 비롯한 코파일럿 앱, 코파일럿 코드 리뷰 등 여러 기능에 공통 적용돼 코파일럿 전반 개발 작업을 지원한다. 깃허브는 하네스 성능을 검증하기 위해 공개 벤치마크와 내부 벤치마크를 동시에 활용했다. 공개 벤치마크에는 SWE-벤치 버리파이드, SWE-벤치 프로, 스킬스벤치, 터미널벤치가 포함됐다. 내부 벤치마크로는 윈도 컨테이너 환경에서 작업을 검증하는 윈-힐이 쓰였다. 비교 대상 모델은 앤트로픽 '클로드 소넷 4.6' '클로드 오퍼스 4.7', 오픈AI 'GPT-5.4' 'GPT-5.5'다. 깃허브는 코파일럿 CLI를 클로드 계열 모델의 경우 클로드 코드와 비교했으며, GPT 계열 모델은 코덱스 CLI와 비교했다. 분석 결과 토큰 효율성 측면에서는 코파일럿 하네스가 여러 벤치마크에서 모델 공급사 하네스와 비슷한 작업 완료율을 유지하면서도 대부분 구성에서 더 낮은 토큰 사용량을 보인 것으로 나타났다. 클로드 소넷 4.6과 클로드 오퍼스 4.7에서는 모든 비교 항목에서 코파일럿 CLI가 더 나은 성능을 보였고 더 적은 토큰을 사용한 것으로 집계됐다. GPT-5.4와 GPT-5.5에서는 SWE-벤치 버리파이드를 제외한 모든 항목에서 코파일럿 CLI가 더 나은 성능을 보인 것으로 확인됐다. SWE-벤치 버리파이드에서는 코파일럿 CLI가 각각 7%, 4% 낮은 성능을 보인 것으로 전해졌다. 작업 해결률에서는 코파일럿 에이전틱 하네스가 고정된 모델과 벤치마크 작업 기준으로 모델 공급사 하네스와 대체로 비슷한 수준을 기록했다. 깃허브는 일부 차이가 있었지만 모델 확률적 특성에 따른 실행 간 분산 범위 안에 있어 사실상 동등한 수준이라고 평가했다. 깃허브는 터미널벤치 2.0 분석에서 작업당 비용과 해결률을 비교했다. 이를 통해 각 에이전트·모델 조합을 최소 다섯 차례 실행해 결과 변동성을 확인했다. 코파일럿 하네스가 평가 구성 전반에서 작업 완료율과 작업당 비용 측면에서 다른 에이전트와 비슷하거나 앞선 것으로 나타났다. 깃허브는 다중 모델 지원을 코파일럿 하네스 핵심 차별점으로 제시했다. 코파일럿 에이전틱 하네스는 GPT와 클로드, 제미나이, 마이크로소프트AI(MAI) 계열의 20개 이상 프런티어 모델을 지원한다. 오픈소스와 로컬 모델을 위한 자체 키 사용도 제공한다. 사용자는 작업 성격과 비용 구조에 맞춰 모델을 직접 선택할 수 있다. 자동 모델 선택 기능을 활용하면 작업 의도와 모델 상태를 고려해 토큰 효율을 최적화할 수도 있다. 깃허브는 다중 모델 아키텍처가 모델 공급사 단일 하네스에서 제공하기 어려운 기능도 지원한다고 강조했다. 예를 들어 러버 덕은 서로 다른 모델 계열 간 비평을 활용해 한 모델이 다른 모델의 작업을 검토하도록 한다. 깃허브는 "깃허브 코파일럿 경쟁력이 모델 자체를 넘어 하네스와 운영 구조로 확장되고 있다"며 "낮은 토큰 비용과 다중 모델 선택권을 통해 개발자에게 유사한 작업 완료 성능을 제공할 수 있을 것"이라고 강조했다.