구글 바드, 수학·코딩 질문에 더 정확해졌다
구글이 바드의 논리와 추론 개선 내용을 밝혔다. 암시적 코드 실행이란 새 기술을 적용해 수학, 코딩 질문, 문자열 조작 등을 향상시키고 있다는 설명이다. 구글은 7일(현지시간) 블로그에서 대화형 AI 서비스 '바드'의 새로운 개선사항을 발표했다. 블로그에 따르면, 바드는 수학적 작업, 코딩 질문, 문자열 조작 등에서 개선됐다. 바드는 '암시적 코드 실행(implicit code execution)'이란 새 기술을 사용해 사용자의 계산 프롬프트를 감지하고, 백그라운드에서 코드를 생성, 실행한다. 이를 통해 수학, 코딩, 문자열 조작 등의 질문에 더 정확하게 응답할 수 있다고 회사측은 강조했다, 예로, '15683615의 소인수는 무엇입니까?', '내 저축 증가율 계산', 'Lollipop이라는 단어를 뒤집으세요' 같은 프롬프트를 받아 파이썬 코드를 생성하고 답변을 보여준다. 바드, 챗GPT 등의 대형언어모델(LLM)은 예측 엔진이다. 프롬프트를 받아 문장에서 다음에 올 가능성 높은 단어를 예측해 응답을 생성한다. 그 때문에 이메일이나 에세이 같은 일반적인 문장 작성에서 준수한 답변을 내지만, 수학 계산이나 고급 추론 등에서 오류를 내기 쉽다. 깃허브 코파일럿, 아마존 코드위스퍼러 같은 코드 생성 AI 모델은 방대한 자연어 텍스트 샘플를 학습하지 않고, 소스코드 샘플만 훈련받아 미세조정된 특화 모델이다. 구글은 이처럼 LLM의 기본적 한계를 해결하기 위해 '암시적 코드 실행'을 개발했다. 바드는 이를 통해 자체적으로 코드를 작성하고 실행할 수 있다. 구글은 다니엘 카네만의 저서 'Thinking, Fast and Slow(생각에 관한 생각)'에서 다룬 인간 지능의 이분법에서 영감을 받았다고 밝혔다. 인간의 사고는 시스템1과 시스템2로 분리돼 있는데, 시스템1 사고는 직관을 말한다. 빠르고 직관적이며 수월하다. 시스템2 사고는 느리고 신중하며 노력하는 것이다. 긴 나눗셈을 이어가거나, 악기 연주 방법을 배울 때 사용한다. 구글은 LLM을 시스템1에서 작동하는 것으로 설명한다. 텍스트를 빠르게 생성하지만 깊이 생각하지 않는다는 것이다. 시스템1 사고는 수학문제 풀이에서 약점을 드러내고, 전통적인 계산은 시스템2 사고를 필요로 한다. 이에 따라 바드는 시스템1인 LLM 백엔드에 시스템2 사고를 넣어 수학적 응답의 정확도를 높였다. 임시적 코드 실행으로 LLM은 논리 코드의 이점을 얻을 수 있는 프롬프트인지 식별한다. 그리고, 직관적인 답변을 바로 뱉어내지 않고 내부적으로 답변의 초안을 작성하고 실행한 뒤 결과를 보여주는 것이다. 구글은 이 방법을 통해 내부 챌린지 데이터 세트의 계산 기반 단어와 수학문제에 대한 바드의 응답정확도를 약 30% 향상시키는 것을 확인했다고 밝혔다. 블로그 저자들은 "이런 개선사항에도 불구하고 바드가 항상 올바르게 작동하는 건 아니다"라며 "예를 들어 프롬프트 응답에 도움되는 코드를 생성하지 않거나, 생성하는 코드가 잘못됐거나, 응답에 실행된 코드를 포함하지 않을 수 있다"고 설명했다. 이어 "구조화된 논리 기반 기능으로 응답하는 이 기능은 바드를 더욱 유용하게 만드는 중요한 단계"라고 강조했다. 구글 바드는 2월 첫 공개 당시 잘못된 답변을 해 망신을 당했다. 챗GPT나 마이크로소프트 빙 챗이 우수한 문장 생성 능력과 코딩 및 이미지생성 능력까지 갖춘 반면, 초기의 바드는 잦은 오류와 코딩 능력 미보유란 약점을 보였다, 바드 첫 공개 당시 잘못된 답변을 한 것으로 드러나자 구글 주식은 한때 8% 급락하기도 했다. 현재 바드는 영어외에 한국어를 포함한 다국어를 지원하게 됐고, 다중모드 검색, 이미지 생성 등 개선사항을 더하고 있다.