AI에게 접시 가져다달라 했더니 냉장고부터 연 이유
저녁 식탁 차리다 말고 "여보, 접시 좀 꺼내줘"라고 말한다. 듣는 사람은 한 치의 망설임 없이 상부 찬장 문을 연다. 그런데 이 단순한 심부름을 요즘 뜨겁다는 AI 로봇에게 시키면 상황이 이상해진다. 냉장고를 열었다가, 싱크대 밑을 뒤졌다가, 결국 엉뚱한 곳을 가리킨다. 바르일란대학교와 터프츠대학교 공동 연구진이 2025년 12월 25일 arXiv에 공개한 '저장 물건 챌린지(Stored Household Item Challenge)'는 요즘 AI가 아직 풀지 못한 이 '안 보이는 물건 찾기'를 정식 시험지로 만들어 처음으로 점수를 매긴 연구다. 찍기보다 못한 AI, 100문제 중 1개만 맞힌 제미나이 잘나가는 AI들이 주방 심부름 시험에서 줄줄이 떨어졌다. 연구진은 진짜 가정집 주방 100곳을 돌며 집주인에게 "이 물건 어디 있어요?"를 물어 정답을 받아뒀다. 그리고 같은 주방 사진과 물건 이름을 AI에게 건네며 똑같이 풀어보라고 했다. 성적표는 이랬다. 제미나이 2.5 플래시(Gemini 2.5 Flash)와 라마 4(LLaMA-4)는 각각 100번 중 1번, 제미나이 1.5 플래시는 3번, 코스모스-2(Kosmos-2) 4번, 큐원-2.5(Qwen-2.5) 5번, GPT-4o는 8번만 맞혔다. 웃픈 사실은 아무 서랍이나 무작위로 찍었을 때도 6번은 맞는 시험이었다는 점이다. 제미나이와 라마는 눈 감고 찍는 것보다도 성적이 낮았다. 논문에는 이 민망한 장면이 그대로 박제돼 있다. "숟가락이 어느 서랍에 있을 것 같나?"라는 질문에 제미나이가 고른 엉뚱한 지점, GPT가 짚은 설득력 없는 위치가 빨간 박스로 표시돼 있다. 사람이라면 1초 만에 "아, 저기 작은 서랍"이라고 답할 장면이다. AI는 주방 사진에서 냉장고, 오븐, 싱크대를 척척 찾아내면서도, 바로 그 옆 서랍에 포크가 들었을지 컵이 들었을지를 전혀 가늠하지 못했다. 눈앞의 것은 잘 보지만, 안에 뭐가 들었을지는 모른다. 딱 이 차이가 AI와 사람을 갈랐다. 그림 1과 2. (상)제미나이와 (하)GPT에게 주방 사진을 제시하고 숟가락을 넣어둔 곳을 찾으라고 했지만 제대로 지목하지 못하는 상황 사진 대신 말로 풀어줬더니 정답률이 4배 뛴 NOAM의 역발상 연구진이 내놓은 해법은 "AI야, 이미지 보지 말고 내 설명만 들어"였다. 이들은 노암(NOAM, Non-visible Object Allocation Model)이라는 파이프라인을 만들었다. 주방 사진에서 찾은 서랍과 찬장을 일일이 "이 찬장은 조리대 위에 있고, 커피머신 바로 위쪽이며, 세로로 길쭉한 형태"라는 문장으로 바꾸는 것이 첫 단계다. 그 다음엔 그림은 치워두고 이 설명 뭉치와 "찾을 물건: 포크"만 GPT-4나 라마-3.3에 건넨다. AI는 이제 시각 정보 없이 글만 읽고 "포크라면 조리대 아래 좁고 긴 서랍이 제일 그럴듯하겠네"라는 식으로 답을 고른다. 결과는 꽤 놀라웠다. 노암은 평가 데이터셋에서 23%를 맞혔다. 23%가 낮아 보일 수 있지만, 방금 언급한 GPT-4o(8%)의 거의 3배, 무작위 찍기(6%)의 거의 4배다. 같은 시험에 도전한 세 명의 사람은 각각 27%, 36%, 38%를 받았는데, 노암과 가장 낮은 점수를 낸 사람 사이에는 통계적으로 의미 있는 차이가 없었다. AI가 드디어 사람의 생활 감각에 어깨를 나란히 하기 시작했다는 뜻이다. 여기에 한 가지 교훈이 더 붙는다. 같은 정보라도 이미지 한 장으로 통째로 던지는 것보다 문장으로 조곤조곤 풀어줄 때 AI는 훨씬 똑똑해진다. "보여주지 말고 읽어줘라"가 이번 연구의 숨은 메시지다. 그림4. 사람이 직접 라벨링한 데이터를 효율적으로 수집하기 위해 사용된 주석 도구 병따개는 어느 서랍? 74가구 주방이 만든 '집안 상식' 시험지 시험지 자체가 얼마나 공들여 만들어졌는지도 볼만하다. 연구진은 먼저 공개 주방 사진 데이터셋인 선(SUN)에서 사진을 뽑아 업워크(Upwork)에서 모집한 주석자 세 명에게 "도마 넣는다면 어디?", "행주 넣는다면 어디?"를 묻고 답을 받게 했다. 주방 한 장에는 평균 16개의 서랍과 찬장이 있었다. 이렇게 모인 문제가 6500건의 이미지·물건 조합, AI의 연습용이다. 진짜 시험지는 다른 곳에서 나왔다. 연구진은 74가구의 실제 주방을 방문해 집주인에게 직접 "이 물건 어디 두세요?"를 물었다. 실제 집 100곳에서 나온 진짜 정답 100개가 AI를 평가하는 최종 시험지가 된 셈이다. 동원된 물건은 병따개, 밀폐용기, 행주, 도마, 그릇, 향신료, 숟가락, 머그컵, 접시, 냄비, 팬, 식칼, 식용유 같은 단골 주방 식구 13종에 드라이버와 진통제 2종을 얹은 총 15가지다. 주방과 어울리지 않는 드라이버와 진통제를 일부러 끼워 넣은 건 AI가 낯선 물건도 "음, 이건 대충 여기쯤이겠네"라고 상식을 발휘할 줄 아는지 보려는 장치였다. 그런데 재미있게도 사람끼리도 답이 갈렸다. 세 주석자의 일치도를 보여주는 플라이스 카파(Fleiss' Kappa) 값은 0.354. 병따개나 접시처럼 대체로 정해진 자리가 있는 물건은 일치도가 0.49까지 올라갔지만, 밀폐용기는 0.27까지 떨어졌다. 플라스틱 반찬통을 상부 찬장에 쌓는 집이 있는가 하면 하부 서랍에 우겨넣는 집도 있다는 뜻이다. 이 시험은 애초에 "정답이 여러 개"인 문제였다. 청소기 다음 세대 가정용 로봇, 넘어야 할 마지막 벽은 성능이 아니다 이번 연구가 중요한 이유는 "언제쯤 우리 집에 집안일 하는 로봇이 들어올까"에 솔직한 답을 주기 때문이다. 진공청소기처럼 한 가지만 하는 로봇은 이미 거실에 들어와 있다. 다음 세대는 설거지하고, 장 본 것을 정리하고, 식탁을 차리는 가정용 서비스 로봇(Domestic Service Robot)이다. 이런 로봇이 진짜 쓸만해지려면 "그릇은 찬장 위, 수저는 서랍, 세제는 싱크대 밑"이라는 암묵적 규칙을 알아들어야 한다. 그런데 한 달에 수십만 원을 내고 쓰는 최신 AI조차 이 시험에서 1~8점짜리 답안을 내고 있다. "GPT만 있으면 다 된다"는 이야기가 얼마나 성급한지 숫자로 드러난 셈이다. 속도도 넘어야 할 벽이다. 노암은 주방 사진 한 장을 처리하는 데 약 13초가 걸린다. 설거지 로봇이 서랍 하나 찾는 데 13초씩 쓰면 아무도 안 산다. 다행히 연구진은 물건 탐지기를 가벼운 모델로 갈아 끼웠더니 1초 밑으로 떨어졌다고 밝혔다. 다음 단계는 주방을 넘어 침실과 산업 현장까지 이 상식을 확장하는 것, 그리고 "우리 집에서는 간장을 반드시 냉장고 옆 상부 찬장에 둔다" 같은 집집마다 다른 습관을 학습하는 개인화 기능이다. 여기에 로봇이 직접 서랍을 열어보며 "여긴 수저가 없네" 하고 스스로 배우는 탐험 기능까지 붙으면 그림이 완성된다. 언젠가 "여보, 접시 좀"이라는 한마디에 로봇이 자연스럽게 상부 찬장을 여는 아침이 올지 모른다. 기술이 마지막으로 넘어야 할 고비는 더 큰 모델이나 더 좋은 카메라가 아니라, 평범한 사람이라면 누구나 알고 있는 '집안 상식'이다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 요즘 AI가 정말 "접시 어디 있어?"도 못 맞히나요? A. 네, 보이는 물건을 알아보는 건 잘하지만 서랍이나 찬장 속처럼 안 보이는 곳에 뭐가 있는지 추측하는 건 아직 약합니다. 이번 실험에서 GPT-4o는 100문제 중 8개, 제미나이 2.5 플래시는 단 1개만 맞혔고, 일부 모델은 무작위 찍기(6개)보다도 낮은 점수를 냈습니다. Q2. 노암(NOAM)은 기존 AI랑 뭐가 다른가요? A. 노암은 이미지를 AI에 직접 보여주는 대신 "이 찬장은 오븐 바로 위에 있고 세로로 길다"처럼 말로 풀어 설명한 뒤 그 문장만 가지고 답을 고르게 합니다. 이 단순한 변화만으로 GPT-4o보다 약 3배 높은 23%의 정답률을 냈습니다. Q3. 이 연구가 저 같은 일반 소비자한테도 의미가 있나요? A. 설거지·정리를 대신해 줄 가정용 로봇이 시장에 나오려면 집 구조와 생활 습관을 알아듣는 '상식'이 필수인데, 지금 AI가 그 고비를 못 넘고 있다는 사실이 숫자로 확인됐기 때문입니다. 이 상식이 채워질수록 우리 집에 로봇이 들어오는 날도 그만큼 가까워집니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Break Out the Silverware: Semantic Understanding of Stored Household Items ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)