• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'제미나이 프로'통합검색 결과 입니다. (4건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

구글, '제미나이 2.5 프로'에 코딩·추론 성능 개선

구글이 인공지능(AI) 모델을 업데이트해 코딩과 추론 기능을 강화했다. 7일 더버지 등 외신에 따르면 구글은 '제미나이 2.5 프로' 프리퓨 버전을 업데이트해 AI 스튜디오와 버텍스 AI, 제미나이 앱 등에 제공하기 시작했다. 해당 모델은 한 달 전 발표된 제미나이 2.5 프로 성능 기반으로 추가 개선된 버전이다. 구글은 이번 모델이 특히 코딩·추론 성능에서 우수한 결과를 보인다고 설명했다. 난이도 높은 코딩 벤치마크뿐 아니라 수학, 과학, 지식, 추론 등 다양한 분야의 테스트에서도 높은 점수를 기록했다고 밝혔다. 또 제미나이 2.5 프로 기존 버전에 대한 사용자 피드백을 바탕으로 응답 스타일과 구조도 보완했다. 그 결과 형식이 더 잘 갖춰지고 표현이 창의적인 응답이 가능해졌다고 강조했다. 이번 버전은 아직 프리뷰 형태지만 몇 주 내 정식 출시될 예정이다. 현재 개발자를 위한 AI 플랫폼을 중심으로 우선 제공되고 있다. 더 버지는 "제미나이 2.5 프로'는 여전히 코딩에서 뛰어난 성능을 유지하고 있다"며 "메타, 오픈AI 등과 AI 경쟁을 벌이기 위한 구글의 전략적 무기"라고 평가했다.

2025.06.07 08:01김미정

"반복 프롬프트 자동화"…구글, 제미나이 API 비용 부담↓

구글이 개발자의 모델 사용료 부담을 줄이기 위해 인공지능(AI) API 운영 방침을 바꿨다. 9일 테크크런치 등 외신에 따르면 구글은 '제미나이 2.5 프로'와 '제미나이 2.5 플레시' 모델에 '암시적 캐싱' 기능을 기본 탑재했다고 밝혔다. 암시적 캐싱은 개발자가 별도 지시하거나 설정하지 않아도 모델이 반복된 프롬프트나 요청을 인식해서 이전 결과를 재활용하는 기능을 의미한다. 명령어가 이전 요청과 접두어가 일치하면 캐시 자동화가 가능하다. 개발자가 암시적 캐싱을 활용하려면 제미나이 2.5 플시 모델에선 최소 1천24토큰, 프로 모델에선 2천48토큰 이상 입력을 해야 한다. 영어 기준으로 750~1천500단어 수준이다. 구글은 "반복되는 프롬프트나 컨텍스트는 요청 앞부분에 두고, 변동 가능성 큰 내용은 뒷부분에 두는 것이 암시적 캐싱 효과와 효율성을 높일 수 있다"며 "개발자는 캐싱 자동화를 통해 기존보다 모델 사용료를 줄일 수 있다"고 밝혔다. 기존 캐싱은 사용자가 자주 사용하는 프롬프트를 직접 지정해야만 했다. 이에 일부 개발자들은 캐싱 효율성이 낮아 API 청구 비용이 부담스럽다고 불만을 제기한 바 있다. 이에 구글 제미나이팀은 시스템 개선을 약속했다. 다만 외신은 암시적 캐싱이 외부 검증을 거치지 않았다고 지적했다. 실질적인 비용 절감 효과는 사용자 반응을 통해 확인될 수 있을 것이라고 평가했다. 테크크런치는 "구글의 모델 사용료 절감 약속을 위한 시스템 정책 변화를 신중히 지켜봐야 한다"고 언급했다.

2025.05.09 10:00김미정

KAIST, 멀티모달 대형언어모델 '깃허브' 공개…GPT-4V 시각성능 "제꼈다"

국내 연구진이 오픈AI의 GPT-4V와 구글 제미나이-프로(Gemini-Pro)의 시각 성능을 능가하는 멀티모달 대형언어모델을 개발, 오픈소스 커뮤니티 깃허브(Github)에 공개했다. 최근 주목받는 생성형 AI 트랜드가 멀티모달화로 진화 중이어서 귀추가 주목됐다. KAIST는 전기및전자공학부 노용만 교수 연구팀이 GPT-4V 등 비공개 상업 모델의 시각 성능을 넘어서는 공개형 멀티모달 대형언어모델을 선보였다고 20일 밝혔다. 연구팀은 멀티모달 대형언어모델 시각 성능을 개선하기 위해 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2가지 기술을 자체 개발했다. 이병관 연구원(박사과정,제1저자)은 "GPT-4V나 제미나이-프로 등과 시각성능 만을 비교하면 점수나 정확도 면에서 최대 10% 더 우수하다"고 말했다. 인지추론성도 함께 따져봐야 하지만, 이는 이번 연구 주제에서 벗어나 나중에 생각할 부분이라는 것이 이 연구원 얘기다. 사실 인지추론성도 개별 검토한 결과 오픈AI나 구글 모델 대비 결코 뒤지진 않는다는 것이 이 연구원의 귀뜸이다. 연구팀은 '콜라보'를 개발하기 전 기존 공개형 멀티모달 대형언어모델 성능이 비공개형에 비해 떨어지는 이유를 1차적으로 물체 수준에 대한 이미지 이해 능력 저하에서 찾았다. 연구팀은 이를 개선하기 위해 이미지 내 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 직접 넣어주는 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새로 설계했다. 또 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습시키는 획기적인 학습전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다. 이병관 연구원은 "이로 인해 이미지 내에서 배경 및 물체를 1차원적으로 구분하는 능력이 크게 향상됐다"고 덧붙였다. 대형언어모델인 모아이(MoAI)'도 개발했다. 인간이 사물을 판단하는 인지과학적 요소(물체 존재나 상태, 상호작용, 배경, 텍스트 등)에서 영감을 얻었다는 것이 연구팀 설명이다. 연구팀은 "기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면에 대한 이해가 모자란다고 판단했다"고 말했다. 연구팀은 △전체적 분할 △한계가 없는 물체 검출기 △상황 그래프 생성 △글자 인식 등 4가지 컴퓨터 비전 모델을 언어로 변환한 뒤 멀티모달 대형언어모델에 입력했다. 이를 연구팀이 실제 검증한 결과 '콜라보'는 Math Vista(대학수준 수학 및 물리문제)나 MM-벤치(영어 객관식 문제), MMB-CN(중국어 객관식 문제), AI2D(어학문제) 등의 풀이에서 기존 모델 대비 최대 10%까지 점수와 정확도가 우수했다. 또 '모아이'는 기존 공개형 및 비공개형 LLVMs(멀티모달 대형언어)와 비교한 결과 각 질문에 따라 점수가 20포인트 이상 우수하게 답변한 경우도 나타났다. 이병관 연구원은 "3개월전 깃허브에 올려놓은 '콜라보'(https://github.com/ByungKwanLee/CoLLaVO)와 '모아이'(https://github.com/ByungKwanLee/MoAI)에 관심을 가져달라"며 "박사학위가 마무리되면 멀티모달 대형언어를 아이템으로 창업할 생각도 있다"고 말했다. 박사과정 5년차인 이 연구원은 또 "개인적으로 향후 기회가 닿는다면, 핸드폰에 들어가는 사이즈로 현재 성능을 유지하는 멀티모달 대형언어모델을 만들어 볼 것"이라고 덧붙였다. 노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐다"며 "SNS 등을 통해 전세계에 점차 알려지는 등 관련분야 발전에 기여할 것"으로 기대했다. 연구에는 논문 제1저자 이병관 박사과정 연구원 외에도 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다. 연구결과는 '콜라보'의 경우 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024'(5월16일자)에 게재됐다. '모아이(MoAI)'는 컴퓨터 비전 국제 학회인 'ECCV 2024'에 논문을 제출하고 결과를 기다리고 있다. 한편 이 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부 지원을 받아 수행했다.

2024.06.20 14:26박희범

구글, 제미나이 1.5 공개…더 적은 자원으로 더 빠른 성능

구글이 대규모언어모델(LLM) 제미나이 1.5를 공개했다. 전 버전보다 더 적은 자원을 사용하고도 더 높은 성능을 낸다고 강조했다. 15일(현지시간) 구글은 제미나이 1.5를 개발자와 기업에게 제공한다고 밝혔다. 구글에 의하면, 제미나이 1.5 프로의 경우 기존 제미나이 울트바와 동등한 수준의 성능을 보이며, 기존 제미나이 1.0 프로를 능가한다. 쿼리를 전송할 때 전체 모델에서 처리하는 대신 일부만 실행해 성능을 더 높였다는 설명이다. 제미나이 1.5 프로는 한 컨텍스트 창에 3만2천개 토큰을 입력할 수 있고, 한번에 100만개 토큰을 생성할 수 있다. 구글은 1시간의 비디오, 11시간의 오디오, 3만줄 이상의 코드, 70만 단어 이상의 코드베이스를 한번에 처리할 수 있는 용량이라고 강조했다. 경쟁모델인 GPT-4의 컨텍스트 용량은 12만8천개다. 주어진 프롬프트에서 더 많은 양의 콘텐츠를 분석, 분류, 요약할 수 있다. 순다 피차이 알파벳 최고경영자(CEO)는 "모델의 컨텍스트 창이 클수록 주어진 프롬프트에서 더 많은 정보를 받아들이고 처리할 수 있으므로 출력이 더욱 일관되고 관련성 높으며 유용해진다"며 "구글 연구원이 1천만개 토큰 컨텍스트 창을 성공적으로 테스트했다"고 밝혔다. 구글은 제미나이 1.5 프로가 아폴로11의 달 탐사 임무를 다룬 402 페이지 분량의 기록을 이해하고 추론할 수 있다고 강조했다. 제미나이 1.5는 구글클라우드의 버텍스AI와 AI 스튜디오를 통해 기업 사용자와 개발자에게 제공된다. 제미나이 프로 표준 버전은 한 컨텍스트 창에 12만8천 토큰까지 입력할 수 있고, 100만개 단위까지 추가 용량을 원하는 경우 비용을 더 지불해야 한다. 테스트 기간 중에 100만개 토큰을 무료로 입력할 수 있다.

2024.02.16 13:59김우용

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

[ZD브리핑] 삼성·LG전자 2분기 실적 잠정치 발표…9일 美 상호관세 유예 종료

EU "AI법 유예 없다"…내년까지 전면 시행 방침 유지

美, AI 반도체 우회 수출 차단…말레이시아·태국에도 규제 추진

전 국민 최대 45만원 '소비쿠폰' 지급…21일부터 신청

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.