• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'리더보드'통합검색 결과 입니다. (4건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

업스테이지 "산업 특화 AI로 시장 공략…매출 급증했다"

"생성형 인공지능(AI)을 통해 돈 버는 기업으로 자리매김 했습니다. 올해 1분기 매출 100억원을 기록했습니다. 단순히 AI 모델 개발에만 그치지 않고 국내 금융·법률·의료·커머스 기업들에 맞춤형 거대언어모델(LLM)을 제공했기 때문입니다. 이런 사업 방향으로 국내뿐 아니라 미국 등 해외 시장에서도 본격 활약하겠습니다." 김자현 업스테이지 LLM 사업개발 리드는 최근 기자와 만나 자사 LLM '솔라'를 통한 비즈니스 성과와 향후 계획을 이같이 밝혔다. 김 리드는 업스테이지가 '솔라'를 통해 각 산업 도메인 업무에 특화된 솔루션을 제공해 왔다고 설명했다. 현재 업스테이지는 신한투자증권, 케이뱅크 등 금융회사에 파이낸스 LLM을 공급하고 있으며 법률상담 플랫폼 로톡을 운영하는 로앤컴퍼니에 법률 특화 솔루션을 제공하고 있다. 김 리드는 "고객이 요구하는 문제를 해결하기 위해 맞춤형 솔루션을 제공한 점이 주효했다"며 "이를 통해 고객사에 실질적인 가치를 제공하고 성공에 일조할 수 있었다"고 강조했다. 업스테이지는 금융과 법률뿐만 아니라 의료와 커머스 분야에서도 활약하고 있다. 의료 분야에서는 카카오 헬스케어와 손잡고 대학병원 3곳을 대상으로 AI 솔루션 제공용 메디컬 특화 모델을 제공한다. 커머스 분야에서는 커넥트웨이브와 협력해 AI 기반 맞춤형 상품 검색 및 추천 서비스를 구축했다. 현재 업스테이지는 생성형 AI 비즈니스로 올해 1분기 100억원 넘는 매출을 기록했다. 이는 지난해 회사 전체 매출보다 높은 수치다. 김 리드는 "업스테이지가 창업 원년부터 매출 창출을 목표로 사업을 진행했다"며 "최근 이례적인 성과를 얻은 셈"이라고 말했다. 이어 "생성형 AI 기업이 실제 매출을 올린 사례가 적다"며 "이런 상황에서 업스테이지 성과가 더 주목받고 있다"고 덧붙였다. 매출 성과 비결을 자체 개발한 LLM '솔라'와 파인튜닝 기술로 꼽았다. 파인튜닝은 LLM을 특정 작업이나 도메인에 맞게 학습 시키는 기술로, 업스테이지는 '솔라'를 특정 도메인에 맞게 파인튜닝해 고객사에 제공했다. 김 리드는 '솔라'가 번역·수학 풀이 등 특정 작업에서 오픈AI 'GPT-4' 같은 타사 LLM보다 뛰어난 성능을 보인다고 주장했다. 김 리드는 "파인튜닝 전문사인 프레디베이스(Predibase)와 협력해 '솔라' 성능 테스트를 500번 이상 실시했다"며 "'솔라'가 특정 도메인에선 빅테크 모델보다 우수하단 점을 정량적으로 입증했다"고 강조했다. 美·日 등 해외 진출 가속…"시장 수요에 맞는 전략 채택" 업스테이지는 글로벌 시장 진출도 빠르게 추진하고 있다. 현재 미국과 일본, 동남아시아 등 아시아태평양 지역으로 사업을 확장하며 국가 특성에 맞는 전략을 구사하고 있다. 김 리드는 "미국 시장에서는 온프레미스(On-premise) 수요를 주로 공략하고 있다"며 "생성형 AI 보안이나 비용 효율성 측면에서 온프레미스를 선호하는 기업 수요가 늘어났기 때문"이라고 밝혔다. 또 아태지역에서는 각국 언어와 도메인에 맞는 모델을 개발 중이다. 최근 '솔라' 일본어 버전을 개발 개발해 일본 시장 문을 두드리고 있다. 특히 '솔라' 일본어 버전은 니케이 아시아가 발표한 일본어 모델 벤치마크 테스트에서 상위 20위권에 포함된 것으로 알려졌다. 이중 유일한 한국산 모델이다. 김 리드는 "아태지역에서는 대규모 LLM을 자체 구축하기 어려운 경우가 많다"며 "한국서 입증된 경쟁력 있는 AI 솔루션을 통해 향후 베트남, 인도네시아, 아랍에미리트 등 다양한 국가에 언어 특화 모델을 제공할 계획"이라고 밝혔다. 김 리드는 업스테이지가 '솔라' 영어 모델을 공개해 AI 생태계 강화에 기여하고 있다는 점도 설명했다. 이를 통해 피드백과 사용 사례를 추가 확보하기 위함이다. 김 리드는 "오픈소스를 통해 개발자와 기업들이 업스테이지 모델을 활용하면 더 많은 애플리케이션과 솔루션이 나올 것"이라며 "이는 AI 공동 발전을 도모하고 AI 경쟁력을 알리는 좋은 기회"라고 강조했다. 같은 목적으로 업스테이지는 한국어 모델 성능을 평가하는 자체 리더보드를 운영 중이다. 리더보드 시즌 1에서는 LLM 기본 능력인 자연어 이해나 상식 등의 지표를 주로 사용했다. 최근에는 평가를 시즌 2로 업데이트 해 한국어 모델 성능뿐만 아니라 문화와 규범을 이해하는 능력까지 포함시켰다. 김 리드는 "평가 세트를 공개하지 않음으로써 모델들이 평가 세트를 학습하는 문제를 방지했다"며 "이로써 공정하고 정확한 성능 평가가 가능해졌다"고 밝혔다. 그러면서 "오픈소스와 리더보드 등을 통해 국내 AI 생태계가 함께 상생하고 발전하길 바란다"며 "이는 업스테이지도 한층 더 성장할 수 있는 기회일 것"이라고 강조했다.

2024.09.08 09:32조이환

한국어 리더보드 새 시즌 출시…벤치마크 9개 추가

한국어 거대언어모델(LLM) 성능을 비교할 수 있는 리더보드가 새로운 벤치마크를 탑재해 시즌 2로 재탄생했다. 업스테이지는 한국지능정보사회진흥원(NIA)과 공동 운영하는 '오픈 Ko-LLM 리더보드'를 업그레이드했다고 12일 밝혔다. 업스테이지는 새 버전에 ▲ 대학원 수준 추론(Ko-GPQA) ▲상식 추론(Ko-WinoGrande) ▲ 초등 수학(Ko-GSM8K) ▲ 감성(Ko-EQ-Bench) ▲ 지시 이행(Ko-IFeval) ▲ 한국어 신뢰성(KorNAT-Knowledge) ▲ 사회적 가치(KorNAT-Social-Value) ▲ 무해성(Ko-Harmlessness) ▲ 실용성(Ko-Helpfulness) 등 총 9개 벤치마크를 추가했다. 오픈 Ko-LLM 리더보드는 지난해 9월 민관협력을 통해 개설된 개방형 한국어 LLM 평가 체계다. 산·학·연 각계 분야에서 7월 말 기준 1천700개 넘는 LLM 모델이 성능 경쟁을 하고 있다. 최근 LLM 기술이 빠르게 발전하면서 1년 전 만들어진 리더보드 벤치마크의 개선 필요성이 대두됐다. 이에 따라 업스테이지와 NIA는 기존 벤치마크를 전면 폐지하고 새로운 성능 평가 지표를 적용한 오픈 Ko-LLM 리더보드 시즌 2 운영을 시작한다. 기존 리더보드는 LLM의 근본적인 언어능력 평가에 초점을 맞췄다면, 새 시즌에서는 고도화된 지능과 문제해결 능력 등 실용적이고 현실적인 부분에 집중한다. 이에 따라 기존 제출됐던 모든 모델을 포함해 향후 제출되는 모든 LLM은 신규 벤치마크를 통해 평가된다. 또 인공지능(AI) 스타트업 플리토, 셀렉트스타 및 카이스트 AI 대학원이 제작에 참여해 벤치마크 데이터셋을 제공할 예정이다. 김성훈 업스테이지 대표는 "새롭게 개편된 리더보드를 통해 한국어 LLM 성능 평가 기준점을 한 단계 더 높일 것으로 기대한다"며 "이번 리더보드가 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 도움될 것"이라고 밝혔다. 황종성 NIA 원장은 "리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여했다"며 "시즌2로 한국어 LLM 기술이 세계적 수준에 한발 더 올라설 수 있는 계기가 되길 바란다"고 말했다.

2024.08.12 17:01김미정

올거나이즈 "생성형 AI '거짓말 탐지기' 성능 비교하세요"

앞으로 기업들이 생성형 인공지능(AI) 환각현상 방지에 활용되는 검색증강생성(RAG) 성능을 비교하고 자사 제품에 가장 적합한 RAG를 고를 수 있게 됐다. 올거나이즈(대표 이창수)는 국내에서 처음 RAG 리더보드 '알리 RAG 리더보드'를 공개한다고 29일 밝혔다. RAG는 생성형 AI의 환각현상을 최소화할 수 있는 대안으로 주목받는 기술이다. 생성형 AI의 '거짓말 탐지기'라고도 알려졌다. RAG는 사전 학습한 데이터만을 활용하는 게 아니라 기업 내부 데이터 등 이미 존재하는 데이터에서 답을 찾아낸다. 이들 답변 중 질문 및 검색어의 맥락을 고려한 후 가장 적절한 대답을 제공하는 식이다. 올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매긴다. 이를 통해 기업 AI 실무자들이 가장 적절한 솔루션을 비교 도입할 수 있도록 돕는다. 알리 RAG 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가한다. 올거나이즈 측은 답변 유사도 및 정확도를 판단하는 5개의 평가 툴로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였다는 입장이다. 우선 각 분야별로 2~300페이지의 문서를 업로드한 후 분야마다 사용자가 할 법한 질문 60개를 생성했다. 질문별로 RAG가 답변을 생성하면 5개의 평가 툴 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명한다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가 툴만을 활용하고 있다. 특히 현재 공개된 RAG 리더보드 중 유일하게 RAG의 3개 구성요소를 모두 평가한다. RAG는 문서에서 글자·그림·표 등을 추출하고 읽기 쉬운 포맷으로 변경해주는 파서, 기업이 보유한 방대한 데이터 중 사용자가 원하는 대답을 즉시 찾아주는 리트리버, 새로운 지식과 학습 데이터를 토대로 LLM이 응답을 생성해내는 답변생성의 3개 요소로 구성돼 있다. 기업들이 RAG을 도입하고자 할 때 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려해 테스트 데이터셋을 모두 공개했다. 실제 업무 문서에 표, 이미지 등이 복잡하게 얽혀 있다는 점을 감안해서 표 및 이미지 데이터도 테스트 데이터셋에 포함했다. 리더보드는 허깅페이스를 통해 확인할 수 있으며 리더보드에 들어간 RAG 솔루션들도 링크로 공개돼 있어 누구나 손쉽게 체험해 볼 수 있다. 이창수 올거나이즈 대표는 "AI 생태계에 기여하기 위해 테스트 데이터셋을 모두 공개했고 이를 활용해 한국어로 된 다양한 RAG 솔루션의 성능이 향상됐으면 하는 바람"이라며 "대학 및 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입함으로써 업무 생산성 증대를 경험할 수 있을 것"이라고 밝혔다.

2024.05.29 10:07김미정

"AI 모델 순위 매기는 '리더보드'는 과장됐다"

인공지능(AI) 언어모델의 성능을 측정해 순위를 매기는 리더보드 점수가 과장됐다는 지적이 이어지고 있다. 기업들이 임의로 데이터를 조정해 모델 점수를 높여 이를 홍보나 투자 유치를 위한 수단으로 활용한다는 이유에서다. 최근 기업들은 자사 거대언어모델(LLM)이나 소형언어모델(SLM) 성능이 오픈AI의GPT-4를 뛰어넘었다는 소식을 전하고 있다. 기준은 깃허브나 허깅페이스, 오픈 Ko-LLM 리더보드 순위다. 오픈 Ko-LLM 리더보드는 한국지능정보사회진흥원(NIA)과 업스테이지가 지난해 구축한 한국어 전용 리더보드다. 개발사가 리더보드에서 모델 등수를 받으려면 몇 가지 과정을 거쳐야 한다. 우선 모델은 벤치마크 테스트를 받는다. 벤치마크는 특정 작업에서 모델 성능을 비교하는 테스트다. 이를 통해 모델은 점수를 받는다. 점수에는 답변 정확성, 속도, 견고성 등으로 이뤄졌다. 모델은 이를 기반으로 리더보드에서 순위가 매겨진다. "답안지 보고 문제 푸는 셈...기업 홍보·투자 유치 수단" 국내 전문가들도 기업들이 평가 과정 틈새를 이용해 모델 벤치마킹 점수와 리더보드 순위를 조작하고 있다고 입을 모았다. 익명을 요청한 국내 AI 기업 대표는 "개발사가 모델에 학습데이터가 아니라 이미 테스트를 거친 공개 평가데이터를 입력해 점수와 등수를 올린다"고 지적했다. 그는 "마치 모델이 시험 답안지를 한번 훑고 문제를 푸는 것과 같은 것"이라며 "당연히 벤치마크 점수와 리더보드 순위가 급상승할 수밖에 없다"고 덧붙였다. 한 국내 대학 연구원은 "보통 벤치마크에서 동일한 질문을 여러 모델에 물어봐야 성능 평가가 가능하다"며 "같은 질문을 했을 때 나오는 답변 수준에 따라 리더보드 순위가 매겨지기 때문"이라고 설명했다. 연구원은 "AI 개발사들은 타사 모델이 답했던 데이터를 단순 참고용으로만 활용해야 하는데, 이를 아예 자사 모델에 집어넣는 행태를 취하고 있다"고 악용 사례를 지적했다. 그는 "현재 벤치마크 종목도 공개된 상태"라며 "개발사는 평가 데이터를 모델에 넣지 않아도, 벤치마크 종목과 유사한 데이터를 생성할 수는 있다"고 설명했다. 모델이 벤치마크 종목 데이터를 집중 학습함으로써 점수를 올릴 수 있는 셈이다. 이런 상황은 해외서도 발생했다. 앞서 마이크로소프트는 SLM '파이-1'이 리더보드에서 오픈AI의 GPT-3.5를 능가했다고 발표한 바 있다. 당시 미국 개발자들은 해당 모델을 직접 테스트한 후 점수가 과장됐다고 지적했다. 이를 증명하는 논문까지 발표된 바 있다. 개발사들이 자사 모델에 '리더보드 1위' 이름표를 붙이려는 이유는 따로 있다. 모델 홍보 효과와 투자 유치에 유용한 수단이기 때문이다. 업계 관계자는 "기업이 자사 LLM을 리더보드 상위권에 올리면 해당 기업 주가도 덩달아 오른다"며 "추후 투자자들에게도 이를 적극 어필한다"고 설명했다. 그는 "투자가 급하거나 주식 상승 효과를 보고 싶은 기업이 리더보드를 통해 자사 모델 홍보를 하는 추세"라며 "돈 있는 기업이거나 AI 전문가들은 리더보드에 관심 없다"고 했다. 업스테이지 "해당 현상 알고 있어…조치 논의 중" 지난해부터 NIA와 오픈 Ko-LLM 리더보드를 운영하는 업스테이지도 해당 현상을 인지하고 있다고 밝혔다. 업스테이지 관계자는 "벤치마크 항목은 공개 정보"라며 "개발자는 유사 데이터를 생성할 수 있어 악용 사례가 나올 수밖에 없는 구조"라고 설명했다. 기업이 모델 학습 범위를 평가데이터로만 한정해 점수만 올리려는 '오버피팅'이 가능한 셈이다. 다만 "자사 리더보드는 프라이빗 데이터셋으로 운영된다"며 "개발사가 평가 데이터를 직접 넣을 순 없다"고 덧붙였다. 관계자는 "최근 기업들이 오버피팅으로 모델 점수와 순위를 높이는 상황을 알고 있다"며 "이는 리더보드 생태계 취지와 부합하지 않는다"고 했다. 그는 "업스테이지는 내부적으로 오버피팅을 비롯한 유사 데이터 생성 방지를 막기 위해 징벌 조치를 논의하고 있다"며 "NIA와 상의를 통해 리더보드 평가 과목, 방식을 전면 교체함으로써 악용 사례를 막을 계획"이라고 말했다.

2024.03.26 14:50김미정

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"요금 올리거나, 무료 풀거나"…OTT, 전략 분화

"책 대신 '아이패드'로 수업을"…디지털이 바꾼 교실 풍경은

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

[ZD브리핑] 아시아 IT 박람회 컴퓨텍스 개최...21대 대선 후보 첫 토론회

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현