• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
AI페스타
배터리
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'음성'통합검색 결과 입니다. (59건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

코레일, 고객센터 'AI 챗봇' 누적 이용 100만건 돌파

한국철도공사(코레일)는 지난 2월 도입한 인공지능(AI) 챗봇 누적 이용건수가 100만건을 돌파했다고 14일 밝혔다. 'AI 챗봇'은 챗봇과 대화하며 열차 승차권을 예약하고 맞춤형 상담도 받을 수 있는 서비스다. 모바일 앱 '코레일톡'에서 채팅으로 지원하는 'AI 채팅 챗봇'과 철도 고객센터로 전화하면 연결되는 '음성 AI 챗봇'이 있다. 지난 8월에는 AI 챗봇 이용 건수가 한 달 14만건, 하루 평균 약 4천500건을 기록했다. 챗봇을 이용하는 고객 비율은 45.1%로, 이용객 절반가량은 상담사 연결 대신 챗봇을 이용하는 셈이다. 코레일은 반복적인 단순 문의(열차시각 조회·예매 정보 확인·승차권 반환 등)에 대한 응답을 AI로 자동화해 신속하게 응대하고, 24시간 문의가 가능하다는 점이 인기 요인인 것으로 분석했다. 코레일은 AI 챗봇에 시나리오 기반 자동 답변생성·안내, 음성인식·합성, 자연어 처리 기능을 탑재해 신속성과 정확성을 높였다. 그 결과 채팅상담 응답률이 72%('24년 평균)에서 96%로 상승했다. 한편, 코레일은 지난 2월 세계 최초로 승차권 구매와 상담을 동시에 처리하는 장애인 전용 음성 AI 챗봇 서비스를 도입했다. 시각·지체 장애인인 철도회원이 코레일톡에 접속하면 음성챗봇으로 자동 연결된다. 차성열 코레일 여객사업본부장은 “AI 챗봇으로 빠르고 편리한 상담 서비스를 제공할 수 있게 됐다”며 “앞으로도 디지털 기술을 활용해 고객에게 편의를 제공할 수 있도록 개선해나가겠다”고 밝혔다.

2025.09.15 09:44주문정

"차량 내 도청 막는다"…지슨 내년 상반기 '알파-V' 출시

융합 보안 전문 기업 지슨이 차량 내부에서의 대화·통화 등 음성 커뮤니케이션을 도청 및 유출 시도로부터 예방하는 보안 시스템을 내년 상반기 선보일 예정이다. 지슨은 내년 상반기에 차량용 커뮤니케이션 보안 시스템인 '알파-V(Alpha-V)'를 출시할 예정이라고 10일 밝혔다. 차량 내부는 이동 수단인 동시에 종종 집무실이 된다. 특히 사업가·법인 임원·유명 인사 등이 주로 탑승하는 대형·준대형 등의 차량에서는 이동 중 오가는 대화나 통화가 기업의 중요 정보, 민감한 내부 사안과 직결되는 경우가 많다. 문제는 차량 내부에 반입·은닉된 무선 송수신 장치나 녹음기를 통해 이러한 대화가 외부로 새어 나가거나, 동승자·운전기사 또는 내부자 등의 녹음 파일이 폭로 형태로 공개되는 사례가 반복적으로 보도되고 있는 만큼 이같은 도청·유출을 막기 위한 솔루션을 선보이겠다는 것이다. 알파-V는 차량 내부에 설치돼 무선주파수(RF)를 악용한 무선도청과 녹음기 등을 통한 대화 유출 시도를 막는 제품이다. 도청 의심이 인지되는 경우 실시간으로 즉각 대응도 가능하다. 특히 지슨이 자체 연구개발한 인공지능(AI) 기반의 음성 분석 기술이 적용되어 탑승자의 음성을 학습 및 분석해 도청 장치나 녹음기에 음성이 유입되는 것을 원천적으로 차단한다. 이는 차량 내부 공간을 물리적인 방음 시설처럼 분리를 하지 않고도 효과적으로 커뮤이케이션 보안을 수립할 수 있다는 장점이 있다. 차량용 도청 예방 장비 관련 시장도 활짝 열려 있다. 준대형·대형 세단, 대형 SUV 등 법인 임원·유명 인사·대형 승용차 이용이 잦은 차량군의 경우 국내 신규등록(출고·판매) 약 170만대 수준의 시장 가운데 약 14%를 차지하는 것으로 나타났다. 국내 자동차 등록 대수는 누적 기준 2600만대에 달한다. 지슨은 기업 임원·전문직·대외 활동이 잦은 차량 이용자를 중심으로 초기 수요가 형성될 것으로 예상하고 있다. 지슨은 내년 상반기 출시 이후 특정 대상 차량을 중심으로 단계적 보급 확대를 추진할 방침이다. 지슨은 도입 전략으로 주요 렌터카·카셰어링·금융사 등과의 파트너십을 기반으로 제품 렌탈 모델을 전개하고, 시범 도입 규모를 유효시장의 1%(약 2400대) 규모로 상정했다. 지슨은 무선보안 원천기술을 국내에서 유일하게 보유한 첨단 융합보안 기업으로, 중앙정부·공공기관·지자체·민간기업 및 해외 등 400여 곳에 상시형 도청 탐지 제품을 공급하고 있다. 앞으로 지슨은 올해 중으로 알파-V의 프로토타입을 개발하고, 성능 검증에 착수한다. 의무 인증 취득과 함께 양산 체계도 확정할 예정이다. 양산 초기에는 렌탈·리스 채널을 중심으로 구독형 체계로 보급하며 점유율을 지속적으로 견인할 예정이다. 지슨 관계자는 "차량 내 커뮤니케이션 보안은 더 이상 선택이 아니라 필수 요소"라며 "무선보안 원천기술을 바탕으로 24시간 상시형 탐지 하드웨어 모듈,그리고 핵심적인 인공지능(AI) 음성 분석 기술을 융합하여 차량 실내 보안의 업계 표준을 만들겠다"고 밝혔다.

2025.09.10 14:37김기찬

네이버D2SF, 음성 AI 모델 평가 스타트업 '포도노스' 신규 투자

네이버D2SF는 음성 인공지능(AI) 모델 평가 솔루션을 개발한 스타트업 '포도노스'에 신규 투자했다고 10일 밝혔다. 이번 프리 시드 라운드는 미국의 세락 벤처스가 리드한 포도노스의 첫 기관 투자 유치로, 국내에서는 네이버 D2SF와 카이스트청년창업투자지주가 함께 참여했다. 포도노스가 집중하고 있는 음성 AI는 ▲음성 인식 및 합성 ▲고객 대응 ▲콘텐츠 산업 등에 빠르게 확산 중이고, AI 에이전트 인터페이스로서의 성장 가치도 높다고 회사 측은 평가했다. 또한 ▲단순 발음의 정확도뿐만 아니라 ▲억양 ▲감정 표현 ▲페르소나 ▲선호도 ▲노이즈 등 평가 요소가 다양다. 포도노스는 전 세계 15만명의 평가 인력과 자체 개발한 AI 자동화 솔루션을 활용해 고객의 요구를 고려한 음성 AI 모델 평가 결과를 12시간 내에 제공한다. 포도노스의 고객은 AI 밸류체인에서 AI 모델 개발 기업, AI를 활용해 서비스를 만드는 기업 모두를 아우른다. AI 모델 기업은 성능 입증 및 개선 도구로, AI를 활용하는 기업은 목적과 타겟에 최적화한 모델 탐색 및 모니터링 도구로 포도노스 솔루션을 활용 중이다. 실제로 포도노스는 리셈블 AI, 플레이 AI 등 글로벌 AI 스타트업들로부터 가치와 품질을 인정받고 있으며, 테크 전문 커뮤니티 및 미디어에서도 포도노스의 평가 결과를 인용하고 있다. 향후 포도노스는 헬스케어·금융·게임·광고 등 음성AI 수요가 다양한 분야 중심으로 고객사를 확장하고 다양한 모달리티로 평가 범위를 넓혀갈 계획이다. 양상환 네이버 D2SF 센터장은 “AI 모델이 쏟아지는 가운데 AI를 잘 활용하기 위한 AI, 즉 AI를 위한 AI의 중요성은 점차 커지고 있다”며 “포도노스는 음성 AI 성능을 정량적으로 평가 및 검증하는 희소한 팀으로 음성 AI의 성장과 함께 글로벌 시장에서 존재감을 확고히 다지는 한편 네이버와도 협업 시너지가 클 것”이라고 말했다.

2025.09.10 10:21박서린

"더 똑똑하게 말한다"…오픈AI, 음성 모델·API 정식 출시

오픈AI가 음성 인공지능(AI) 에이전트 개발에 바로 활용할 수 있는 모델과 API 정식 버전을 공개했다. 29일 오픈AI는 음성 대화 모델 'gpt-리얼타임'과 API를 출시했다고 공식 홈페이지를 통해 밝혔다. gpt-리얼타임은 사용자의 지시를 이해하고, 자연스러운 음성 생성과 정확한 데이터 호출이 가능한 보이스-투-보이스 모델이다. 오픈AI가 이 모델을 지난해 10월 프리뷰 버전으로 공개한 후 개선을 거쳐 이번에 정식 출시했다. 해당 모델은 고객 지원 통화에서 면책 문구를 한 글자도 틀리지 않고 읽어주거나, 영어·숫자 문자열을 정확히 반복하거나, 문장 중간에 자연스럽게 언어를 전환하는 등 시스템 메시지와 개발자 프롬프트를 기존보다 더 잘 해석할 수 있다. 오픈AI는 gpt-리얼타임 음성 기능을 기존보다 자연스럽게 만들기 위해 새 음성 '시더(Cedar)'와 '마린(Marin)'을 추가했다. 기존 8개 음성도 업그레이드했다. 현재 전화번호 인식 정확도는 기존 모델 대비 65.6%에서 82.8%로 올랐다. 특정 지시에 대한 처리 기능도 20.6%에서 30.5%로 향상됐다. 복잡한 함수 호출 정확도도 49.7%에서 66.5%로 증가한 것으로 나타났다. gpt-리얼타임 이용 요금은 음성 입력 100만 토큰당 32달러, 캐시 입력 0.4달러, 음성 출력 64달러다. 이는 기존 GPT-4o-리얼타임-프리뷰(gpt-4o-realtime-preview) 모델보다 약 20% 저렴한 수준이다. 리얼타임 API는 텍스트 기반 입력 없이 음성 인식과 오디오 처리를 직접 할 수 있다. 이를 통해 지연 시간을 줄이는 식이다. 오픈AI는 수천명의 개발자 피드백을 반영해 API의 안정성과 응답 속도를 대폭 개선했다고 밝혔다. 사용자는 원격 모델 컨텍스트 프로토콜(MCP) 서버를 연결해 도구를 자동으로 활용할 수 있다. 이미지 입력을 통해 화면에 보이는 내용 바탕으로 대화를 이어갈 수도 있다. 여기에 전화 연결 기능까지 지원돼 기업 전화망이나 데스크폰과도 직접 연동할 수 있다. 오픈AI는 "기업과 개발자는 지연 시간을 줄이면서도 음성의 뉘앙스를 살릴 수 있을 것"이라며 "더 자연스럽고 표현력 있는 응답을 경험할 수 있을 것"라고 밝혔다.

2025.08.29 16:54김미정

스카일로, 상용 협대역 NTN 망에서 음성통화 시연

스카일로가 상용 협대역 비지상 네트워크(NTN) 기반 음성통화를 세계 최초로 성공했다고 28일 밝혔다. '스카일로 보이스 게이트웨이'를 통해 구현된 기술이다. 게이트웨이는 AI 기반 음성 코덱을 적용해 통화 품질을 유지하면서 데이터 사용량을 기존 셀룰러 대비 90% 이상 절감했다. AI 네이티브 방식으로 설계돼 통신 품질과 데이터 효율의 균형을 최적화했으며, 위성 링크의 물리 신호를 SIP, RTP와 같은 표준 프로토콜로 변환해 기존 이동통신사 코어망과 손쉽게 연동된다. 이를 통해 사용자는 스마트폰만으로도 별도 장비 없이 NTN 기반 음성통화를 실시간으로 이용할 수 있다. 스카일로는 이 기술을 활용해 지역별로 매월 수천만 건의 통화 처리가 가능한 상용 네트워크 기반도 확보하고 있다. 스카일로는 3GPP 기반 NTN 음성통화 표준화 작업도 병행하고 있다. 지난 6월 3GPP 총회에서 스카일로와 파트너사가 공동 제출한 'NTN 네이티브 음성통화' 제안이 차세대 통신 표준인 릴리즈 20(Rel. 20) 공식 작업 항목으로 채택됐다. 단말과 칩셋 연동도 병행되고 있다. 스카일로는 삼성전자 시스템LSI사업부와 함께 엑시노스 칩셋 기반의 NTN 음성통화 테스트를 진행하고 있다. 이를 통해 제조사 입장에서는 별도 하드웨어 추가 없이 위성 기반 통신 기능을 구현할 수 있고, 시장 경쟁력과 수익 모델 다각화에도 도움이 될 수 있다. 아울러 스카일로는 독일 프라운호퍼 집적회로연구소와 협력해 AI 기반 저용량 고효율 음성 코덱(NESC) 기술을 도입하고 있으며, 이를 통해 음성 품질을 유지하면서도 데이터 전송 효율을 극대화할 수 있는 기술 기반을 마련하고 있다. 타룬 굽타 스카일로 최고제품책임자 겸 공동 창업자는 “이번 성과는 MNO가 수익을 창출할 수 있는 새로운 서비스를 제공하는 데 필요한 기반 기술을 확보했다는 점에서 큰 의미가 있다”며 “3GPP 기반 표준 프로토콜, AI 기반 음성 코덱, 칩셋 수준의 깊은 통합, 상용화된 NTN 네트워크가 결합되면서 모바일 통신의 새로운 시대가 열리고 있다”고 말했다.

2025.08.28 14:18박수형

"읽지 말고 들으세요"...구글, '제미나이' 앞세워 문서 패러다임 전환 선언

구글이 '제미나이'를 활용해 문서 콘텐츠를 음성으로도 제공하며 콘텐츠 소비 방식의 변화를 꾀한다. 텍스트 기반의 정보 습득 방식을 청각 영역으로 확장하려는 시도다. 20일 더버지에 따르면 구글은 '구글 워크스페이스 문서'에 '제미나이' 기반의 AI 오디오 생성 기능을 도입한다. 이번 업데이트는 데스크톱 버전에 우선 적용되며 영어 문서부터 지원을 시작한다. 사용자는 두 가지 방식으로 이 기능을 활용할 수 있다. 공유 문서를 읽는 사람은 '도구' 메뉴의 '오디오' 항목을 통해 듣기를 시작할 수 있다. 문서 작성자는 '삽입' 메뉴에서 '오디오' 버튼을 추가해 독자가 클릭 한 번으로 콘텐츠를 들을 수 있도록 설정 가능하다. 새 기능은 단순 낭독을 넘어 사용자 맞춤 설정도 지원한다. 이용자는 AI가 생성하는 음성의 종류를 선택할 수 있으며 자신의 청취 습관에 맞춰 재생 속도 조절도 가능하다. 이는 지난 4월 구글이 언급했던 'AI 팟캐스트' 구상을 보다 실용적으로 구현한 형태다. 다만 모든 사용자가 이 기능을 즉시 이용할 수 있는 것은 아니다. '구글 워크스페이스'의 비즈니스 엔터프라이즈 교육용 유료 요금제 가입자와 AI 프로 및 울트라 구독자에게 우선적으로 기능이 개방된다. 더 버지는 "이 기능은 자신이 작성한 내용을 그저 듣고 싶을 때 편리하게 사용할 수 있을 것으로 보인다"고 평가했다.

2025.08.20 11:56조이환

투플랫폼, 30개 언어 구사하는 'AI 목소리' 공개…글로벌 비즈니스 혁신 이끈다

투플랫폼이 다양한 언어로 인간의 감정까지 표현하는 인공지능(AI) 음성 기술을 통해 글로벌 비즈니스 환경 개선을 선언했다. 투플랫폼은 29일 초고품질 다국어 음성 생성 모델 '수트라 하이파이'를 공식 출시했다. 이 모델은 한국어와 영어를 포함해 힌디어, 베트남어, 아랍어 등 30여 개 언어를 지원한다. 초저지연 실시간 음성 합성을 통해 기존 기계음과 차별화되는 고품질 음성을 제공하는 것이 특징이다. '수트라 하이파이'는 투플랫폼이 자체 개발한 AI 모델 '수트라'의 다국어 역량을 음성 영역까지 확장한 결과물이다. 기존 텍스트 요약, 질의응답, 번역 기술에 음성 합성을 통합한 것이다. 이를 통해 텍스트 이해와 음성 생성을 하나의 생태계에서 유기적으로 연결해 일관된 사용자 경험을 제공한다. 기업은 '수트라 하이파이'의 맞춤형 목소리 생성 기능을 활용해 브랜드가 추구하는 이미지에 어울리는 목소리를 만들 수 있다. 이는 브랜드 정체성을 강화하는 동시에 사용자 몰입도를 높이는 효과를 낸다. 투플랫폼은 '수트라 하이파이'를 활용한 AI 고객 상담 솔루션도 선보였다. 이 솔루션은 다국어 음성 자동 응답 기능을 통해 단순 문의는 AI가 처리하고 복잡한 문의는 즉시 상담사에게 연결한다. 산업별 전문 용어와 다양한 고객 응대 시나리오를 학습해 정교한 대응이 가능하다. 실제 KS한국고용정보는 해외 콜센터 운영에 해당 솔루션을 도입했다. 외국인 상담사는 번역을 지원하는 AI 채팅 기능으로 한국어 메시지를 이해하고 상담 톤앤매너에 맞춘 응답 메시지를 자동으로 작성한다. 그 결과 고객 응답 시간과 운영 비용이 모두 줄었다. 양측은 2~3개월 내 24시간 다국어 고객 문의에 응답하는 AI 음성 콜봇도 적용할 계획이다. 콜봇이 도입되면 운영 효율화 효과는 극대화될 전망이다. 이번 출시는 투플랫폼의 '서비스형 AI(AIaaS)' 전략의 핵심이다. 회사는 수트라 기반의 여러 AI 기능을 응용 프로그램 인터페이스(API)나 모듈 형태로 제공한다. 기업들이 각자 환경에 맞춰 신속히 AI를 도입하고 실제 서비스에 통합하도록 돕는 방식이다. 활용 범위는 컨택센터에 국한되지 않는다. 미디어 분야에서는 다양한 언어와 감정을 담은 음성 콘텐츠 자동 생성 및 더빙으로 제작 비용을 줄일 수 있다. 교육 분야에서는 몰입형 음성 콘텐츠나 AI 튜터를 통해 학습 혁신을 꾀할 수 있다. 이외에도 커머스 분야의 구매 전환율 개선이나 헬스케어 기업의 자연어 상담 대응에도 적용이 기대된다. 프라나브 미스트리 투플랫폼 대표는 "AI 음성 기술은 이제 단순한 텍스트 낭독을 넘어 사람의 감정과 뉘앙스까지 전달하며 산업의 판도를 바꾸고 있다"며 "'수트라 하이파이'는 글로벌 고객을 확보하고 지원할 수 있게 도움으로써 기업의 해외 비즈니스 환경을 개선한다"고 밝혔다.

2025.07.29 17:04조이환

미스트랄AI, 음성 모델 '복스트랄' 공개…오픈소스 인터페이스 '가속화'

음성 인공지능(AI)이 파운데이션 모델에 통합되는 흐름 속에서 미스트랄AI가 다국어 인식과 자연어 이해를 통합한 오픈소스 음성모델을 선보였다. 16일 미스트랄AI 블로그에 따르면 이 회사는 지난 15일 '복스트랄(Voxtral)' 시리즈를 출시했다. 총 240억 파라미터 규모의 프로덕션형 모델과 30억 파라미터 규모의 엣지형 모델 두 가지가 있으며 '아파치2.0 라이선스' 하에 허깅페이스를 통해 다운로드할 수 있다. '복스트랄'은 질문 응답, 요약, 기능 호출까지 처리 가능한 '음성 이해 모델'로 설계됐다. 최대 32K 토큰 맥락 처리로 40분 분량의 오디오까지 대응하며 영어, 독일어, 힌디어, 프랑스어 등 다국어 자동 인식이 가능하다. 기능 면에서도 기존 모델 대비 확실한 차별점을 드러낸다. 미스트랄 측은 "'복스트랄 미니 트랜스크라이브'가 오픈AI의 '위스퍼' 대비 비용 대비 정확도에서 우위에 있다"며 "'복스트랄 스몰'은 일레븐랩스의 '스크라이브' 수준의 성능을 절반 비용으로 제공한다"고 밝혔다. 평가 지표에서도 강점을 보였다. '복스트랄'은 리브리스피치, 스위치보드, 보크스포퓰리 등 다수 영어 벤치마크에서 오픈소스 모델 중 최고 수준의 낮은 오류율을 기록했다. 더불어 이 모델은 미스트랄 '스몰 3.1'의 언어 이해 능력을 계승해 일반적인 자연어 처리(NLP) 작업에도 활용 가능하다. 기업 고객을 위한 고급 기능도 제공된다. 프라이빗 온프레미스 구축, 의료·법률 등 도메인 특화 파인튜닝, 고급 화자 분리 및 감정 인식, 워드 레벨 타임스탬프 지원 등이 포함된다. 멀티 그래픽처리장치(GPU) 환경을 고려한 경량화도 적용돼 대규모 배포에도 적합하다. '복스트랄'은 '르샤(Le Chat)' 플랫폼 내 음성 모드로도 연동돼 일반 사용자도 음성 녹음 혹은 업로드를 통해 실시간 활용 가능하다. 추후 스피커 구분, 감정 인식, 비음성 사운드 감지 등 다양한 음성 주석 기능이 추가될 예정이다. 미스트랄AI는 "'복스트랄'을 통해 누구나 통제 가능하고 고성능인 음성 지능 시스템을 구축할 수 있게 됐다"며 "가볍고 개방된 설계로 다양한 환경에서 활용 가능성을 넓혔다"고 강조했다.

2025.07.16 17:56조이환

이어가다 '나디오', 개인 목소리 복제하는 'AI 보이스클로닝' 출시

오디오 콘텐츠 플랫폼 '나디오'를 운영하는 이어가다(공동대표 박현아·최자인)가 개인의 음성을 복제하는 'AI 보이스클로닝' 서비스를 출시했다고 14일 밝혔다. 이어가다는 콘텐츠 제작자들이 음성 합성을 위해 방대한 음성 데이터와 복잡한 사전 설정을 거쳐야 하는데서 발생하는 불편함을 파악, 5초 분량의 짧은 음성만으로도 목소리를 복제해주는 AI 보이스클로닝을 선보이게 됐다. AI 보이스클로닝은 별도의 장비를 구비할 필요없이 PC나 모바일 기기에 내장된 마이크를 통해 음성을 녹음하면, AI가 이용자의 말투, 억양, 감정 등을 분석 후 생성한 음성으로 다양한 문장을 자연스럽게 읽어주는 것이 특징이다. 이어가다는 이번 AI 보이스클로닝 서비스를 자사의 숏폼 콘텐츠 자동 생성 시스템과 연동해 제작자들이 보다 손쉽게 고품질 음성 콘텐츠를 만들 수 있도록 제작 환경을 지원하는데 주력할 예정이다. 2021년 오디오 콘텐츠 플랫폼 '나디오'를 출시를 시작으로 이어가다는 네이버, KT, 교보생명 등 다양한 기업과 협업해 MZ세대의 취향에 맞는 콘텐츠를 제작해왔다. 현재 자체 개발한 TTS(텍스트 음성 변환) 기술을 기반으로 콘텐츠·미디어 기업에 맞춤형 음성을 제공 중에 있다. 박현아·최자인 이어가다 공동대표는 "최근 콘텐츠 제작 환경에서 보이스클로닝 기술에 대한 수요가 빠르게 증가하고 있다"며 "이번 서비스는 최소한의 음성만으로도 자연스러운 발화가 가능하도록 설계돼 누구나 손쉽게 개인화된 음성을 활용할 수 있게끔 하는 데 중점을 뒀다"고 말했다.

2025.07.14 13:39백봉삼

미세 혈액량으로 유방암 진단 성공…"대규모 임상은 숙제"

미세한 혈액량(0.05㎖)으로 유방암 재발 여부를 예측할 수 있는 기술이 개발됐다. 그러나 임상 시험은 향후 풀어야할 숙제가 됐다. 한국기초과학지원연구원(원장 양성광, KBSI)은 디지털오믹스연구부 정영호·현주용 박사 연구팀이 혈액 기반 비침습적 진단법으로 삼중음성유방암의 재발을 조기에 예측할 수 있는 새로운 기술을 개발했다고 7일 밝혔다. 삼중음성유방암은 표적 항암제가 작용하는 3가지 수용체가 모두 없는 유형이다. 다른 종류의 유방암보다 전이·재발 위험이 높아 예후 예측이 특히 중요하다. 이 연구에는 연세대학교(총장 윤동섭) 의과대학 김승일 교수·김민우 박사, 기계공학과 정효일 교수, 성신여자대학교(총장 이성근) 바이오신약의과학부 현경아 교수 등이 공동 참여했다. 연구팀은 유방암 환자 혈액에서 추출한 종양 유래 엑소좀(tdEVs) 단백체를 심층 분석, 특정 단백질(ECM1, MBL2, BTD, RAB5C) 4종이 삼중음성유방암 재발 및 예후 예측을 위한 강력한 바이오마커 후보임을 입증했다. 연구팀은 이를 위해 독자적인 미세유체 칩 기반 엑소좀 분리 기술을 개발하고, 머신러닝 기반 알고리즘을 활용해 진단 성능을 극대화했다. 정영호 책임연구원은 "삼중음성유방암 환자군에서 민감도(양성을 양성으로 구별하는 정도) 90%, 특이도(음성을 음성으로 구별하는 정도) 95%에 달하는 높은 진단 성능을 확보했다"고 말했다. 연구팀은 또 'tdEV 단백질 점수'를 활용한 삼중음성유방암 진단에서 AUC 0.986이라는 매우 높은 진단 성능 지표를 확보했다. AUC는 진단테스트 값을 의미한다. 1에 가까울수록 진단 정확도가 뛰어남을 뜻한다. 다만, 이 실험결과는 삼중음성유방암 환자의 동의를 얻은 혈액으로 진행했다. 무작위 혈액 테스트 결과는 아니다. 또 이 기술을 상용화하기 위해선 향후 대규모 임상도 필요하다. 정영호 책임은 "일반 병원에서 흔히 사용하는 엘리사(ELISA) 방식(특정단백질 측정법의 일종)을 통한 교차 검증에서도 유사 수준의 높은 성능을 나타냈다"며 "향후 실제 임상 현장 적용 가능성을 높게 본다"고 설명했다. 정영호 책임은 "이번 연구는 단백질 기반 액체생검이 실제 임상 진단에 활용될 수 있음을 시사한 중요한 사례”라며, "삼중음성유방암 환자에 대한 정밀의학 기반의 맞춤형 사전 대응이 가능해질 것"이라고 강조했다. 연구는 한국기초과학지원연구원 멀티오믹스 빅데이터 융합 플랫폼 구축사업과 과학기술정보통신부·한국연구재단 중견연구자 지원사업, 세종과학펠로우십 사업, 차세대 유망 SEED 기술실용화 패스트트랙 사업 및 세브란스병원 임상우수연구기금 사업 지원을 받았다. 연구결과는 엑소좀 연구 국제 학술지(Journal of Extracellular Vesicles)에 6월 23일자 온라인판에 게재됐다.

2025.07.07 10:18박희범

이랜드리테일 킴스클럽, 음성·고창 수박 할인 행사 진행

이랜드리테일이 운영하는 대형마트 킴스클럽은 본격적인 바캉스 시즌을 맞아 오는 9일부터 11일까지 3일간 충북 음성, 전북 고창 수박 할인행사를 진행한다고 7일 밝혔다. 행사 제휴 카드로 결제하는 고객은 9kg 미만 수박, 8kg 미만 수박, 7kg 미만 수박을 각 2천원 할인된 가격에 구매할 수 있다. 이랜드리테일은 수박 산지인 충북 음성과 전북 고창의 농가와 사전 기획을 통해 물량을 선제적으로 확보했다. 주산지가 남쪽에서 북쪽으로 이동하는 시기에 맞춰 기존 논산, 부여 산지의 공백을 메우는 전략이다. 특히 고온 현상이 지속되면 과숙 상품인 일명 '피수박' 발생 확률이 높아져 고품질 수박을 선별하는 것이 중요해진다. 이랜드리테일은 자체 농산물산지유통센터(APC)에서 비파괴 당도 선별기를 통해 11브릭스(Brix) 이상의 고당도 수박만을 엄선해 유통한다. 이 같은 산지 직계약 시스템은 중간 유통 단계를 축소해 불안정한 시장 상황에서도 농가에 안정적인 판로를 제공하고, 소비자에게는 고품질의 상품을 공급하는 역할을 한다. 이랜드리테일 관계자는 “때 이른 폭염으로 고품질 수박 확보 경쟁이 치열한 상황”이라며 “다년간 구축한 산지 네트워크와 인프라를 통해 고객들이 최상의 맛을 지닌 수박을 즐길 수 있도록 물량 확보에 총력을 다하고 있다”고 말했다.

2025.07.07 10:10김민아

KAIST, 무한대 음성 학습·평가 가능한 언어모델 공개

이론적으로 무한대로 음성을 생성할 수 있는 음성언어모델(SLM)이 공개됐다. 이 모델은 영어로된 텍스트를 자연스럽게 음성으로 전달한다. KAIST(총장 이광형)는 전기및전자공학부 노용만 교수 연구팀 박세진 연구원(박사과정)이 새로운 음성 언어 모델 '스피치SSM'을 개발했다고 4일 밝혔다. 노용만 교수는 "현재 공개한 건 영어 텍스트를 여성 음성으로 만들었다"며 "향후 박세진 연구생(박사과정)이 메타(페이스북) 인턴을 마치고 돌아오면 한글로 된 음성도 만들어 공개하게 될 것"이라고 말했다. 연구 결과는 머신러닝 국제 컨퍼런스(ICML) 2025에 구두 논문 발표 대상으로 확정됐다. 구글 딥마인드와 협력해 오는 16일 열릴 국제머신러닝학회(ICML)에서 구두로 발표할 예정이다 음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리한다. 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다. 이같은 장점에도 불구하고 SLM은 음성을 아주 세밀하게 잘게 쪼개 자세한 정보까지 담는 경우, '음성 토큰 해상도'가 높아지고 메모리 소비도 증가해 장시간 일관성 있는 음성 생성이 어려웠다. 연구팀은 이 문제를 해결하기 위해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있도록 정보에 집중하는 '어텐션 레이어'와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 '순환 레이어'를 교차 배치한 '하이브리드 구조' 로 설계했다. 노용만 교수는 "이 구조가 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다는 것을 연구팀이 확인했다"고 설명했다. 연구팀은 또 음성 데이터를 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들었다. 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식의 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있도록 했다. 연구팀은 "기존은 100초 정도 짧은 음성 모델을 평가했지만, 우리는 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 '라이브리스피치-롱(LibriSpeech-Long)'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다"고 설명했다. 논문 제1저자인 박세진 연구생(박사과정)은 “긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답한다"며 "다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 덧붙였다.

2025.07.04 09:01박희범

'클로드'도 AI 보이스 시장 참전…앤트로픽, 음성 기능 베타 출시

오픈AI가 선보인 챗GPT의 음성 기능이 인기를 끄는 가운데 경쟁사인 앤트로픽도 클로드 모델의 음성 인공지능(AI) 모드 출시를 예고하며 주목받고 있다. 28일 테크크런치에 따르면 앤트로픽은 클로드 음성 기능 베타 버전을 출시했다. 앞으로 몇 주 내에 정식 출시될 예정으로, 음성 기능은 앤트로픽의 클로드 소넷4 모델로 구동된다. 모바일 앱에서도 이용할 수 있다. 앤트로픽은 음성 기능을 활용해 사용자와 클로드 모델 간의 상호 작용 방식을 혁신한다는 목표다. 최근 오픈AI를 비롯한 여러 AI 기업이 자사 챗봇에 음성 채팅 기능을 통합해 제공 중이다. 챗GPT뿐만 아니라 구글은 제미나이 라이브를, xAI는 그록 모델의 보이스 모드를 서비스 중이다. 이런 추세에 맞춰 앤트로픽도 클로드의 음성 기능을 출시하게 됐다. 앤트로픽이 베타 버전으로 출시한 음성 기능은 문서나 이미지 등에 대한 대화도 지원한다. 서비스하는 음성 옵션은 총 다섯 가지이며 텍스트 모드와 음성 모드를 즉시 전환하고 대화 후 요약도 제공한다. 다만 현재는 베타 버전이기에 사용량에 제한이 있는 것으로 알려졌다. 클로드 무료 사용자는 20~30개의 대화만이 가능하다. 반면 유료 사용자는 음성 모드를 통해 구글 캘린더와 지메일 등 구글 워크스페이스와 연동된 서비스도 이용할 수 있다. 앤트로픽 측은 "주요 파트너사인 아마존, 음성 AI 스타트업 일레븐랩스와 향후 클로드의 음성 기능 고도화를 위한 논의를 진행 중"이라고 밝혔다.

2025.05.28 11:37한정호

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼

[AI는 지금] 앤트로픽도 'AI 음성 비서' 경쟁 가세…오픈AI·아마존·애플·삼성 넘을까

'오픈AI 대항마'로 꼽히는 앤트로픽이 자사 인공지능(AI) 챗봇인 '클로드'를 활용한 새로운 음성 비서 제품을 출시한다. 생성형 AI를 탑재한 'AI 음성 비서'가 최근 우후죽순 쏟아지면서 글로벌 빅테크의 새로운 격전지가 된 가운데 앤트로픽이 존재감을 키울 수 있을 지 주목된다. 16일 블룸버그통신에 따르면 앤트로픽은 '음성 모드'라고 불리는 새로운 기능을 이르면 이달 중 출시할 것으로 알려졌다. 음성 지원 기능의 도입으로 텍스트 입력 방식보다 훨씬 자연스럽게 AI와 소통할 수 있을 것으로 보인다. 초기에는 제한적인 서비스만 선보일 예정으로, '에어리'와 '멜로우', 영국식 억양의 '버터리' 등 세 가지 음성을 도입할 것으로 전해졌다. 앞서 앤트로픽은 '클로드'에 음성 기능을 추가하기 위해 음성 AI 스타트업 일레븐랩스, 아마존과 협력 중이란 소식이 전해진 바 있다. 앤트로픽 경영진도 음성 옵션을 개발 중이라고 밝힌 바 있지만, 구체적인 출시 일정과 세부 사항은 알려지지 않았다. 앤트로픽의 '음성 모드' 출시 소식은 앱 연구원 M1아스트라(M1Astra)가 앤트로픽의 코드에서 발견해 블룸버그통신에 공유하며 드러났다. 앤트로픽은 이번 일에 대해 공식 입장을 밝히지 않았다. 업계에선 앤트로픽의 이 같은 행보가 경쟁사인 오픈AI와의 격차를 줄이기 위한 움직임으로 해석했다. 앤트로픽이 최근 '클로드 리서치'란 기능을 추가한 것도 지난 2월 발표된 오픈AI '딥 리서치'를 견제하기 위한 것으로 보는 시각이 많다. 이 외에 구글 '제미나이', 미스트랄 '르샤' 역시 웹 검색 기능을 제공하고 있다. 여기에 앤트로픽은 클로드 이용자가 업무를 간소화할 수 있도록 지메일(Gmail), 구글 캘린더, 구글 문서도구에서 검색할 수 있는 기능도 조만간 추가할 예정으로, 기능 강화를 통해 시장 주도권을 잡겠다는 방침이다. 업계 관계자는 "앤트로픽의 음성 기능 도입은 경쟁사들에 비해 다소 늦은 편"이라며 "오픈AI, 구글, xAI 등은 이미 음성 기능을 공개했고 메타도 음성 모드를 강화한 '라마4'를 준비 중"이라고 말했다. 일각에선 앤트로픽이 경쟁사에 비해 다소 늦게 음성 기능을 도입한 만큼 경쟁사들보다 존재감을 더 드러낼 수 있을지 의문을 드러내기도 했다. 현재 AI 음성 비서 시장은 세계 최대 전자상거래 업체 아마존의 '알렉사 플러스'와 삼성전자 '빅스비', 구글 '제미나이 라이브', 애플 '시리' 등과 함께 오픈AI가 경쟁을 벌이고 있다. 특히 지난해 오픈AI의 GPT-4o 등장 후 AI 음성 비서 시장은 빠르게 기술 고도화가 진행되고 있다. 업계 관계자는 "알렉사, 시리, 빅스비 등 기존 음성 비서 서비스들은 음성을 텍스트로 바꿔서 인식하고 답변도 텍스트로 먼저 만든 다음 음성으로 합성하는 식이었다"며 "GPT-4o 이후에는 음성을 음성 그 자체로 인식해 처리 과정이 빨라진 데다 목소리에 담긴 감정이나 배경이 섞인 소리도 알아차릴 수 있게 됐다는 점에서 상당한 기술 차이가 있다"고 설명했다. 이처럼 생성형 AI를 활용한 음성 AI 비서 시장에서 빅테크들의 경쟁이 치열해지면서 관련 시장에 대한 전망도 긍정적이다. 실제 일본 시장조사기관 글로벌 인포메이션에 따르면 AI와 머신러닝(ML)을 사용하는 지능형 가상비서(IVA)의 지난해 시장 규모는 147억7천만 달러(약 20조1천억원)로 추정됐다. 2023~2030년 연평균 성장률(CAGR)은 26.2%로, 2030년 시장 규모는 474억 달러(약 64조6천억원)에 달할 것으로 전망된다. 업계 관계자는 "생성형 AI 음성 비서가 앞으로 돈이 될 것으로 보고 빅테크들을 중심으로 앞 다퉈 서비스를 내놓고 있는 분위기"라며 "듣고 말하는 AI가 전 산업에 걸쳐 가져올 변화는 가늠하기 어려울 정도"라고 밝혔다. 블룸버그통신은 "음성 비서는 사람들이 챗봇과 상호작용하는 방식을 바꾸고 사용자의 생산성을 높일 수 있다는 기대와 함께 오픈AI, 구글과 같은 AI 개발 업체의 핵심 기능으로 부상했다"며 "하지만 AI 음성 제품의 등장으로 다른 사람의 말투를 흉내 내는 것에 대한 우려도 커지고 있다"고 지적했다.

2025.04.16 16:12장유미

AI챗봇과 역할 놀이?…성적 대화 유출

인공지능(AI) 챗봇과 성적인 대화를 주고받은 내용이 인터넷에 퍼지는 것으로 나타났다. 성적인 환상을 채우는 역할 놀이를 하려고 설계된 AI 챗봇이 실시간으로 사용자와의 대화 내용을 인터넷에 유출하고 있다고 미국 잡지 와이어드는 11일(현지시간) 보도했다. 미국 정보보호 업체 업가드는 지난달 보안 취약점을 찾다가 인터넷에 노출된 AI 시스템을 400개 발견했다. 이 가운데 117개의 인터넷 프로토콜(IP) 주소에서 대화 내용이 새고 있었다. 유출된 내용을 보면 일부 사용자는 아동 성적 학대를 자세히 그리는 대화를 했다. 미리 설정한 AI 캐릭터와 역할 놀이를 했다. 예를 들어 A라는 한 사람은 학교 기숙사에서 다른 여성 3명과 함께 살고, 내성적인데 종종 슬퍼 보인다는 10대 여성으로 묘사됐다. 업가드 연구원은 “모든 대화가 성적으로 노골적인 역할 놀이였다”며 “일부는 어린이와의 성관계를 얘기했다”고 말했다. 업가드는 어떤 사이트나 서비스에서 정보가 빠져나갔는지는 알아내지 못했다. 다만 기업이 아닌 개인이 쓰는 AI 챗봇에서 일어난 것으로 짐작했다. 대화한 사용자 이름이나 개인정보는 빠져나가지 않은 것으로 알려졌다.

2025.04.12 10:13유혜진

"목소리에 영혼 담겼다"…아마존, 음성 모델 '노바 소닉' 공개

아마존이 사용자 말투와 감정 변화까지 실시간 반영할 수 있는 음성 기반 인공지능(AI) 모델을 공개했다. 9일 아마존은 자사 AI 플랫폼 '아마존 베드록'을 통해 음성 이해와 생성을 통합한 모델 '노바 소닉(Nova Sonic)'을 공식 홈페이지를 통해 발표했다. 이 모델은 고객 서비스와 여행, 헬스케어, 교육 등 산업 분야에서 음성 기반 AI 서비스에 활용된다. 기존 음성 애플리케이션은 음성 인식과 텍스트 처리, 음성 생성 등 기능별로 나뉜 모델을 결합해 사용해야 했다. 이는 시스템 복잡성를 높이고 대화의 자연스러움과 맥락 유지에 한계가 생길 수 있다. 노바 소닉은 음성의 맥락, 말투, 말하는 스타일까지 한 모델에서 반영할 수 있도록 설계됐다. 입력된 음성의 음향 정보를 인식하고, 그에 어울리는 응답을 실시간으로 생성하는 방식이다. 망설임이나 말 끊김, 어조 변화 등 대화의 미묘한 차이를 인지하고 반응할 수 있다. 예를 들어 노바 소닉 기반 여행용 AI 어시스턴트는 사용자의 감정 변화에 따라 목소리 톤과 응답 방식을 조정할 수 있다. 노바 소닉은 텍스트 전사 기능도 갖췄다. 개발자는 이 기능을 통해 음성 입력 데이터 기반으로 외부 API를 호출하거나 여러 툴과 연계한 서비스를 만들 수 있다. 항공편 실시간 조회, 일정 예약, 고객 응대 자동화 등 고차원 작업이 가능한 셈이다. 아마존은 노바 소닉의 추론 속도가 빠르다고 강조했다. 거대언어모델(LLM)과 달리 실시간 응답성에 최적화됐다는 이유에서다. 이에 엔터프라이즈 환경에서도 손쉬운 도입이 가능하다고 강조했다. 아마존은 "노바 소닉은 단일 모델로 음성의 이해와 생성을 모두 처리하는 최초의 시도 중 하나"라며 "향후 음성 기반 AI 기술의 방향성을 제시할 것"이라고 밝혔다.

2025.04.09 16:46김미정

"내 목소리 5초만에 파악"…롯데 AI 기술 집약체 '아이멤버' 新 기능 덕에 업무 효율 ↑

롯데이노베이트가 나만의 목소리를 인공지능(AI)에 학습시킬 수 있는 기능을 선보인다. 롯데이노베이트가 AI 전환(AX) 고도화를 위해 AI 플랫폼 '아이멤버'의 음성 인식 기능을 강화했다고 27일 밝혔다. 롯데이노베이트는 회의록 자동 생성 기능도 향상시켰다. 특히 AI를 활용해 내 목소리를 학습시킨 AI 음성합성 기능인 '나만의 AI 음성'과 음성 커스터마이징이 가능한 음성 합성 기능을 새롭게 선보이며 업무 효율성을 높였다. 회의록 자동 생성은 불필요한 업무 시간을 크게 단축시킬 수 있어 롯데이노베이트 내부 직원들 사이에서도 호응을 받고 있는 기능 중 하나다. 이번 고도화를 통해 회의록 생성 속도를 기존보다 2배 향상시켰을 뿐 아니라 한층 발전된 AI 음성 분석 기술을 통해 정확도를 높여 인식 가능한 화자의 수도 더욱 늘렸다. 또 AI가 회의 맥락을 분석해 불필요한 내용을 제외하고 이후 해야 할 일도 제시한다. 음성 북마크 기능도 탑재해 특정 부분을 찾기 쉽게 했다. 무엇보다 민감한 정보가 담겨 있는 음성 데이터에 대한 보안 측면도 고려했다. 내부 서버를 활용하고 회의록 자동 생성에 사용된 음성 데이터를 자동 삭제하는 등 롯데이노베이트가 자체 개발한 보안 알고리즘이 적용됐다. 이를 통해 사용자가 내부 정보 유출에 대한 우려 없이 안심하고 사용할 수 있게 했다. 롯데이노베이트는 나만의 AI 음성도 선보였다. 해당 기능은 5초가량의 짧은 음성 샘플만 제공해도 AI가 사용자 목소리의 억양·발음 등 미묘한 부분까지 분석해 자연스럽고 깨끗한 합성음을 제공한다. 롯데이노베이트는 아이멤버 홍보 영상 제작에 들어가는 성우 부분의 전부를 나만의 AI 음성 기능을 사용해 제작 시간과 비용 등을 절감하며 업무 효율화를 진행하고 있다. 이와 별도로 AI 음성 합성 기능도 추가됐다. 해당 기능은 롯데이노베이트가 자체 개발한 음성 기술을 기반으로 한국어뿐만 아니라 영어·일본어를 지원해 글로벌 비즈니스와 콘텐츠 제작에 도움을 준다. 언어별로 자연스러운 발음과 억양도 구현할 수 있다. 커스터마이징도 지원한다. 아나운서·상담원 등 비즈니스별 상황에 맞게 14개의 화자와 총 20개 음성 세트를 지원하며 목소리의 속도, 크기, 높낮이, 문장 간 공백 길이, 음성 품질까지 다양한 부분을 조정할 수 있어 사용자의 취향을 반영할 수 있다. 롯데이노베이트 측은 "향후 아이멤버의 지속적인 기능 고도화와 신규 서비스 론칭을 통해 업무 효율성을 더욱 높여 나가는 동시에 스마트워크 환경 조성에 기여하겠다"며 "AI 기반 업무 문화를 롯데 전 계열사로 확대시켜 나갈 계획"이라고 밝혔다.

2025.03.27 17:08한정호

애플, '시리' AI 개선 2026년으로 연기

애플이 인공지능(AI) 음성 비서 '시리' 개선을 내년으로 미뤘다고 미국 경제 방송 CNBC가 7일(현지시간) 보도했다. 애플은 올봄 시리 기능을 강화하려 했으나 내년으로 미룬다고 이날 발표했다. CNBC는 애플이 지난해 여름 '애플 인텔리전스'를 공개하면서 시리 음성 비서의 새로운 기능을 소개했으나 이를 실제로 쓰려면 멀었다고 지적했다. 애플이 '개인적 맥락'이라 부르는 또 다른 시리 개선 사항도 지연됐다고 CNBC는 전했다. 운전면허증 사진에 나오는 번호를 기반으로 사용자를 대신해 개인정보 양식을 작성하는 기능이 대표적이다. 애플 관계자는 성명을 내고 “개인화된 시리를 개발해 사용자 대신 앱을 편하게 쓰도록 조치하고 있다”며 “이런 기능을 제공하는 데 생각보다 시간이 더 걸려 내년에 선보일 것 같다”고 말했다. 오픈AI가 '챗GPT'로 2022년 생성형 AI 시대를 연 뒤 애플이 압박을 느낀다고 CNBC는 분석했다. 또 '알렉사' 음성 비서를 발표한 아마존과 '제미나이' 비서를 개발 중인 구글보다 애플이 뒤처질 수 있다고 내다봤다. 애플이 이런 어려움을 겪는 일은 이번이 처음이 아니라고 CNBC는 비판했다. 올해 초 사용자가 '애플 AI가 부정확한 사실을 표시하기 위해 헤드라인을 왜곡한다'는 사실을 발견하자 애플은 뉴욕타임스와 BBC 같은 뉴스 앱에 대한 애플 인텔리전스 요약을 비활성화했다.

2025.03.08 08:43유혜진

11년 만에 변신한 '음성 비서' 알렉사, AI 달고 애플 시리·삼성 빅스비 넘을까

생성형 인공지능(AI)을 탑재한 'AI 음성 비서'가 최근 우후죽순 쏟아지면서 글로벌 빅테크의 새로운 격전지가 되고 있다. AI의 휴대형, 개인화 현상이 짙어진 탓에 'AI 비서'와 관련된 기술들이 빠른 속도로 개발되며 시장의 새로운 성장동력이 되고 있다는 평가다. 27일 블룸버그통신 등 주요 외신에 따르면 세계 최대 전자상거래 업체 아마존은 지난 26일 뉴욕에서 AI 음성 비서 '알렉사 플러스(+)'를 공개하는 행사를 진행했다. 기존 '알렉사'에 생성형 AI를 탑재한 것으로, 알렉사의 업그레이드는 2014년 출시 후 처음이다. 아마존은 당초 2023년 9월 '알렉사'를 대규모로 개편하겠다는 계획을 발표한 후 지난해 10월 중순께 이를 선보이려고 했으나, 출시 일정이 연기되다 이날 공개했다. 파노스 파네이 아마존 디바이스 및 서비스 책임자는 "알렉사의 모든 것을 다시 설계했다"며 "여러분의 생활 속 거의 모든 요소를 알고 있다"고 말했다. 새로운 '알렉사+'는 기존에 무료로 제공됐던 것과 달리 오는 3월부터 월 19.99달러의 유료 요금제로 운영된다. 아마존 프라임 회원은 무료로 이용할 수 있다. 기존에는 날씨 등 사용자의 간단한 질문에 음성으로 답하는 것에 그쳤으나, 앞으로는 대규모 언어 모델(LLM)을 기반으로 생성형 AI를 통합해 복잡한 질문에도 답할 수 있게 된다. 또 콘서트 티켓을 구매하고 식료품을 주문하고 저녁 식사 장소를 알아서 예약하는 등 다양한 작업도 수행할 수 있다. '알렉사+'는 학습 가이드를 읽고 문제를 내거나 손글씨 문서를 정리해 해당 정보를 기억하는 등 복잡한 작업도 가능하다. 아마존 도어벨인 '링'과 연결해 카메라 녹화 영상도 보여준다. 또 아마존은 '알렉사+'가 주택 소유자 협회 계약서 같은 문서를 검토해 태양광 패널 설치가 가능한지 등을 알려줄 수 있다고 소개했다. 단편적인 요청뿐 아니라 연속적인 요청을 이해·처리할 수 있고 이용자가 직접 개입할 필요가 없는 'AI 에이전트' 기능도 탑재됐다고 설명했다. '알렉사+'는 아마존 자체 AI 모델 '노바'뿐 아니라 챗GPT 개발사 오픈AI 대항마로 평가되는 앤트로픽의 AI 모델 '클로드' 등 여러 모델을 기반으로 학습했다. 아마존은 앤트로픽에 80억 달러를 투자한 바 있다. 아마존은 자체 개발한 스피커 '에코(Echo)'를 비롯해 자체 스마트홈 기기에 알렉사를 탑재해 기기 판매도 늘리고 이용자들이 쉽게 이용할 수 있도록 할 계획이다. 이에 맞서 삼성전자도 AI 비서 '빅스비'의 활용도를 높이기 위해 지난해 8월 업데이트를 실시했다. 자연어 기반으로 맥락을 이해하는 음성 명령으로 가전 제품을 쉽게 제어할 수 있도록 한 것이다. 이를 통해 ▲한 문장에 여러가지 명령을 담아 말해도 가전제품이 각 의도를 이해할 수 있고 ▲앞의 대화를 기억해 다음 명령까지 연결해 수행할 수 있으며 ▲기기 관련 궁금증과 답변을 말로 묻고 바로 확인할 수 있다. 구글도 같은 해 8월 '메이드 바이 구글 2024'를 통해 자연스러운 대화가 가능한 AI 음성 비서 '제미나이 라이브'를 공개했다. 제미나이 라이브를 활용하면 개인 트레이너가 보낸 이메일을 바탕으로 운동 계획을 세워달라고 요청하거나, 유튜브 콘텐츠 내용과 관련해 궁금한 것을 옆사람과 대화하듯 물어볼 수 있다. 목소리도 10가지로 선택 가능하다. 월 구독료는 19.99달러(약 2만7천원)로, 구글 픽셀폰뿐 아니라 삼성전자 갤럭시폰에서도 이용할 수 있다. 구글은 '아이폰'에도 이를 사용할 수 있도록 지원한다. 애플은 첫 AI폰 '아이폰16' 시리즈에 오픈AI의 'GPT-4o'를 적용한 AI 음성비서 '시리'를 탑재했다. '시리'는 애플이 지난 2011년 선보인 서비스로, 이용자 요청에 타이머나 알람 설정, 날씨 등을 음성으로 알려준다. 그러나 오픈AI의 GPT-4o처럼 깊이 있는 양방향 소통은 이전까지 불가능했다. 다만 '시리'는 현재 성능이 들쭉날쭉하다고 평가받고 있다. 여전히 개인 맞춤형 정보 제공 기능이나 앱 내에서 다양한 작업을 수행하는 기능 등 핵심 기능이 완전히 구현되지 않았다는 것이 중론이다. 이에 애플은 2월 말 베타 버전 출시, 4월 정식 출시를 목표로 했으나 안정성 문제를 해결하기 위한 추가 작업을 해야 하는 탓에 시리의 개편 일정을 5월 이후로 연기할 것으로 알려졌다. 씨넷은 "애플은 '시리'와 새로운 AI 시스템인 '애플 인텔리전스'의 통합 과정에서 엔지니어링 문제와 소프트웨어 버그를 해결하고 있다"며 "이로 인해 출시 일정이 미뤄지고 있다"고 말했다. AI 음성 비서 시장은 지난해 오픈AI의 GPT-4o 등장 후 크게 변화하고 있다. GPT-4o는 텍스트를 통해 대화했던 기존 챗GPT와 달리 이용자와 실시간 음성 대화를 통해 질문을 받고 답변을 내놓는다. 텍스트·음성뿐 아니라 이미지 인식 기능까지 갖춘 멀티모달(Multimodal) 모델로, 사람이 말하는 내용이나 보여주는 이미지를 즉각 이해하고 이에 걸맞은 답을 할 수 있다. 업계 관계자는 "알렉사, 시리, 빅스비 등 기존 음성 비서 서비스들은 음성을 텍스트로 바꿔서 인식하고 답변도 텍스트로 먼저 만든 다음 음성으로 합성하는 식이었다"며 "이제는 음성을 음성 그 자체로 인식해 처리 과정이 빨라진 데다 목소리에 담긴 감정이나 배경이 섞인 소리도 알아차릴 수 있게 됐다는 점에서 상당한 기술 차이가 있다"고 설명했다. 이처럼 생성형 AI를 활용한 음성 AI 비서 시장에서 빅테크들의 경쟁이 치열해지면서 관련 시장에 대한 전망도 긍정적이다. 실제 일본 시장조사기관 글로벌 인포메이션에 따르면 AI와 머신러닝(ML)을 사용하는 지능형 가상비서(IVA)의 지난해 시장 규모는 147억7천만 달러(약 20조1천억원)로 추정됐다. 2023~2030년 연평균 성장률(CAGR)은 26.2%로, 2030년 시장 규모는 474억 달러(약 64조6천억원)에 달할 것으로 전망된다. 업계 관계자는 "생성형 AI 음성 비서가 앞으로 돈이 될 것으로 보고 빅테크들을 중심으로 앞 다퉈 서비스를 내놓고 있는 분위기"라며 "듣고 말하는 AI가 전 산업에 걸쳐 가져올 변화는 가늠하기 어려울 정도"라고 밝혔다. 그러면서 "다만 AI 비서 개발을 위해서는 개인정보와 편향성, 윤리적인 문제도 함께 고려돼야 할 것"이라고 덧붙였다.

2025.02.27 09:40장유미

  Prev 1 2 3 Next  

지금 뜨는 기사

이시각 헤드라인

과기정통부, AI 중심 조직 개편 '가속'…정책 컨트롤타워 본격화

"국정자원 화재 초래 서버-배터리 간격 규제해야"

미 연방정부 셧다운에 사이버보안도 '셧다운' 위기

오픈AI 영향력 이 정도?…AI에 진심인 이재명, 43년 묵은 금산분리 '완화' 추진

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.