방송영상으로 2만1000시간 고품질 AI 학습용 데이터 구축
과학기술정보통신부와 한국전파진흥협회는 방송영상 AI 학습용 데이터 구축 사업 지원 대상에 MBC 컨소시엄, MBC충북 컨소시엄, KT ENA 컨소시엄, KBS 컨소시엄 등을 선정했다고 밝혔다. 영상을 생성하는 AI 모델 개발 지원을 위해 방송영상을 활용한 고품질 AI 학습용 데이터를 구축하는 사업으로, 2025년 1차 추경으로 반영되어 신규 추진된다. 지원 대상은 방송법에 따른 방송사업자와 AI, 데이터 기업, 기관 등으로 구성된 컨소시엄으로, 4개 컨소시엄 선정에 12개 컨소시엄이 지원해 3대 1 경쟁률을 보였다. AI, 데이터 등 전문가로 구성된 심사위원회 평가를 통해 우리나라 고유의 가치, 특성이 반영된 방송콘텐츠를 기반으로 한 AI 학습용 데이터 구축 및 활용 계획, AI 기술역량 등이 우수한 컨소시엄 4개를 최종 선정했다. 과기정통부는 선정된 4개 컨소시엄에 각각 48억3천만원을 지원하며, 4개 컨소시엄은 저작권 이슈가 해소된 국내 방송영상 원본 총 4만2천시간을 활용해 총 2만1천시간의 고품질 방송영상 AI 학습용 데이터를 구축한다. MBC 컨소시엄은 버추얼 스튜디오 등 다양한 방송콘텐츠 제작 환경에서 사용될 배경영상을 생성하는 AI의 학습용 데이터를 구축한다. 보도, 시사 교양, 예능, 드라마 등 1만시간의 원본 영상을 활용해 3천633시간의 영상데이터, 49만2천건의 이미지데이터 등 총 5천시간 분량의 AI 학습용 데이터를 구축한다. 지역MBC 15개사가 참여하는 MBC충북 컨소시엄은 우리나라 각 지역의 고유한 문화와 생활양식 등을 반영한 이미지와 영상을 생성하는 AI의 학습용 데이터를 구축한다. 보도, 시사 교양, 다큐 등에서 각 지역의 다양한 자연 풍경, 생활 문화, 역사 사회 등과 관련된 1만2천시간의 원본 영상을 활용해 3천600시간의 영상데이터, 84만2천00건의 이미지데이터 등 총 5천940시간 분량의 AI 학습용 데이터를 구축한다. KT ENA 컨소시엄은 감정이 표현되는 우리나라 인물, 우리나라 배경, 예능 자막 등을 생성하는 AI의 학습용 데이터를 구축한다. 예능, 시사 교양, 다큐 등 1만시간의 원본 영상을 활용해 3천600시간의 영상데이터, 50만4천건의 이미지데이터 등 총 5천시간 분량의 AI 학습용 데이터를 구축한다. KBS 컨소시엄은 촬영구도와 편집 자동화, 사극 시대극에서 활용되는 소품을 3D로 생성하는 등 방송콘텐츠 제작에 필요한 AI의 학습용 데이터를 구축한다. 보도, 예능, 다큐, 스포츠 등 1만 시간의 원본 영상을 활용해 4천500시간의 영상데이터, 1천500건의 3D데이터, 20만건의 이미지데이터 등 총 5천67시간 분량의 AI 학습용 데이터를 구축한다. 이 사업을 통해 구축된 데이터는 AI 모델 개발 등에 활용된다. 각 컨소시엄은 데이터를 활용해 방송제작 현장에 필요한 특화 AI 개발 및 적용을 지속 추진한다. 아울러, 구축된 데이터는 독자 AI 파운데이션 모델 프로젝트에 선정된 정예팀 요청 시 제공되고, AI 허브 내 안심존 등에 연구교육용 AI 개발을 위해 활용될 수 있도록 약 10~35% 이상 개방될 예정이다. 배경훈 과기정통부 장관은 “데이터는 GPU와 함께 AI 모델 개발의 핵심 연료로 그 중요성이 커지고 있다”며 “우리나라 인물, 사회, 역사, 자연 등이 풍부하게 담겨 있는 고품질 방송영상은 독자 AI 모델을 위한 최적의 데이터”라고 말했다. 이어, “방송영상이 AI 데이터로 적극 활용되어 방송사가 AI 기술을 다양하게 접목해 제작 효율성을 높임과 동시에 고품질 서비스를 제공하는 기반이 마련되기를 기대한다”고 밝혔다.