²020.06.04 21:09
AI 학습데이터 구축사업 시동
MBN 등 동영상 4만여건
AI 학습데이터로 가공해
한국 디지털경제 `마중물`
AI 학습데이터 거래 맡을
`KDX-AI`도 설립할 예정
◆ 데이터거래 플랫폼 KDX ◆
574791 기사의 0번째 이미지
국내 1호 민간 데이터 거래소인 KDX한국데이터거래소가 인공지능(AI) 학습 데이터 구축 사업을 토대로 성장에 탄력을 받게 됐다. KDX한국데이터거래소가 AI 학습 데이터 구축에 활용할 MBN 등의 원천 동영상 분량은 국내 최대 규모가 될 것으로 전망된다.
이번 AI 학습 데이터 구축 사업에서 매경미디어그룹은 MBN 보도·교양·예능 방송, 매일경제TV와 매일경제신문이 만든 유튜브 동영상 등 1630시간 분량 4만2474건을 확보해 제공할 예정이다. 세계적인 이미지 데이터베이스(DB)인 이미지넷 분류를 참고해 인물·동물 등 1504종, 운동·여가·직업 활동 등 행동 290종, 시간·장소·주제 등 상황 1200종의 학습 데이터가 담긴다.
빠른 작업을 위해 레이블링을 자동으로 수행하는 저작 도구도 KDX 플랫폼을 통해 오픈소스로 공개한다. 방대한 양의 데이터를 빠르게 처리하기 위해 64개 그래픽처리장치(GPU)로 구성된 클라우드 인프라스트럭처가 대거 동원된다.
학습 데이터를 활용한 응용 서비스도 개발된다. 매경닷컴은 씨이랩과 서울대가 개발한 알고리즘을 활용해 동영상 추천 서비스를 제공할 예정이다.
574791 기사의 1번째 이미지
이우영 씨이랩 대표는 "국내 민간기업 최대 규모 GPU를 토대로 AI를 학습시키면 AI 데이터 구축 시간이 대폭 단축돼 품질이 더 좋은 학습 데이터를 만들 수 있다"며 "MBN과 함께 학습 데이터를 만들어 인프라만 구성하는 게 아니라 AI 서비스를 만든다는 의미가 있다"고 말했다.
KDX한국데이터거래소는 대용량 동영상 콘텐츠 사업에 선정되면서 사업 속도를 한층 높일 기반을 갖추게 됐다. 내년까지 17개사 컨소시엄과 함께 3년간 220억원 규모로 진행 중인 유통·소비 빅데이터 플랫폼 구축 사업과 함께 AI 학습 데이터를 거래하는 것은 물론, AI 분석 환경까지 갖출 예정이다.
지난해 말 출범한 KDX한국데이터거래소는 총 가입자 2452명, 데이터 판매 3166건을 기록하고 있다. 올해 말까지 매경미디어그룹 보도·교양·예능의 1630시간 분량 원천 동영상을 AI로 학습하고 전체 길이 최소 500시간 이상, 클립당 길이 10초 이하, 최소 18만개 클립으로 구성된 동영상 학습 데이터를 공개할 계획이다.
데이터와 저작 도구는 KDX한국데이터거래소 플랫폼을 통해 무료로 공개된다.
AI 학습 데이터를 거래할 수 있는 마켓플레이스인 가칭 'KDX-AI'도 만든다. 대용량 동영상 콘텐츠 제작으로 신규 고용 51명도 창출할 예정이다. 박대민 KDX한국데이터거래소 최고기술책임자(CTO)는 "장기적으로 MBN 8년치, 7만여 시간의 동영상을 수요에 따라 AI 학습 데이터로 가공해 원천 기준 35만시간 분량인 '유튜브8M'에 이어 세계 2위의 대용량 동영상 학습 데이터를 제공하게 될 것"이라고 밝혔다. 이 같은 구상은 정부의 디지털 뉴딜 정책과도 연관이 있다. 이번 디지털 뉴딜 정책의 핵심은 AI·데이터로, 올해부터 3년간 이 분야에 13조4000억원이 투입될 예정이다. 올해는 2조7000억원이 편성되고 데이터 분야에만 6000억원을 집행하게 된다. 특히 AI 학습 데이터 구축에 하반기 150개 분야 20억원씩, 총 2925억원 규모 AI 학습 데이터 구축 사업이 펼쳐진다.
정부는 지난해 빅데이터 플랫폼 10곳을 선정한 데 이어 올해 공공데이터를 중심으로 5곳을 추가 지정할 계획이다.
디지털 뉴딜 정책으로 AI 시대에 취약계층이 소외된다는 우려를 덜어낼 수 있을 것으로 보인다. 올해 상반기 AI 학습 데이터 구축 사업을 위한 정부 지원금 1억원당 2.4명이 채용된다. 청년, 노년층, 발달장애인, 경력 단절자 등 사회적 취약계층을 채용해 레이블링 작업을 진행하는 것도 주목할 대목이다. 코로나19 사태에 따라 재택근무 등 비대면 형태로 데이터를 생산할 수 있는 크라우드소싱 방식도 적극 도입한다.
취약계층의 정보기술(IT) 일자리를 창출하고 있는 김기도 에스이앤티 대표는 "정기적인 출근이 어려운 취약계층이 집에서 일하면서 크라우드소싱 형태로 소득 활동이 가능해진다는 장점이 있다"며 "사회적기업이 정부 사업에 참여하고, 경쟁력 있는 기업과 컨소시엄을 구성해 경험과 네트워크를 쌓을 기회가 될 것"이라고 말했다. 정부가 AI 데이터 구축 사업에 적극 나선 이유는 학습용 데이터 구축이 AI 강국이 되기 위한 밑거름이기 때문이다.
한국어로 된 데이터가 영어나 중국어로 된 데이터에 비해 턱없이 부족한 상황에서 학습용 데이터 구축이 AI 사업의 성패를 결정할 수 있다는 판단인 것으로 풀이된다. 데이터 업계 한 전문가는 "양질의 데이터가 AI 품질을 좌우하기 때문에 이번 데이터 구축 사업은 국내 AI·빅데이터 업계 발전에 마중물이 될 수 있다"고 말했다.
■
▷ 레이블링 : 인공지능을 만드는 데 필요한 학습 데이터를 입력하는 작업. 객체 인식은 각 영상에서 객체를 구분하고, 객체가 있는 위치와 크기 등을 기록해야 한다. 동물 인식은 동영상에서 동물이 있는 영역에 박스를 친 뒤 해당 객체가 어떤 동물인지 이름을 적는 식이다.
[이동인 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
AI 학습데이터 구축사업 시동
MBN 등 동영상 4만여건
AI 학습데이터로 가공해
한국 디지털경제 `마중물`
AI 학습데이터 거래 맡을
`KDX-AI`도 설립할 예정
◆ 데이터거래 플랫폼 KDX ◆
574791 기사의 0번째 이미지
국내 1호 민간 데이터 거래소인 KDX한국데이터거래소가 인공지능(AI) 학습 데이터 구축 사업을 토대로 성장에 탄력을 받게 됐다. KDX한국데이터거래소가 AI 학습 데이터 구축에 활용할 MBN 등의 원천 동영상 분량은 국내 최대 규모가 될 것으로 전망된다.
이번 AI 학습 데이터 구축 사업에서 매경미디어그룹은 MBN 보도·교양·예능 방송, 매일경제TV와 매일경제신문이 만든 유튜브 동영상 등 1630시간 분량 4만2474건을 확보해 제공할 예정이다. 세계적인 이미지 데이터베이스(DB)인 이미지넷 분류를 참고해 인물·동물 등 1504종, 운동·여가·직업 활동 등 행동 290종, 시간·장소·주제 등 상황 1200종의 학습 데이터가 담긴다.
빠른 작업을 위해 레이블링을 자동으로 수행하는 저작 도구도 KDX 플랫폼을 통해 오픈소스로 공개한다. 방대한 양의 데이터를 빠르게 처리하기 위해 64개 그래픽처리장치(GPU)로 구성된 클라우드 인프라스트럭처가 대거 동원된다.
학습 데이터를 활용한 응용 서비스도 개발된다. 매경닷컴은 씨이랩과 서울대가 개발한 알고리즘을 활용해 동영상 추천 서비스를 제공할 예정이다.
574791 기사의 1번째 이미지
이우영 씨이랩 대표는 "국내 민간기업 최대 규모 GPU를 토대로 AI를 학습시키면 AI 데이터 구축 시간이 대폭 단축돼 품질이 더 좋은 학습 데이터를 만들 수 있다"며 "MBN과 함께 학습 데이터를 만들어 인프라만 구성하는 게 아니라 AI 서비스를 만든다는 의미가 있다"고 말했다.
KDX한국데이터거래소는 대용량 동영상 콘텐츠 사업에 선정되면서 사업 속도를 한층 높일 기반을 갖추게 됐다. 내년까지 17개사 컨소시엄과 함께 3년간 220억원 규모로 진행 중인 유통·소비 빅데이터 플랫폼 구축 사업과 함께 AI 학습 데이터를 거래하는 것은 물론, AI 분석 환경까지 갖출 예정이다.
지난해 말 출범한 KDX한국데이터거래소는 총 가입자 2452명, 데이터 판매 3166건을 기록하고 있다. 올해 말까지 매경미디어그룹 보도·교양·예능의 1630시간 분량 원천 동영상을 AI로 학습하고 전체 길이 최소 500시간 이상, 클립당 길이 10초 이하, 최소 18만개 클립으로 구성된 동영상 학습 데이터를 공개할 계획이다.
데이터와 저작 도구는 KDX한국데이터거래소 플랫폼을 통해 무료로 공개된다.
AI 학습 데이터를 거래할 수 있는 마켓플레이스인 가칭 'KDX-AI'도 만든다. 대용량 동영상 콘텐츠 제작으로 신규 고용 51명도 창출할 예정이다. 박대민 KDX한국데이터거래소 최고기술책임자(CTO)는 "장기적으로 MBN 8년치, 7만여 시간의 동영상을 수요에 따라 AI 학습 데이터로 가공해 원천 기준 35만시간 분량인 '유튜브8M'에 이어 세계 2위의 대용량 동영상 학습 데이터를 제공하게 될 것"이라고 밝혔다. 이 같은 구상은 정부의 디지털 뉴딜 정책과도 연관이 있다. 이번 디지털 뉴딜 정책의 핵심은 AI·데이터로, 올해부터 3년간 이 분야에 13조4000억원이 투입될 예정이다. 올해는 2조7000억원이 편성되고 데이터 분야에만 6000억원을 집행하게 된다. 특히 AI 학습 데이터 구축에 하반기 150개 분야 20억원씩, 총 2925억원 규모 AI 학습 데이터 구축 사업이 펼쳐진다.
정부는 지난해 빅데이터 플랫폼 10곳을 선정한 데 이어 올해 공공데이터를 중심으로 5곳을 추가 지정할 계획이다.
디지털 뉴딜 정책으로 AI 시대에 취약계층이 소외된다는 우려를 덜어낼 수 있을 것으로 보인다. 올해 상반기 AI 학습 데이터 구축 사업을 위한 정부 지원금 1억원당 2.4명이 채용된다. 청년, 노년층, 발달장애인, 경력 단절자 등 사회적 취약계층을 채용해 레이블링 작업을 진행하는 것도 주목할 대목이다. 코로나19 사태에 따라 재택근무 등 비대면 형태로 데이터를 생산할 수 있는 크라우드소싱 방식도 적극 도입한다.
취약계층의 정보기술(IT) 일자리를 창출하고 있는 김기도 에스이앤티 대표는 "정기적인 출근이 어려운 취약계층이 집에서 일하면서 크라우드소싱 형태로 소득 활동이 가능해진다는 장점이 있다"며 "사회적기업이 정부 사업에 참여하고, 경쟁력 있는 기업과 컨소시엄을 구성해 경험과 네트워크를 쌓을 기회가 될 것"이라고 말했다. 정부가 AI 데이터 구축 사업에 적극 나선 이유는 학습용 데이터 구축이 AI 강국이 되기 위한 밑거름이기 때문이다.
한국어로 된 데이터가 영어나 중국어로 된 데이터에 비해 턱없이 부족한 상황에서 학습용 데이터 구축이 AI 사업의 성패를 결정할 수 있다는 판단인 것으로 풀이된다. 데이터 업계 한 전문가는 "양질의 데이터가 AI 품질을 좌우하기 때문에 이번 데이터 구축 사업은 국내 AI·빅데이터 업계 발전에 마중물이 될 수 있다"고 말했다.
■
▷ 레이블링 : 인공지능을 만드는 데 필요한 학습 데이터를 입력하는 작업. 객체 인식은 각 영상에서 객체를 구분하고, 객체가 있는 위치와 크기 등을 기록해야 한다. 동물 인식은 동영상에서 동물이 있는 영역에 박스를 친 뒤 해당 객체가 어떤 동물인지 이름을 적는 식이다.
[이동인 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]