MIT 연구진, 노래에서 개별 악기의 사운드 분리하는 AI 개발

인도의 가수이자 작곡가인 루팜 사르마는 교향곡 연주 부문에서 기네스 세계 신기록을 보유하고 있다. 교향곡을 연주할 때 총 315개의 악기를 사용했기 때문이다. 이렇게 많은 악기를 사용한 곡의 음원에서 개별 악기의 소리를 분리하는 것은 쉽지 않다. 그런데 이제는 인공 지능(AI)의 도움을 받아 그런 작업이 가능할 전망이다.

매사추세츠 공과대학(MIT) 컴퓨터 과학 및 AI 연구실 연구진은 최근 노래 또는 음악에서 개별 악기 소리만 추출할 수 있는 AI를 개발했다고 밝혔다. 이 AI는 특정 소리를 조정하거나, 리믹스하거나, 없애버릴 수 있다. 이 방법이 가능해지면 아마추어 음악가들이 자신이 원하는 악기 파트만 음악에서 분리해 혼자 연습하는 것이 가능해진다.

▲음악 산업 분야에서도 이제 AI가 중요한 위치를 차지하고 있다(출처=맥스픽셀)

픽셀플레이어 시스템

이 기술을 개발하기 위해 연구진은 AI를 60시간 이상 비디오로 교육했다. 교육을 받은 AI는 픽셀 수준에서 특정 악기 소리를 식별해냈다. 그래서 이 AI에는 픽셀플레이어(PixelPlayer) 시스템이라는 이름이 붙었다. 예를 들어 픽셀플레이어는 트럼펫 소리가 많이 나는 슈퍼마리오 게임의 테마곡에서 튜바 소리를 분리해낼 수 있다. AI는 두 악기와 관련된 음파를 분리해서 측정한다.

과거에도 사운드 소스를 분리하려는 노력은 있었다. 하지만 사람이 행하기에는 너무 복잡한 작업이었다. 이제 픽셀플레이어가 있으면 훨씬 쉽고 빠르게 특정 소리를 분리할 수 있다.

작동 방법

AI는 사운드를 생성하는 이미지 영역을 찾는다. 그 다음 입력된 사운드를 모두 픽셀로 나타내고 구성 요소로 분리한다. 연구진은 AI가 소리만 듣고 악기를 인식할 수 있는 능력을 갖추기를 기대하고 있다.

연구를 이끈 항 자오는 픽셀 레벨에서 사용되는 악기를 실제 공간적으로 인식해 찾을 수 있다는 사실에 놀랐다고 말했다. 이 획기적인 발전은 많은 가능성을 열었다. 비디오를 본 후 한 번의 클릭만으로 개별 악기의 오디오를 편집할 수 있게 된 것이다.

딥러닝

연구진은 AI가 딥러닝 방법을 사용한다고 설명했다. 이것은 신경망을 사용해 데이터의 패턴을 찾는 방법이다.

하나의 신경망은 영상을 분석하고 다른 하나는 오디오를 분석한다. 픽셀을 특정 사운드 웨이브와 연결해 비디오의 다양한 사운드를 분리할 수있는 '신시사이저'도 있다.

미래의 응용법

연구진에 따르면 AI를 사용해 어떤 노래에서 단일 악기의 볼륨만 변경하는 기능을 활용하면 엔지니어들이 상당히 오래된 뮤지컬 콘서트 영상의 음질을 향상시키는 데 도움이 될 수 있다고 한다. 또한 편곡자들은 특정 악기를 다른 악기로 대체했을 때 음악이 어떤 분위기를 낼지 알 수 있다. 예를 들어 어쿠스틱 기타를 일렉트릭 기타로 변경했을 때 어떤 음향 효과가 나타나는지 클릭 한 번으로 알아볼 수 있다.

연구진은 또한 픽셀플레이어가 우리가 일반적으로 볼 수 있는 20가지 이상의 악기 소리를 인식할 수 있다고 전했다. 앞으로 더 많은 교육 데이터를 시스템에 넣으면 AI가 더 많은 악기를 식별하게 될 것이다. 하지만 이것은 부작용을 낳을 수도 있다. 테너 색소폰과 알토 색소폰처럼 매우 미묘한 차이를 인식하고 처리할 때 시스템이 어려움을 겪을 수 있기 때문이다.

미래에는 이 기술이 로봇에 적용돼 차량이나 동물들이 내는 소리를 듣고 환경의 소리를 더 잘 이해할 수 있을 것이다.

이들의 연구 논문은 오는 2018년 9월 8~14일 동안 독일 뮌헨에서 열리는 유럽 컴퓨터 비전 컨퍼런스(ECCV)에 채택됐다. ECCV는 아마존, 페이스북, 마이크로소프트, 텐센트, 유튜랩, 구글 AI, 디디, 우버 등 다양한 회사로부터 후원을 받아 개최된다.

[researchpaper 리서치페이퍼=강민경 기자]

강민경

다른기사 보기

상단영역

본문영역