구글애드센스




2021/01/31 05:24

고성능 마이크가 필요 없어질까? AI 녹음 향상 기술 HiFi-GAN 아이디어/디자인



전에 팟캐스트를 녹음할 때, 항상 걸리는 게 녹음 품질이었습니다. 특히 어떤 마이크를 써야 좋은지 골머리를 앓았죠. 작년에 원격강의와 회의를 하면서도, 항상 따로 마이크를 준비했습니다. 웹캠에 내장된 마이크를 이용해도 괜찮지만, 그 마이크로 들리는 소리가 얼마나 형편 없는 지 잘 알기 때문입니다.

이렇게 (강제로) 원격으로 듣는 시대가 다가오면서, 어떻게 소리를 재생할 것인가-라는 고전적인 문제 뿐만 아니라, 소리를 어떻게 잘 녹음할까-라는 문제도 중요해졌습니다. 보통 음향 녹음시에 사용하는, 전문 녹음기와 마이크를 이용하는게 보편적인 방법이긴 합니다만- 비용이 꽤 많이 들죠.



작년에 미 프린스턴 대학에서 내놓은 연구는, 생성적 적대 신경망(GAN)이라 불리는 AI 를 이용해, 음성 녹음 품질을 향상 시키는 방법입니다. 녹음 품질을 개선하는 AI와 개선된 녹음 품질을 판단하는 AI를 싸우게(?) 만들어, 최선의 녹음 품질 개선 방법을 찾는 기술이라고 할 수 있겠습니다.

이 기술을 적용하면, 녹음 품질이 아래 영상에서 들리는 것처럼 단정하게 정리됩니다.



* 위 영상이 안보이시면 이 링크로 가서 봐주세요. https://vimeo.com/492118883

이 연구의 목표는, 일반 마이크를 써서 들리는 소리를 스튜디오 음질에 가깝게 다듬는 겁니다. 여기서 중요한 게 판단 기준인데요. AI가 주어진 데이터를 가지고 알아서 공부하려고 하면, 공부를 잘했는 지 아닌 지 측정할 수 있는 기준이 필요해서 그렇습니다. 이번 연구는 재밌게도, 그런 기준- 다시 말해 AI가 다듬은 소리를 들려줬을 때, 사람이 어떻게 말할지를 추정할 수 있는 기준을 만들었다고 합니다. 물론 개선할 점은 있지만요.

... 아, 예전에도 기준이 없었던 건 아닌데(측정값), 이게 인간의 주관적 평가와 엇나가는 일이 많았다고. 뭐, 소리에 대한 감각은 서로 미묘하게 차이가 있으니까요.



이런 과정을 통해 다듬은 소리는, 사람에게 들려줬을 때 꽤 좋은 평가를 받았다고 합니다. 연구진은 앞으로 이런 기술을 실시간으로 적용할 수 있게 되면 좋겠다고 하는데...그럼 줌 회의 같을 때 좋겠지만, 그 전에 이미 녹음된 파일 올려서 다듬어주는 사이트라도 하나 열어주면 좋겠습니다. 그럼 저도 다시 팟캐스트 시작할 수 있을지도 모르는 데요...

어? 생각해보니, 이 기술 발전 시켜서 팟캐스트 업체에 팔면 의외로 대박일지도? 요즘 미국에서 팟캐스트 선풍적 인기를 얻고 있거든요...

* HiFi-GAN 관련 연구는 국내에서도 진행 중이군요. 카카오AI랩에서 펴낸 논문을 확인하고 싶으신 분은 여기(링크)를 봐주세요.



덧글

댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.