2021.08.30 AI

함께 성장하며 성과를 만드는 엔씨 Speech AI Lab – 2021년 Interspeech 국제 학회에 4편의 논문 게재 승인

엔씨 AI센터 산하 Speech AI Lab에서는 전문 연구진이 함께 AI 음성 기술을 연구개발하고 이를 서비스에 적용할 수 있도록 상용화하고 있습니다. 작년에는 유니버스 음성 서비스(AI 보이스 ‘Private Message & Call’)를 정식 출시하고, 합성음을 사용해 게임 소개 영상을 제작하는 등의 성과를 선보였는데요. 최근에는 2021 Interspeech 국제 학회가 논문 4편의 게재를 승인하는 등 그 기술력을 인정받았습니다.

이번 기사에서는 논문 저자 네 분(이경훈, 배재성, 박태준, 양진혁)과의 인터뷰를 담았습니다. 특히 엔씨 Speech AI Lab의 연구 문화와 AI 연구자로서 실무와 연구의 균형을 맞추고 다 함께 성장하는 요인에 관한 이야기를 들어보았습니다.

interspeech1_210830_01왼쪽부터 배재성, 박태준, 양진혁, 이경훈

* 인터뷰는 코로나19 방역지침을 준수하여 진행되었습니다.



• 인터뷰이와 논문 소개(데모 링크를 클릭하시면 합성음을 들어보실 수 있습니다.)

- “N-Singer: Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement”, Interspeech 2021
이경훈, 김태우, 배한빈
데모: Demo page of N-Singer (nc-ai.github.io)
연구 소개: 가사와 음악 정보로 가창 음성을 합성하는 N-Singer 모델을 제안한 연구입니다.

- “Hierarchical Context-Aware Transformers for Non-Autoregressive Text to Speech”, Interspeech 2021
배재성, 박태준, 주영선, 조훈영
데모: Demo page of Hierarchical TNA-TTS (nc-ai.github.io)
연구 소개: 텍스트와 오디오의 데이터 특성을 고려하여 계층적 구조의 Transformer 기반 음성 합성 모델을 제안한 연구입니다.

- "FastPitchFormant: Source-filter based Decomposed Modeling for Speech Synthesis”, Interspeech 2021
박태준, 배재성, 배한빈, 김영익, 조훈영
데모: Demo page of FastPitchFormant (nc-ai.github.io)
연구 소개: 음성 합성 시 다양한 운율을 조절하면서도 품질 높은 음성을 생성하기 위한 연구입니다.

- “GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis”, Interspeech 2021
양진혁, 배재성, 박태준, 김영익, 조훈영
데모: Demo page of GANSpeech (nc-ai.github.io)
연구 소개: 음성 합성에서 100명의 목소리를 최적화하기 위해 100개의 모델이 필요했는데, GAN을 이용하여 1개의 모델로 기존 방법보다 좋은 성능을 내는 모델을 제안한 연구입니다.



실무와 연구는 따로 가는 게 아니다

2021 Interspeech 국제 학회에 논문이 게재된 것을 축하한다. 논문의 간략한 내용, 그리고 연구를 시작한 계기가 궁금하다.
(배재성) 합성 음성의 이런저런 특성을 다양한 레벨로 제어하기 쉬운 음성 합성 시스템을 개발하고 있었다. 당시는 Non-Autoregressive TTS 초기 단계라 발화 명료도가 아쉬웠다. 그래서 좀 더 정확한 발음을 내기 위해서 다양하게 연구했는데 어느 정도 결과가 나와서 논문을 쓰게 됐다.

(박태준) 올해 초 유니버스 음성 합성 서비스를 위한 텍스트 처리기를 개발하던 중에 연구 아이디어를 고안했다. 아이디어를 구현하고 실험하여 어느 정도 결과를 얻었을 때 논문을 쓰기 시작했다.

(이경훈) ‘가사와 음악 정보로 가창 음성을 합성하는 N-Singer 모델’ 연구는 올해 시작했다. 가창 데이터셋을 수집하고 가사와 미디 같은 특징들을 분리하여 처리하면서 우리가 가진 합성 기술을 접목해 새로운 아이디어를 만들기 위해 논문을 쓰게 됐다.

(양진혁) 지금은 음성화술 전반에 걸친 연구를 폭넓게 하고 있다. 유니버스와 관련된 연구는 유저에게 직접적으로 전달해야 하는 서비스여서 신경을 많이 써야 한다. 거기에 더 초점을 맞춰서 ‘어떻게 개선할까’ 고민하다가 주제들이 나왔다.

‘가창 합성 기술’은 엔씨가 기존에 연구한 음성 합성 기술이 더 발전한 형태라고 들었다. 이 기술을 좀 더 설명해달라.
(이경훈) 가창 합성 기술은 기존의 음성 합성 기술과 비슷한 점이 많다. 그래서 현재 가장 좋은 결과를 만들어내는 음성 합성 모델을 기반으로 시작했다. 그리고 가사 텍스트 정보와 가창 음성의 운율 정보를 분석하여 개별적으로 모델링하는 방법을 시도했다.

이전에 합성 모델을 실험한 경험이 많기 때문에 결과가 나오는 데 걸리는 시간 등을 예측할 수 있었다. 품질이 높은 합성음을 얻기 위해 여러 방법론을 적용하려고 했는데 이번에 의미 있는 결과를 얻었다.

다들 일하느라 바쁠 텐데 학회에 참여하고 논문을 쓰는 이유는 무엇인가.
(양진혁) 연구와 실무는 따로 가는 게 아니라 함께 맞물려 돌아간다. 서비스의 퀄리티를 올리기 위해 연구를 한다. 명확하게 ‘이건 실무다, 저건 연구다’ 구분 짓기는 어렵다. 실무와 연구를 진행하는 과정을 설명하자면, 가장 먼저 Lab실 안에서 목표를 나열하고 지금 해결해야 하는 문제들을 정리한다. 그리고 연구원마다 세부 토픽을 정해서 연구를 진행한다.

(베재성) 또 학회에 참여하는 이유는 우리의 연구가 실제로 어떻게 평가받는지를 알고 동료 연구자들의 검증을 받을 기회이기 때문이다.


interspeech1_210830_02


진짜 풀어야 할 문제를 발견하는 것

논문을 쓸 문제의식을 발견하고 연구해서 학회에 등재하기까지의 과정에 대해 설명해달라.
(양진혁) 몇 달 전부터 준비해서 ‘논문을 쓰자’고 하는 경우는 드물고, 연구를 하다 보면 어느 순간 해결되는 결과가 나온다. 그럼 ‘한번 들어봐’ 하는 식으로 팀원들과 이야기하면서 문제의식을 구체화한다. 이걸 논문으로 쓰자고 이야기가 연결된다.

보통 학회는 항상 비슷한 시기에 열린다. 인터스피치는 논문 마감이 4~5월쯤 끝나고 아이캐습(ICASSP)이라는 학회는 11~12월쯤 마감한다. 매년 마감 일정이 같기 때문에 연구하던 문제를 해결한 시기가 언제냐에 따라서 적합한 학회에 논문을 쓰면 되겠다고 결정한다. 그래서 연구 주제를 잡고 ‘해결이 되었나, 다른 데보다 개선을 했나, 우리가 기술을 갖췄나’에 초점을 맞춘다. 논문 쓰는 작업은 그 사이에 시간 여유가 얼마나 있느냐에 따라서 정해진다. 그때는 모두 한 달 정도 집중 근로를 하는 편이다.

실무를 진행하면서 연구에서도 좋은 결과를 얻을 수 있었던 이유는 무엇인가.
(양진혁) 실무와 연구를 병행하면 어려운 점이 더 많다.(웃음) 그러나 서비스를 하면서 좋은 점은 세 가지 정도 꼽을 수 있다. 첫 번째는 서비스하기 위해 풀어야 하는 문제들을 직접 발견할 수 있다. 두 번째는 기존 연구를 실제 서비스에 적용할 때 어떤 한계점이 있는지 알 수 있다. 오픈 데이터만 썼을 땐 놓치거나 모르고 지나치는 부분들이 있다. 예를 들면 기존 논문에서는 이 연구 주제는 이미 끝난 것처럼 어필하는데 실제로 서비스에 갖고 오면 아직 끝나지 않은 경우가 있다.

마지막으로, 서비스에서 나온 데이터로 연구해서 연구 성과를 서비스에 그대로 적용할 수도 있다. 하지만 영어 데이터를 쓰는 게 아무래도 신뢰도가 높아서 오픈 데이터셋으로 실험해야 하는 경우도 생긴다. 그럼 연구에 품이 더 들어간다. 실무에 적용할 수 있으면서도 너무 소모적인 연구가 되지 않도록 노력한다.

논문을 쓰는 과정에서 다른 부서의 데이터를 활용하는 등 많은 도움을 받았다고 들었다.
(양진혁) 서비스를 하면서 논문까지 쓰는 게 쉽지 않은데 팀원들과 MLOps팀의 서포트 덕분에 가능했다. 팀 안에 연구를 위한 데이터 준비부터 평가까지 해주시는 예지 님과 태호 님이 계셨다. 데이터가 없으면 연구를 못 하니까 정말 감사하다.

그리고 MLOps팀은 우리가 논문을 쓸 수 있을 정도로 여유가 생기도록 해줬다. 개발 엔진 설계를 포함해서 우리가 들여야 할 품을 많이 줄여주었다. 실제로 나가는 서비스 모두 MLOps팀을 거치고 있다. 특히 개발자 출신이 아니어서 미숙한 부분이 있는데 MLOps 이웅수 팀장님이 서비스 제품을 개발하는 과정에서 고려해야 할 점들을 디테일하게 많이 알려주신 일이 기억에 남는다. 우리가 받은 도움에 관해서 팀장님께 감사를 표하고 싶다.

특히 ‘가창 합성 기술’은 NC Sound Center의 역할이 컸겠다.
(이경훈) 데이터를 준비하는 과정에서 Sound Center의 도움을 많이 받았다. 음성 합성은 해왔지만 가창 합성은 처음 해보는 새로운 영역이었다. AI 연구용 녹음 스타일에 대한 기준이 없었기 때문에 기준을 세우는 것 자체가 미션이었다. 가수분들이 녹음하는 것과 AI 연구용으로 녹음하는 건 완전히 다른 문제였다.

예를 들면 앨범을 제작하기 위해 노래를 녹음할 때는 디렉팅하면서 어떤 감정을 실어달라고 요청한다면, AI용 녹음을 하며 디렉팅할 때는 우리가 설정한 스타일대로 노래해달라고 요청했다. 이때 Sound Center에서 가수 섭외부터 녹음 디렉팅까지 많이 도와주셔서 데이터를 잘 준비할 수 있었다.

(양진혁) 그리고 논문에서 정말 중요한 부분 중 하나는 청취 테스트다. 정량적인 결과를 보여줘야 하기 때문이다. 사람마다 편향이 있기 때문에 표본이 최대한 많아야 신뢰도가 높은데 많은 실원분들이 참여해주셔서 감사하다.

실원분들이 테스트를 해주시면 좋은 점이 있다. 음성만 전문적으로 다루시는 분들이어서 일반인들보다 훨씬 냉정하게 평가해주신다. 일반인들은 자연스럽다고 할 만한 것도 이분들은 '아쉬운데?' 하고 점수를 깎으셔서 외부에 의뢰하는 것보다 수준 높은 테스트(오픈 데이터가 아닌 실사용 데이터)가 가능하다.

interspeech1_210830_03


다 함께 성장할 수 있는 공유의 문화

연구의 수준을 높이는 데는 어떤 노력이 필요한가. 팀에서 노력하는 부분이 있다면 무엇인지.
(양진혁) 연구의 퀄리티가 높아지려면 좋은 질문과 피드백을 많이 받아야 한다. 여러 사람과 의견을 주고받으며 아이디어를 발전시켰을 때 좀 더 만족스러운 성과를 얻을 수 있었다. 연구하면서 막힌 부분들을 편하게 털어놓을 수 있고, 솔직하게 의견을 말해줄 수 있는 분위기가 있다.

(이경훈) 굳이 ‘피드백’이란 이름으로 요청하지 않아도 평소 대화가 모두 연구의 소스와 피드백이 된다. 이번 논문에서 모듈이 트랜스포머 기반인 것도 진혁님이 전에 트랜스포머 얘기를 해주셔서 가능했다. 돌아보면 일상에서 나눈 대화에서 아이디어나 인사이트를 많이 얻는다.

(양진혁) 그리고 연구하다 보면 혼자 푹 빠져서 앞만 보고 가느라 놓치는 결점들이 분명 생긴다. 그때 옆에서 누군가 ‘이거 이렇게 해야 하는 거 아닌가?’ 한마디만 해줘도 정말 큰 도움이 된다. 근데 그런 말을 해줄 수 있는 사람들이 곁에 있다. 다들 실력도 있어서 더 좋은 의견을 얻을 수 있다.

연구실에서 함께 연구 미팅도 열고 논문 세미나도 정기적으로 하고 정보 공유가 활발하다고 들었다.
(양진혁) 평소에는 추천할 만한 논문이 있으면 연구 미팅에서 바로 공유한다. 그리고 정기적으로 세미나를 열어서 다 같이 논문 수십 개를 빠르게 훑어본다. 학회가 열리면 각자 호기심 있는 세션을 맡아서 보고 공유하는 시간을 갖는다. 개개인이 모든 최신 논문을 팔로업하기 어려우니 같이 하고 있다.

(배재성) 또 개인적으로 발표하고 연구하면서 얻은 결과를 공유하는 세미나도 있다. 이런 세미나는 아무래도 어느 정도 결과가 나와야 하니까 비정기적으로 하고 있다.

(양진혁) 외부의 좋은 논문을 리뷰하는 세미나도 좋지만 개인 발표 세미나에서도 중요한 포인트를 얻을 수 있다. 외부 논문을 갖고 세미나할 때는 사실 저자가 어떤 생각으로 연구했는지 깊이 있게 알기 어렵다. 하지만 개인 발표 세미나에서는 발표자 본인이 스스로 어떤 관점으로 연구했고 이런 결과가 나왔는지 통찰하는 과정 자체를 자세히 소개해줘서 많이 도움이 된다.

그리고 경훈 님이 매주 최신 논문 리뷰를 ‘위클리 페이퍼’라는 이름으로 공유해준다.

(이경훈) 위클리 페이퍼는 우리 Singing Voice TF에서 최신 논문 팔로업이 필요하다 싶어서 자체적으로 시작했다. 다 같이 보면 좋으니 매주 월요일 Speech AI Lab 전체 실원들에게 메일로 발송하고 있다. 근데 다들 읽어보고 있는가?

(일동) 물론이다!(웃음) 큰 도움이 된다.


interspeech1_210830_04Speech AI Lab 실원: 왼쪽부터 김태우, 이예지, 이양선

 


서로의 연구를 도와주고 협력하는 팀워크

이렇게 서로의 연구를 도와주고 협력하는 분위기는 어떻게 조성되었나. 의견을 구하는 것도 주는 것도 처음엔 조심스럽지 않은가.
(양진혁) 처음부터 적극적으로 정보를 공유하고 피드백하진 않았다. 하지만 인간적으로 친밀해지고, 의견을 주고받으며 도움을 얻은 경험이 쌓이다 보니 자연스레 신뢰가 쌓였다. 그리고 AI 연구는 정답이 없다 보니 직관이 매우 필요한데 사소한 정보들이 쌓여 직관을 만들기 때문에 바로바로 의견을 교환하게 된다.

(배재성) 정말 AI 연구에는 정답이 없다. 다들 연구자로서 각자 깊이 연구하는 분야가 있고 관점이 있다. 그래서 ‘이렇게 시도해보면 어떤가요?’ 하는 식으로 제 의견을 전달한다. 서로의 인격과 실력에 모두 믿음이 있으니까 솔직하게 의견을 주고받는 게 가능했다.

(이경훈) 다 같이 게임을 많이 하는 것도 영향을 끼쳤다.(웃음) 게임하면서 이미 격의 없는 대화를 많이 해서 평소 연구 이야기를 할 때도 편안하게 말할 수 있는 사이가 됐다.

(이경훈) 그리고 여유를 갖고 연구에 집중할 수 있도록 실장님이 믿고 기다려주셨던 게 심적으로 많이 힘이 됐다. 일방적으로 ‘이거 해라’ 하는 식으로 일을 추진하는 법이 없다. 자율적으로 주제를 찾고 제안하면 왜 그 주제를 찾게 되었는지, 그 주제 속에서 어떤 것들을 발전시키면 좋을지 깊이 있게 대화하며 연구 주제를 정리해주신다.

(배재성) 실장님과 팀장님 모두 그렇게 하시니까 팀원들도 누군가 어떤 연구를 하고 싶다고 했을 때 함부로 자르지 않고 ‘그럼 한번 해볼까요?’라고 생각하게 됐다.

이 팀은 함께 성장하는 것을 중요하게 여기는 것 같다.
(양진혁) 몇 년에 걸쳐서 서로 친해지다 보니 신뢰가 생겼다. 편하게 얘기할 수 있는 분위기여서 좋은 아이디어도 오고 가고 피드백도 오고 간다. 함께 의견을 많이 나누는 것이 AI 연구자로서 성장할 수 있는 좋은 전략이다. AI 연구 특성상 특정 기술이 나오면 나머지 기술은 의미가 없어져버리는 경우도 꽤 있다. 그래서 살아남으려면 계속 성장해야 한다.

(배재성) 다들 열심히 하는 사람들인 걸 알기 때문에 더 도울 수 있는 부분을 자연스럽게 찾게 됐다. 모두 연구에 정말 열정적이다. 그러다 보니 피드백도 더 활발해지고, 연구 자체를 더 재미있게 할 수 있다.

interspeech1_210830_05


앞으로 AI 연구자로 성장하고 싶은 방향에 대해

모두 AI 연구자로서 더 성장하고자 부단히 노력하고 있는데, 마지막으로 앞으로 어떤 AI 연구자가 되고 싶은지 한마디 남겨달라.
(이경훈) AI 연구를 통해서 사람들에게 새로운 경험을 만들어주고 싶다. 노래와 음악을 통해 AI만이 할 수 있는 독특한 콘텐츠를 만들어서 사람들에게 즐거움과 감동을 줄 수 있는 연구자가 되고 싶다.

(박태준) 엔씨에서 일하며 다양한 서비스를 위한 연구를 경험하고 있다. 더 나은 AI 서비스를 제공하기 위해서는 연구 이상의 개발(CI/CD 등)이 필요하다는 걸 배웠다. 개발 측면에서도 꾸준하게 능력을 길러서 개발 능력도 갖춘 연구자로 성장하고 싶다.

(양진혁) AI를 활용해서 게임 개발 비용을 낮추고, 몰입도가 높으면서 독창적인 콘텐츠들을 제공하고 싶다. 꿈은 정말 큰데 능력은 부족하다고 느껴서 음성 외의 다양한 영역의 AI뿐만 아니라 게임 개발과 산업에 대해서도 열심히, 즐겁게 공부하고 있다.(웃음) 최종적으로는 게임에 따라 그에 맞는 전체적인 AI 전략을 세우고 실제로 적용되도록 만드는 능력을 갖추고 싶다.

(배재성) 빠르게 변화하는 AI 기술을 보면서 항상 부족함을 많이 느낀다. 앞으로 더 다양한 분야의 AI 기술과 데이터를 더 깊이 이해하고 활용할 수 있는 능력을 기르고 싶다. 그리고 의미 있는 연구를 통해 사람들의 삶이 조금 더 편하고 즐거워지는 데 기여할 수 있다면 정말 좋겠다.



이번 인터뷰에 참여해주신 Speech AI Lab의 이경훈, 배재성, 박태준, 양진혁 님이 연구하여 2021 Interspeech에 게재된 내용에 대한 자세한 이야기는 다음 기사로 소개할 예정입니다.

TOP