올해 초 Speech AI Lab은 산하에 Singing Voice TF팀을 만들고, 기존의 음성 합성 기술을 이용하여 사용자에게 새로운 즐거움을 제공하기 위해 ‘가사와 음악 정보로 가창 음성을 합성하는 N-Singer 모델’을 연구하기 시작했다. N-Singer는 비자기회귀(Non-autoregressive) 가창 음성 합성(Singing Voice Synthesis, SVS) 모델의 줄임말이다. 이 단어를 발음하면 NC Singer인데, NC를 대표하는 AI Singer를 의미한다. 즉, 가창 음성을 합성하여 노래할 수 있도록 했다는 뜻이다.
이번 연구를 위해 Singing Voice TF팀은 음성 합성과 가창 음성 합성에 관한 연구 자료를 수집했다. 데이터 셋의 경우 문제의 난이도를 낮추기 위하여 한국 발라드를 타깃으로 설정하고 주어진 음을 정확히 만들어내는 데 초점을 맞췄다. 데이터는 오디오 파일과 가사, 미디 파일들을 따로 정제하여 구축했다. 음성 합성 분야에서 발화의 안정성, 자연성을 높이기 위한 방법론들을 토대로 기본 모델의 구조를 만들었고, 품질 높은 음성을 합성할 수 있는 뉴럴 보코더를 채택했다.