2021.08.20 AI

언어의 장벽을 넘어 세상 모든 게이머를 연결하는 실시간 AI 번역 엔진, NCMT

지난 8월 19일, 엔씨는 ‘리니지W 글로벌 쇼케이스’에서 리니지W를 글로벌 원빌드로 서비스한다고 발표했습니다. 이는 여러 나라의 게이머들이 한 서버에 모여 게임을 즐길 수 있다는 의미인데요. 리니지W에는 사용하는 언어가 각기 다른 게이머들이 쉽게 소통할 수 있도록 채팅 내용을 실시간으로 번역하는 ‘AI 번역 기술’이 적용됩니다.

이번 기사에서는 리니지W 채팅 시스템의 기반이 될 인공지능(AI) 번역 엔진 ‘NCMT(NC Machine Translation)’를 소개합니다. 국내 게임사 최초로 자체 기계번역 엔진을 개발한 엔씨는 지난 4월부터 크로스 플레이 서비스 ‘퍼플(PURPLE)’에 이 기술을 적용하고 정식으로 서비스를 시작했습니다. 한국, 일본, 대만의 유저는 ‘퍼플talk’을 통해 쌍방향 번역을 사용할 수 있는데요. 게임 용어, 은어, 줄임말까지 현지 언어로 똑똑하게 번역하는 ‘NCMT’의 특징과 함께 기술의 완성도와 번역의 정확성을 높이기 위해 분투한 개발 과정을 들려드리겠습니다.


translate_210820_01


국내 게임 회사 최초, NC 자체의 AI 번역 엔진 개발

게이머들 간의 소통은 게임에서 무척 중요한 요소다. 게임 안에서 혈맹원들과 함께 전략을 세우고 힘을 모아 전투에서 이기며 승리의 보상을 나누고 새로운 격전지를 향해 모험을 떠나는 게이머들은 끊임없이 대화하고 소통하는 과정에서 재미와 즐거움을 느낀다. 엔씨의 게임은 이처럼 ‘사람들이 모여 함께 노는’ 커뮤니티 활동을 중시한다. 같은 게임 안에서도 게이머들이 새로운 사람들을 만나고 또 다른 이야기를 만들면서 매번 다른 즐거움을 느끼기 때문이다.

엔씨는 글로벌을 향해 무대를 넓히고 글로벌 환경에 맞는 게임들을 선보이면서 다양한 나라의 게이머들이 함께 즐길 수 있는 방법을 고민해야 했다. 게임의 기획 의도와 재미를 온전히 살리면서도 언어의 장벽을 넘어 소통의 즐거움을 그대로 전할 수 있는는 방법이어야 했다. 이를 해결하려면 번역 기술 개발이 필수적이었다.

엔씨의 NLP(자연어처리) CENTER 산하 Language AI Lab과 글로벌콘텐츠 Center 산하에서 컬처라이제이션 및 언어 현지화를 담당하는 컬처라이제이션실이 협업해 2019년부터 본격적으로 연구를 시작했다. 2년간 연구개발한 끝에 크로스플레이 플랫폼 ‘퍼플(PURPLE)’에 기술을 적용할 수 있었다. 이로써 엔씨는 자체 기술력으로 AI 번역 엔진을 개발하고 게임 서비스에 적용한 국내 최초의 게임사가 되었다.

MicrosoftTeams-image (3),

영어-중국어(대만) 번역 – 현재 퍼플 플랫폼에 적용된 모습


현재 NCMT가 적용된 ‘퍼플’에서는 쌍방향 실시간 번역 기능을 이용하여 입점된 모든 게임을 즐길 수 있다. ‘퍼플talk’를 통해 한국어와 영어를 쌍방향으로 실시간 번역하는 NCMT는 영어, 일본어, 중국어 그리고 한국어까지 총 4개 국어를 지원한다. 한국어와 영어 쌍방향 번역은 물론, 대만에서는 중국어, 한국어, 영어 쌍방향 번역을, 일본에서는 일본어, 한국어, 영어 쌍방향 번역 기능을 제공하고 있다.


‘게임’이라는 전문 분야에서의 특화, 기술의 차별성을 만들어내다

게임 채팅 번역은 유저들이 일상적인 대화는 물론 게임이라는 특수한 영역에서 쓰는 언어도 반영해야 한다. 그렇다면 유저들끼리 정해놓은 용어를 가장 잘 알고 있는 것은 과연 누구일까? 바로 게임 회사일 것이다.

2년이라는 빠른 기간에 개발이 가능했던 것은 엔씨가 이미 자연어 생성에 관한 기반 기술을 갖고 있었기 때문이다. Language AI Lab은 기계번역 기술을 개발하기 전부터 게임 채팅 스팸 필터링, 게시판 해시태그 자동 생성, 게시판 사용자 오피니언 분석 기술 등을 개발해왔다. 이 과정을 통해 게임 도메인의 전문 용어나 줄임말을 기계가 알아듣도록 하는 AI 모델과 기계 학습 자원, 기술적인 노하우를 축적했다. 또한 NLP CENTER에서 개발한 야구 어플리케이션 페이지의 Talk 기능에는 사용자와 AI 간의 자연스러운 대화를 만드는 구어체 처리기술이 적용돼 있고, 딥러닝 기반의 AI 기사 생성 기술에는 자연스러운 문장 생성을 위한 기술이 사용된다. 이러한 기술들이 얼핏 기계번역과는 관련이 멀어 보이지만, 딥러닝 모델과 자연어처리 기술 관점에서는 모두 공통점이 있고 연장선에 있다. Language AI Lab에서 꾸준히 기반 기술을 연구하고 기술을 서비스로 상용화시키면서 쌓인 노하우가 있었기에 가능한 일이었다.

또한 엔씨에서 글로벌로 서비스되는 모든 게임 및 서비스의 컬처라이제이션 업무를 전담하는 컬처라이제이션실은 콘텐츠의 재미에 글로벌 유저들이 몰입될 수 있도록 끊임없이 연구해왔다. 처음 게임 채팅의 기계번역 서비스를 기획한 것도 바로 이곳이었다. 어떤 사용자에게 어떤 가치를 줄 수 있는지, 적용 순서는 어떻게 하면 좋을지 등의 상위 전략을 수립하여 Language AI Lab 부서에 기술 개발 검토를 요청했다.

그리고 Language AI Lab은 적용되는 게임, 언어에 맞게 딥러닝 기반의 기계번역 모델을 개발하고, 기계에 학습시킬 데이터를 구축하여 학습시킨 후 그에 맞는 구조를 설계 및 개발하며 실제 라이브 운영을 담당했다. 컬처라이제이션실은 이 과정에서 게임 표현 및 용어에 대한 데이터베이스를 구축하는 역할뿐만 아니라 기계번역 서비스의 기획, 정책수립, PM 역할까지 담당하였고, 이는 글로벌 유저의 니즈를 파악하여 기계번역 기술과 자사 서비스를 연결하는 중요한 역할을 했다.

각 게임의 콘텐츠 및 특징과 타 문화권의 유저를 온전히 이해하는 것이 선행되어 축적된 그 동안의 데이터는 번역 엔진에 적용되어 게임 번역의 퀄리티를 끌어올렸다. 이는 유저의 니즈에 맞춘 기술의 차별성의 결과라고 볼 수 있다. 그 결과 엔씨는 범용적인 기계번역에서는 요구되지 않는, 게임이라는 전문 분야에 특화될 수 있었다.



ㅋㅋㅋ → lol
WWW, 현지 언어의 자연스러운 번역을 위한 노력

NCMT는 게임 속의 은어를 번역하는 데 특화되어 있다. 유저들이 게임에서 쓰는 언어는 정갈하게 다듬어진 문장이 아닌 경우가 많다. 유저들끼리 쓰는 줄임말, 특정 게임에서만 쓰는 용어들이 많기 때문에 은어를 파악하고 그것을 각 국가의 문화에 맞게 번역하는 것이 무엇보다 중요했다. 따라서 AI 기술로 은어 표현들을 각 국가의 채팅과 구어체에서 자동으로 발견하고, 컬처라이제이션실에서 각 국가 및 언어별 전문가가 현지 정서에 맞게 번역하여 데이터베이스를 구축하고 이를 다시 기계 학습으로 번역하도록 했다. 이렇게 단순히 데이터를 많이 만들어내는 것을 넘어서 새로운 표현을 잘 감지하고 지속적으로 학습 데이터에 반영하는 데이터 연구를 진행하고 있다.

‘또르륵 월창에 공지 떴어요! 늦어서 ㅈㅅㅇ’를 일반적인 영어 번역기가 번역하면 어떤 결과가 나올까? NCMT를 통하면 이렇게 번역된다. ‘:'( There's a notice on world chat tab! Sorry I'm late.’

translate_210820_kor_eng

‘또르륵’은 ‘:’(‘, ‘월창’은 ‘world chat tab’, 그리고 ‘ㅈㅅㅇ’는 ‘sorry’로, 화자의 의도를 변형하지 않으면서 미국 문화에서 자주 쓰이는 용어로 번역한다.

일본어는 한국어와 어순이 같아서 비교적 번역하기 쉬울 거라는 인식이 많지만 게임 용어 번역은 그렇지 않다. 원래 한자로 써야 할 용어를 히라가나로만 작성하거나 이마저도 귀찮아 다시 축약하는 경우가 많기 때문이다. 우리나라 유저들이 ‘감사합니다’를 ‘ㄱㅅ’로 축약하는 것과 비슷한 현상이다. 사용자들끼리 도메인과 문맥으로 상황을 알 수 있기에 굳이 어려운 한자로 이야기할 필요가 없기 때문이다.

translate_210820_jap_kor

대만에서는 중국어 번체를 사용하는데, 중국과 다르게 로마 병음 대신 주음부호(발음기호)를 통해 한자를 입력한다. 대만 유저들도 게임 속에서 언어를 간단하게 표현하는 경우가 있다. 어린 유저들의 활동이나 통상적 채팅 표현을 보면 한자 대신 주음부호를 그대로 쓰기도 하는데, 이런 표현들은 일반적인 번역기가 번역하기 어렵다. 중국어 전공자들도 게임용으로 축약된 언어를 이해하지 못하는 경우가 있다. 다행히 현지인 연구자들이 각 국가의 문화와 현상을 설명하고 패턴을 포착하여 학습 데이터에 반영함으로써 게임 속에서 번역이 실패하는 경우를 많이 줄일 수 있었다.

translate_210820_tai_kor

게임 번역은 데이터와 기술만으로 서비스하기에는 어려운 부분들이 많다. 언어에 능통한 현지인이 아니면 알기 어려운 채팅 언어 현상들이 무척 많기 때문이다. 이에 대응하기 위해 컬처라이제이션실, 해외지사 내 현지인, 현지 언어에 능통한 연구자들이 협업하여 NCMT가 매끄럽게 번역할 수 있도록 했다. 개발팀과 현지팀이 하나가 되어 같이 노력했기에 가능했던 일이다.


존중을 우선시하는 대화의 기술


어느 나라든 자국민 이외의 외국인에 대한 배타적이고 비하적인 표현들이 있기 때문에 온라인에서 이를 완벽히 차단하기는 힘들다. 이 부분을 보완하기 위해 NCMT는 원칙적으로 정치 용어나 비하 표현 등에 대해 ‘기계가 알아듣지 않아야 하고, 번역하지 않도록’ 하고, ‘문장의 의도는 전달하되 비하적인 느낌을 주지 않게 노력’하도록 했다. 서로의 언어를 모르는 두 유저가 대화하며 비하 표현을 쓰는 경우 NCMT는 대략적인 문장의 의도만 전달하도록 설계되었다.

대만인이나 중국인들이 서양인을 비하할 때 ‘洋鬼子(양귀자, 서양 악마)’라는 표현을 쓰는데 이를 ‘western devil’로 번역하지 않고 ‘yangguizi’라는 음차로 번역하도록 했다. 반대로 서양인들이 동양인을 비하할 때 사용하는 ‘Dog eater’의 경우 그 뜻을 그대로 ‘狗食者(구식자)’로 번역하는 대신 ‘都基塔(도기탑)’/’도기터’와 같이 음차를 사용함으로써 명시적으로는 의미 소통이 불가능하도록 한다.


엔씨의 글로벌화에 발걸음을 맞춰가다


NCMT를 개발하는 일은 결코 쉽지 않았고, 앞으로도 해결해야 할 과제들이 있다. 10~20년 전부터 번역 기술을 개발한 타사를 빠르게 추격하고 있지만, 아직도 더 많은 언어들과 기술적인 해결점이 남아 있다. 지원하는 언어가 하나씩 추가될 때마다 적게는 수백만, 많게는 수천만의 학습 데이터가 필요하다. 그렇기에 무작정 빠르게 번역을 지원하는 것보다 현지어 수준으로 구사할 수 있도록 품질을 높이는 데 주안점을 두고 있다. 바로 글로벌을 목표로 출시되는 게임에 NCMT를 적용했을 때 유저들이 더 매끄럽게 소통하고 서로 즐거움을 나눌 수 있도록 하기 위함이다. 전 세계 동시 런칭을 계획 중인 리니지W의 경우 글로벌 전투에서 필연적으로 발생하는 언어의 장벽을 허물기 위하여 인게임에 NCMT를 적용할 예정이다. 이렇듯 해외로 진출하는 엔씨 게임의 유저들이 자유롭게 소통하도록 지원하기 위해 동아시아를 비롯한 유럽의 언어 서비스도 꾸준히 늘려갈 계획이다.

LineageW-Showcase-TheWorld-210817.mp4_001324156 (1),* 실제 인게임 화면이 아닌 쇼케이스를 위해 연출된 장면입니다.

엔씨는 앞으로도 NCMT를 활용하여 다양한 글로벌 콘텐츠를 개발하고 현지화하며 글로벌 고객들의 의견을 듣고 분석하여 다양한 측면의 서비스를 지원할 예정이다. 더 나아가 게임 외 금융, 미디어 등 전문 영역의 번역까지 기술을 적용하며 범위를 확대하기 위해 노력할 것이다.

TOP