2015.06.03 AI

AI Lab 대담 #4 -자연어처리 기술

지난 대담에서는 타 기업의 사례를 바탕으로 게임에서 AI가 어떻게 활용되고, 어떤 발전 가능성이 있는 지 살펴보았습니다. 또한 엔씨소프트 AI Lab에서 게임에 활용할 수 있는 AI 기술을 연구하고 있고, 더 나아가 AI가 중심이 되는 게임에 대해 고민하고 있다는 이야기를 나눴습니다. 오늘은 AI Lab 대담, 그 마지막 시간(!)으로,  AI Lab의 NLP팀과 함께 AI의 한 분야로서 최근 주목 받고 있는 자연어처리 기술에 대해 알아보겠습니다.



1. 자연어처리 기술이란?

이재준 상무  최근 글로벌하게 핫한 AI기술은 두 가지로 볼 수 있는데요, 전에 언급한 ‘딥러닝(deep learning)’과 오늘 소개해 드릴 ‘자연어처리(Natural Language Processing: NLP)’ 기술입니다. 사실 지난 번에도 IBM Watson이나 페이스북 사례를 통해 자연어처리 기술 기반의 AI에 대해 이야기했는데요, 오늘은 좀더 폭넓고 깊이 있게 자연어처리 기술과 새로운 서비스에 대해 이야기해 보려고 합니다. 자연어처리 기술을 설명하기 위해 NLP팀의 이연수 박사도 자리를 함께 했습니다.

이재준 상무 인터뷰

이재준 상무 

이연수 차장  안녕하세요, NLP팀 이연수 차장입니다. 제가 주로 연구한 분야는 자연어처리 기술 중에서도 기계 번역 혹은 자동 번역이라고 불리는 ‘Machine Translation’, ‘대화 시스템 (Dialogue System)’, ‘정보 추출(Information Extraction)’ 입니다. 기계 번역 분야로 박사 학위를 받았고, 이 외에도 프로젝트를 통해 정보 검색, Opinion Mining 같은 분야도 연구했습니다.

엔씨소프트에는 합류한 계기는 자연어처리 기술 기반의 서비스를 기획하면서, 필요한 기술을 연구하는 일을 하고 싶어서였습니다. 자연어처리 기술은 최근 빅 데이터, Siri, Watson의 열풍을 타고 일종의 마케팅 용어처럼 사용되고 있어요. 사실 대부분의 AI 기술이 그렇듯이, 이론적인 성능과 현실적인 기술 수준사이에 간극이 있고 이 간극을 메우는 것은 엄청난 양의 데이터와 이에 기반한 여러 가지 소프트웨어적인 노하우입니다. 제조업에서처럼 단순히 기획한 대로 스펙을 정의하고 기존의 모듈들을 조립해서 이루어지는 것이 아니죠. 이런 이유 때문에 많은 국내 기업들이 자연어처리 기술 기반의 서비스를 시도하지만 한편으론 어려워하고 있죠. 하지만 우리 회사에서는 가능하지 않을까 싶습니다. 그게 저희에게 주어진 몫이겠죠? (웃음)

장정선 팀장  그럼 자연어처리 기술이 무엇인지 먼저 이야기해 볼까요?  자연어는 C, Java와 같이 인공적으로 생성된 언어가 아닌, 사람들이 자연스럽게 사용하는 언어라는 의미로 사용되는 용어입니다. 자연어처리 기술이라고 하면 작게는 컴퓨터가 사람의 말을 이해하는 것으로 생각할 수 있지만 사실 그 뒤에 더 많은 것이 있어요. 이 세상에 기록되어 있는 혹은 우리가 상호 의사 소통을 통해 주고 받는 많은 정보들은 대부분 자연어 형태로 표현돼있어요. 이를 컴퓨터가 이해하면 많은 것들이 가능해집니다.

이재준 상무  가깝게 살펴보면 웹이나 트위터에서 어떤 특정인에 대해, 혹은 특정 상품에 대한 반응을 분석해서 동향이나 평판을 알려 주는 기술은 모두 자연어처리 기술을 기반으로 하고 있어요. 사람이 한 말이나 쓴 글을 기계가 이해할 수 있도록 해석해 주고, 기계가 결정하거나 판단한 것들을 사람들이 쓰는 말의 형태로 바꿔 주는 것을 모두 자연어처리 기술이라고 하죠.

이연수 차장 자연어는 우리가 어떤 생각을 표현할 때 가장 편하게 사용하는 수단이죠. 오늘도 자연어로 대화를 나누고 있구요. 하지만 우리가 엑셀 프로그램에 데이터를 정리할 때 자연어로 정리하지는 않죠. 사람이 직접 중요한 데이터를 선별하고 수치화해서 값을 넣어 주니까요. 즉, 기계가 일을 하게 하려면 기계가 일을 이해할 수 있는 형태로 만들어 주는 중간 과정을 사람이 직접 해야 합니다. 그런데 사람과 사람 사이에서는 그런 식으로 일을 처리하지 않고 그냥 말을 하죠.

장정선 팀장 게다가 우리가 말하는 것은 대개 문장 하나로 끝나지 않죠. 말하는 사람의 의도를 파악하려면 여러 문장의 문맥을 이해해야 합니다. 이러한 과정을 엑셀 프로그램과 같은 형태로 기계가 처리하게 하려면 아마도 엄청난 노력이 필요할 거예요.

이연수 차장 인터뷰

이연수 차장

이연수 차장 자연어처리 기술이란 자연어로 존재하는 다양한 정보를 사람의 개입 없이 기계에게 이해시키는 기술입니다. 그리고 더 나아가 이와 반대로 수치 정보 등의 데이터를 다시 자연어로 표현하는 기술도 자연어처리 기술이라고 할 수 있어요. 예를 들면, 사용자가 스마트폰에 음성으로 “내일 아침 7시에 알람 맞춰 줘.” 라고 이야기하면 의미를 해석해서 알람 기능을 설정을 해 주기도 하고, 스케줄을 점검한 뒤 다시 자연어를 생성하는 기술을 통해 “내일 아침 6시에 다른 스케줄 있는데 그래도 7시에 깨워드릴까요?” 라고도 할 수 있게 되는 거죠.

장정선 팀장  최근 이러한 자연어처리 기술을 활용하는 사례가 많아지고 있습니다. 작성된 글에서 제품에 대한 사용자의 평가 정보를 분석하는 Opinion Mining, 자연어 인터페이스를 제공해 사용 편의성을 향상시키는 애플의 Siri와 같은 Personal Assistant나 IBM의 Watson과 같이 주어진 질문에 대한 정답을 제공하는 Question Answering 기술을 들 수 있죠. 이 외에도, 서비스에서 사용자가 즐겨 보는 글의 내용을 분석하여 선호하는 컨텐츠를 먼저 배치해 주는 Curation 기술도 있고, 수치, 통계 등의 데이터를 사람들이 쉽게 이해할 수 있도록 자연스러운 글로 표현하는 Narrative Technology 등도 있습니다. 각각의 기술에 대해 좀 더 자세히 살펴보도록 하죠.


2. 자연어처리 기술의 활용 사례

 Opinion Mining

장정선 팀장  자연어처리 기술 중 대표적인 것이 보통 ‘감성 분석’이라고도 하는 ‘Opinion Mining’ 기술입니다. 요즘 사람들은 각각의 다양한 의견을 블로그나 트위터, 게시판을 통해 표현합니다. 여러 의견을 담은 글을 대량으로 수집해서 몇 가지 주제에 대한 의견을 분석하는 기술을 ‘Opinion Mining’이라고 해요. 그래서 실질적으로 ‘평판 정보’라고 많이 부르죠. 가장 많이 활용되는 부분은 특정 제품에 대한 사용 후기를 전부 모은 후, 디자인, 기능, 성능 등에 대한 여러 반응을 분석해서 다음 제품을 만들 때 전작의 사용자 의견을 반영하는 거죠. 이런 형식으로 Opinion Mining은 다양한 분야에서 이미 활발하게 사용되고 있습니다.

장정선 팀장 인터뷰

장정선 팀장 

이연수 차장  최근에 나온 것 중에 재미있는 게 있었어요. 기업과 학교가 공동으로 만든 ‘소셜 메트릭 펀드’라는 거예요. 트위터의 글을 전부 다 수집해서 여러 가지 감정들을 분석해 낸 다음 그 집단 감성을 주식 투자에 이용하는 펀드죠. 트위터의 글은 개인의 감정을 나타낸 글이기에 기업의 가치와 연관 짓기 어렵고 상관관계가 전혀 없을 거라고 봤지만, 분석했더니 의외의 결과가 나온 거죠. 트위터에 ‘두려움’이라는 표현이 많이 나오면 99.8퍼센트 확률로 한전의 주가가 오르고, ‘사랑해’라는 표현이 많으면 ‘진로’의 주가가 오른다고 하더라구요(웃음). 이게 다 맞다고 할 순 없지만 이런 서비스가 Opinion Mining 기술을 직접적으로 이용한 것이라고 할 수 있겠죠.

이재준 상무 최근 빅데이터를 기반으로 선거 예측을 하는 것도 Opinion Mining 기술을 활용한 거예요. 지난 선거에서 다양한 소셜 데이터를 확보한 후, 특정 후보자에 대한 평판을 분석하고, 선거 결과와의 연관 관계를 분석하고 나면, 다음 선거에서는 실시간 데이터 수집만으로 선거 결과를 예측할 수 있게 되는 거죠.

정세희 차장  단순하게 사용자들이 매긴 평점으로 의견을 집계하는 것보다는 사람들이 어떻게 생각하는 지를 직접적으로 표현한 내용을 분석했다는 데 그 의미가 있습니다. 요즘 SNS 이용이 활발해지고 이를 분석할 수 있는 기술이 발전하면서 분석할 수 있는 대상의 범위가 점점 넓어지고 있는 거죠. 서비스나 비즈니스를 하면서 가장 궁금해 하는 사용자들의 피드백을 기존에는 정형화된 로그 분석이나 사용자 인터뷰를 통해서만 파악할 수 있었지만, 자연어처리 기술이 발전하면서 보다 정확하게 정보화할 수 있는 능력이 생긴 것이 Opinion Mining의 가치라고 생각합니다.

이연수 차장 또한 요즘엔 수많은 정보 중에서 전문가 집단의 고급 정보와 일반 대중들의 의견을 구분해서 분석하는 방법에 대한 연구도 계속되고 있어요.  사람들이 써놓은 글들을 분석하면서 글쓴이의 전문성을 자동으로 분석하려는 노력도 하고 있고, 광고성 글은 일반 사용자들의 의견에서 제외하고자 해당 문서를 분류하려는 시도도 하고 있죠. 한마디로 저자의 영향력과 텍스트 품질 등을 측정하려는 시도들이 계속되고 있습니다.

Curation

정세희 차장  자연어처리 기술과 데이터마이닝 기술 등을 이용해 사용자들의 피드백을 분석한 결과를 이용해 기존에 일방적으로 제공되던 서비스를 개선하려는 시도들도 있습니다. 사용자들이 선호하는 내용을 우선적으로 제공해 주는 것인데요, 이런 기술을 Curation 또는 개인화 서비스라 합니다. 요즘에는 우리가 접할 수 있는 컨텐츠나 정보들이 너무 많아서 자신에게 적합한 것을 선택하고 즐길 수 있도록 도와주는 기능이 필요하죠. ‘Amazon’이나 ‘Netflix’ 등을 통해서 이런 똑똑한 기술들이 이미 제공되고 있고, 자연스럽게 받아들여지고 있습니다.

이연수 차장  맞아요. 이렇게 사용자에게 적합한 정보나 컨텐츠를 Curation하는 데에도 자연어처리 기술이 활용되면서 품질이 향상되고 있습니다. 자연어 분석을 통해 컨텐츠의 주제나 속성을 파악할 수 있고, 이렇게 분석된 정보를 바탕으로 사용자들의 선호도나 의도에 맞는 컨텐츠를 보다 정확하게 제공할 수 있게 된 것 같아요.

Question Answering과 Personal Assistant

장정선 팀장  정세희 차장이 이야기했던 것처럼 정보가 많아지면서, 사용자가 원하는 정보를 탐색하는 기술이 더욱 중요해지고 있죠. 그런데 현재 검색은 키워드를 중심으로 문서를 찾아 주기 때문에 사용자가 원하는 정보를 획득하기 위해서는 추가적인 노력을 해야 합니다. 이런 검색의 한계를 해결하기 위해 IBM Watson이나 Siri에 사용하고 있는 Wolfram Alpha와 같은 Question Answering 기술이 나오게 된 거죠. 이러한 Question Answering 기술은 사용자가 입력한 질문에 대한 정확한 정보만을 찾아 주는 기술입니다. 사실 Question Answering 기술은 최근 기술은 아니고 오래 전부터 연구된 분야인데요, IBM Watson이 2011년에 퀴즈쇼  <제퍼디>에서 우승한 후 더 주목 받고 있죠.

이연수 차장  Question Answering 기술은 사람의 질문을 분석하여 질문 의도를 알아 내고, 질문에 적합한 정보를 탐색해 후보 중에서 정답 만을 찾아 내는 기술입니다. 정확하게는 자연어처리 기술만 사용되지는 않았지만, 사람의 질문을 분석하거나 정보를 분석하기 위해서 자연어처리 기술이 필요하죠.

정세희 차장 인터뷰

정세희 차장

정세희 차장 정보도 많아졌지만, Device 기능도 점점 더 복잡해지고 다양해지고 있습니다. 애플은 음성인식기술 기반의 Siri를 통해 아이폰을 편안하게 사용할 수 있도록 도와 주고 있죠. 여러 가지 명령을 음성으로 인식해서 필요한 기능을 수행해 주거나, 필요한 정보를 Question Answering 서비스를 이용해 제공해 주고 있습니다. 이런 종류의 Personal Assistant는 애플외에도 구글, Amazon, Microsoft와 같은 IT 회사들에서도 관심을 가지고 최근 새로운 기능을 발표하고 있습니다. 이러한 Personal Assistant 서비스에도 사용자 명령을 이해하기 위해서 자연어처리 기술이 활용되고 있습니다.

이재준 상무 지금까지 이야기된 자연어처리 기술 사례를 정리해 보면, 텍스트를 분석해 필요한 의미 정보를 추출하려는 시도가 Opinion Mining, 그리고 검색에 활용해 사용자에게 필요한 정보를 전달하는 측면이 Question Answering, 그 다음에 이것을 Mobile Device로 가지고 와서 자연어 인터페이스로 바꾸려는 시도가 Personal Assistant라 할 수 있죠. 자연어처리 기술은 이러한 기술 또는 서비스가 가능할 수 있도록 하는 근간이라고 할 수 있습니다.

정세희 차장  또 다른 측면에서 보면, 자연어 기반의 인터페이스는 커뮤니케이션 측면에서 가장 자연스러우면서도 효과적인 방법이에요. 사물간의 인터넷 지능형 인터페이스를 가지고 상호작용하는 기술을 ‘IoT(Internet of Things)’ 라고 하는데요. 가령 요리를 하는 중에 갑자기 누가 벨을 누르면, ‘들어오세요.’ 라고 말만 해도 문이 자동으로 열리거나, 사람이 집에 돌아오는 시간에 맞춰 적절하게 집의 온도를 조절하는 등의 기술로 활용될 수 있죠. 물론 지금 기술 수준에서도 문은 열어 줄 수 있지만, 자연어가 아니라 스마트폰에서 앱을 실행시켜서 문을 여는 기능을 수행해야겠죠.  IoT가 실현되면 생각해 볼 수 있는 기능의 조합이 굉장히 많아집니다. 자연어는 그 많은 기능을 제어할 수 있는 가장 효과적인 방법이고요.

Narrative Technology

장정선 팀장  정세희 차장이 이야기했던 것처럼 커뮤니케이션 측면에서 볼 때 Narrative Technology 이야기가 빠지면 안될 것 같아요. 자연어는 효과적인 명령 수단이기도 하지만, 사람이 이해하기에도 가장 편한 방법이죠. Narrative Technology는 간단하게 ‘자동으로 글을 써 주는’ 기술이라고 생각하면 될 것 같아요. 예전부터 가디언 같은 곳에서는 지진 뉴스 등의 짧은 속보가 자동 생성되고 있었는데요. 최근에는 그 외에도 다양한 연구들이 이루어지고 있습니다. 특히, 같은 사건을 보더라도 사용자마다 관점이 다 다르잖아요. 예를 들어 NC다이노스와 삼성이 야구를 하는데 다이노스가 이기고 삼성이 졌다면, 각각의 팬들은 기쁘고 슬퍼하겠죠. 이때 각각의 팬들의 관점에 따라 뉴스가 생성되는 기술 등이 연구되고 있습니다. 어떤 사건이나 이벤트에 관련된 데이터를 주면 선정된 관점에 따라 기사를 작성하는 기술을 Narrative Technology라 하죠.

이재준 상무  데이터로 뉴스를 생성하면 재미있는 게 훨씬 더 많아져요. 또 기업에서 실적을 발표할 때 데이터를 먼저 주면 그걸 기반으로 기계가 알아서 분석하는 게 더 빠르겠죠? 올해 1/4분기 실적 데이터가 주어지면 동년 전분기 대비, 관련 업종 대비 비교 내용을 전부 분석해서 정리해 주는 거예요. 또 그런 분석 내용이 주가에 반영되는 결과를 실시간으로 추적하고 분석할 수 있다면, 전문가가 쓴 것보다 훨씬 더 가치 있는 뉴스가 될 수도 있을 거예요. 실제로 데이터가 중심인 뉴스에 한해서는 Narrative Technology가 충분히 가치를 발휘할 수 있다고 믿는 사람들이 작년부터 회사를 창업하고 있습니다.

정세희 차장  사회적으로 이슈가 되고 있는 빅 데이터와 관련해서도 Narrative Technology가 이슈가 되고 있어요. 빅 데이터를 잘 분석해서 실질적으로 활용하기 위해서는 분석 결과를 효과적으로 전달할 수 있어야 합니다. 깔끔한 표도 만들고, 예쁜 그래프도 그려보기도 하고, 키워드 클라우드 등을 이용하기도 했었죠. 또한 이를 좀 더 발전시키기 위한 인포그래픽이라는 연구 주제가 생기기도 했구요. 그런데 이 모든 것보다 가장 효과적인 것은 사람들에게 정확하게 말로 전달해 주는 것이거든요. 어떤 것이 중요하고 어떤 변화가 있었다는 것을 자연어로 설명해 줄 수 있는 기술이 최근 더욱 주목받고 있습니다.

이재준 상무  사람들이 표나 그래프만 보고는 어떤 의미가 있는지 알기 어렵죠. 표만 보고 바로 이해할 수 있는 사람은 전문가라고 볼 수 있어요. 사람들이 말로 “이거 진짜 중요해.” 라고 얘기를 해 주면 확 와 닿는데, 표나 그림으로만 표시를 해 두면 얼마나 중요한 것인지 또 어떤 의미인지 모르고 지나갈 수 있어요. 그래서 직접 말해 주는 것이 엄청난 효과가 있다고 해서 학회에서도 관련 연구가 많이 이뤄지고 있습니다.


3.
엔씨소프트와 자연어처리 기술

장정선 팀장  AI Lab에 NLP팀이 있는 이유는 지금까지 살펴봤던 새로운 서비스와 시도의 밑단에 자연어처리 기술이 있기 때문이에요. 우리 회사에서도 자연어처리 기술을 기반으로, 즐거움을 줄 수 있는 다양한 서비스에 도전해 보고자 합니다. 지금까지 게임에서의 활용 사례를 이야기하지는 않았지만, 게임에서도 자연어처리 기술을 활용할 수 있는 분야가 많아요. 이를테면 소환수에게 명령을 한다든지, 애완동물과 대화를 한다든지, 또는 NPC가 퀘스트를 적절하게 자동으로 생성해 준다든지 하는 등 다양한 게임 요소에 자연어처리 기술을 활용할 수 있습니다.

이재준 상무  AI Lab이 다양한 실험을 통해 연구 개발을 하고 있으니, 내년에는 저희가 이룬 성과를 가지고 다시 즐겁게 이야기 할 수 있었으면 좋겠네요. 우리 회사도 새로운 즐거움을 제공하기 위해 자연어처리 기술에 관심을 기울이고 있고, 이를 기반으로 새로운 형태의 서비스를 만들기 위해 열심히 노력하고 있으니 앞으로도 계속 지켜봐 주시고 많은 응원과 격려 부탁드립니다. 🙂


지금까지 4회에 걸쳐 진행한 AI 대담 소개는 일단 여기서 마무리를 짓습니다. AI의 전반적인 기술에 대해서 알 수 있었던 귀한 시간이었습니다. 지금까지 해 온 것보다 앞으로의 발전이 더욱 기대되는 AI기술! 엔씨소프트 AI Lab 팀의 활약을 기대하겠습니다. AI Lab 박사님들, 또 뵙겠습니다 🙂  AI 시즌 2에서 다시 만나요~ 제발~~

TOP