2018.12.21 데이터 사이언스

‘2018 빅콘테스트’ 블소 유저의 이탈 시점을 예측하라

데이터를 활용한 끊임없는 도전으로 게임 업계를 선도하는 엔씨소프트. 이번엔 데이터 분석 꿈나무들과 함께 했습니다.

엔씨는 빅데이터 분석 경진대회 ‘2018 빅콘테스트’에 주관사로 참여했습니다. 이 ‘빅콘테스트’는 참가자들이 기업에서 실제 보유하고 있는 데이터를 자유롭게 활용해서 분석능력을 겨루는 경진대회입니다.

올해로 6회째를 맞이하는 이 대회는 빅데이터 분야 공모전 중 가장 권위 있고 규모가 큰 대회라고 합니다. 엔씨는 올해 처음으로 참여해 게임 데이터를 공개했습니다. 이로써 참가자들은 게임 분야의 데이터를 분석할 수 있게 되었다는데요.

장장 4개월간 진행된 ‘2018 빅콘테스트’는 11월 21일 시상식을 끝으로 종료되었습니다. 이 콘테스트를 진행한 I&I실 분석모델링팀은 결과를 보면서, 게임 데이터에 대한 신선한 시각을 경험할 수 있었다는데요. 그럼 빅콘테스트가 어떤 대회였는지, 엔씨가 왜 참여했는지, 어떤 스마트한 팀이 우승을 차지했는지 현장을 따라가보면서 알려드리겠습니다~.



어서와 게임 데이터는 처음이지?  

‘2018 빅콘테스트’의 챔피언스리그 Analysis 분야 참가자에게 주어진 주제는 ‘블레이드&소울 유저 이탈 예측’이었다. 유저들의 게임 활동 정보를 이용해서 향후 게임 서비스에서 이탈하는 시점을 예측하는 것이다.

게임 운영에서 ‘이탈 예측’은 매우 중요한 문제다. 미리 유저가 이탈하는 시점을 알면 마케팅에서도, 기획에서도 유용하게 활용할 수 있다. 특히 비용적인 측면에서 효율적이다. 신규 고객 유입을 위해 필요한 비용보다 기존 고객 유지에 필요한 비용이 더 적게 들기 때문이다.

“엔씨는 대부분의 의사 결정을 데이터 기반으로 하려고 합니다. 이미 출시된 게임들도 그렇게 운영되고 있고요. 주제로 선정된 게임 ‘블레이드&소울’도 데이터를 잘 활용하는 IP중 하나입니다.” (I&I실 허준석)

이번 대회를 진행한 I&I실 분석모델링팀
I&I실 이은조, 허준석, 장윤제

게임 데이터는 데이터 분석가들에게 아주 매력적이다. 하나의 게임 안에서 다양한 속성의 데이터를 수집할 수 있기 때문이다.

미션을 수행하고 퀘스트를 달성하는 ‘성장 활동’ 사냥과 채집, 거래를 통한 ‘경제 활동’ 그리고 파티를 맺고 친구를 사귀고, 채팅을 하는 ‘사회 활동’까지 모두 게임 속에서 이루어진다. 누가, 언제, 어디서 무엇을 어떻게 하고 있는지 모두 관찰할 수 있는 것이다. 이는 현실에서 접하기 힘든 고품질 데이터가 된다.

“게임 데이터 분야는 아직 폐쇄적입니다. 데이터는 흥미로운데 반해 접하기는 힘들죠. 이런 기회를 통해 많은 사람들이 게임 데이터에 관심을 가지길 바랐습니다. 뿐만 아니라, 새로운 시각에서 데이터를 어떻게 활용하는지 우리도 배울 수 있는 기회가 되리라 생각했죠.” (I&I실 분석모델링팀 이은조)


데이터 인재들을 찾아라! 발표심사 현장 

7월부터 시작된 빅콘테스트는 장장 4개월간 진행됐다. 예선을 통해 12팀이 선정되었고, 12팀은 엔씨소프트 판교 R&D센터에 방문해 PT발표를 진행했다.

참가자들은 주어진 데이터를 분석해 블소 유저가 이탈하는 요인을 파악하고, 시점을 예측한 결과를 발표했다. 심사위원들은 발표 하나하나 꼼꼼히 들으며 데이터 전처리, 변수 가공, 모델링, 모델 해석 각 단계별로 사용한 기법의 타당성과 전반적인 논리의 흐름을 평가했다.

10명의 심사위원들의 날카로운 시선

이 콘테스트를 진행한 I&I실 분석모델링팀은 결선에서 직접 심사를 보았다. 다양한 참가자가 자유롭게 분석할 수 있도록 데이터를 공개한 건 처음이었기에 기대도 됐지만, 게임 데이터를 전문적으로 다뤄본 적이 없는 참가자들이 많아 고만고만할 것이다라는 편견도 있었다. 그러나, 심사를 하면서 생각은 바뀌었다.

“이 정도로 심도 있게 고민하는 구나 싶었어요. 많은 시간과 노력을 투자했다는 걸 느낄 수 있었죠. 실제로 현업에서 진행하는 이탈 예측의 수준과 크게 다르지 않았던 것 같아 위기감을 느끼기도 했습니다.(웃음)” (I&I실 분석모델링팀 장윤제)

언제나 떨리는 발표의 순간

이 콘테스트의 수상자에겐 다양한 혜택이 주어진다. 우승 상금을 포함, Data Analysis & programming 직무에 지원 시 서류 전형 및 과제 테스트를 우대한다. 또한 우수 발표자에겐 별도의 회사 세미나와 면담 시간이 주어진다. 실제 참가자들을 보면 데이터 분야의 취업을 준비하는 학생들이 많아 실질적으로 도움이 되는 혜택이었다.

“좋은 인재를 뽑으려면, 우리가 어떤 식으로 데이터를 다루는 지 오픈해야 해요. 이번이 좋은 기회가 됐죠. 데이터 분야는 대부분 경력을 선호합니다. 하지만 이번 대회를 통해 생각이 좀 바뀌었어요. 학생들 수준이 생각보다 높았죠. 신입을 뽑아서 모험을 해볼 필요가 있지 않을까 했어요. 심사를 보는 내내 ‘내가 고인물이 되어선 안되겠구나’ 싶었습니다. 열정적인 학생들을 보면서 각성 효과가 있었다고 할까요.“ (I&I실 허준석)


데이터 전문가를 향해! 파란만장 시즌2

이번 대회의 챔피언스리그 Analysis 분야의 우승팀은 ‘파란만장 시즌2’였다. 1등격인 과학기술정보통신부 장관상을 받았다.

상을 받는 ‘파란만장 시즌2’의 이혜주 팀장

‘파란만장 시즌2’는 stacking 모델을 활용한 데이터 분석으로 ‘블레이드&소울’ 유저의 이탈 시점을 예측했다. 이들은 데이터 분석을 통해 플레이 시간과 사냥 시간이 유저의 이탈에 영향을 미치는 것을 발견했다. 결과적으로 플레이 시간과 사냥 시간은 길지만, 과금을 적게 하는 유저가 빠르게 이탈하는 것을 알 수 있었다. 어느 정도 레벨이 올라가면 과금을 한 유저와 격차를 좁히기 힘들어 빠르게 이탈하게 된다고 생각했다.

짜잔! 자랑스러운 우승팀 ‘파란만장 시즌2’
(왼쪽부터) 조만재, 이진우, 이혜주(팀장), 이정호, 이호재

‘파란만장 시즌2’는 통계학과 산업공학을 전공하는 학부생 5명이 모인 팀이다. 각각 다른 학교에 다니지만, 이 경진대회를 위해 뭉쳤다.

이들은 대학원 생들을 제치고 당당히 우승을 차지했다. 인터뷰를 옮겨 그들의 우승 비법을 공개한다. 사실 별 거 없다. 열심히 하는 팀원들이 모여, 요행을 바라지 않고 기본에 충실해, 데이터 결과에 기반한 객관적인 해석을 내놓으면 되는 것이다. (참 쉽죠?)

공부 잘하는 방법은 따로 있는 게 아닙니다..

 


파란만장 시즌2 인터뷰

2018 빅콘테스트 중 ‘챔피언스리그’에 참가한 이유가 무엇인가요?

“학부 수준에서 이렇게 큰 데이터를 다루기 힘들어요. 문제의 예제가 아닌 실제 데이터를 다룰 수 있는 게 메리트였고요. 게임에 관심이 많아 게임 데이터를 다뤄 볼 수 있는 점이 좋았어요.” (이혜주)

어떻게 Stacking 모델을 쓰게 된 건가요.

“배부된 데이터 내에서뿐만 아니라 새로운 유저 데이터가 들어왔을 때에도 유연하게 대처할 수 있어야 해요. 때문에 기계를 학습시켜서 자동적으로 판별이 가능한 모델을 만드는 게 필요하다고 생각했어요. 과최적화가 될 수 있으니, 그걸 보완하기 위해 여러 성격의 모델을 서로 경쟁시켜 의견을 내놓게 했죠. 머신러닝 기반으로 가장 일반화를 잘 하는 모델을 선정한 거예요.”(이진우)

어떤 유저들이 이탈을 하던가요?

“’플레이 시간’이 굉장히 중요한 변수거든요. 하지만 이것만으로 이탈 여부를 예측할 수 없었고, 여러 조건을 비교해서 파악해야 했어요. 그래서 나온 유의미한 변수가 ‘사냥 시간’이였어요. 둘 다 높은 유저는 빨리 이탈하더라고요.”(이호재)

“의외였어요. 플레이 시간과 사냥 시간이 높은 유저가 빨리 이탈할 확률이 높다는 게. 여기서 과금 유무가 판단에 중요한 기준이 되는데요. 레벨이 올라갈수록 경험치가 더 많이 필요해요. 일반적으로 어느 정도 이상의 레벨로 올라가면 경험치에는 과금을 해야 하거든요. 그래서 과금을 적게 하고 사냥만 많이 하는 사람들은 과금을 한 사람들과 점점 좁히기 힘든 격차를 느껴요. 그래서 빠르게 이탈한다고 생각했어요.” (이정호)

분석하면서 어려웠던 점은 없었나요?

“모델 선정보단 데이터들을 전처리하는 과정이 어려웠어요. 데이터를 살펴보니 극단적인 아웃라이어들이 많았어요. 플레이 시간에 평균이 없고 헤비 유저들이 많았죠. 이런 것들을 일반화 시키는 과정이 힘들었어요. ”(이진우)

어떻게 해결하셨나요?

“양극단에 치우친 정보가 많아서 완화시키려 로그 변환을 시켰어요. 넓게 퍼져 있는 데이터를 모아주는 거예요. 양극단에 있는 데이터를 그 안에 있는 데이터와 같이 평가를 해야하니까요. 그래서 99% 에서 100%사이에 있는 것들을 99%인 값으로 넣자 이렇게 대체하는 등 여러 방법을 사용했죠.”(이호재)

“전처리가 굉장히 오래 걸렸어요. 변수만 2천개 정도 만들었죠. 이탈 시점을 예측하는 건, 시간적인 요소가 중요한데 주어진 데이터에는 시간적 흐름이 많지 않았어요. 그래서 다양한 요소를 고려해 해답을 찾기 시작했죠. 그러다 보니 2천개까지 늘어나고… 이걸 하나씩 제거해 나갔어요.” (조만재)

시간이 오래걸렸겠어요.

“하루종일 이것만 했어요. 다들 휴학했으니까 가능했죠. 자주 가는 노량진 스터디룸에 일주일에 두세 번 정도 모였어요. 못 만나는 날은 각자 집에서 카카오톡을 켜놓고 채팅 하면서 했어요.” (이혜주)

참가자들을 보면 대학원생들을 포함한 일반인들이 많았기 때문에, 우승팀이 학부생들이라고 해서 놀랐어요.

“대회가 크다 보니, 잘하는 팀이 많았어요. 그런 압박 속에서 ‘우린 잘해’ 가 아니라 부족하다는 생각을 계속 했죠. 그래서 다들 더 열심히 했어요. 헝그리 정신이 있었던 거죠.”(조만재)

어떻게 우승할 수 있었다고 생각하세요?

“원칙대로 기본에 충실했기 때문에 잘 된 거 같아요. 통계 분석하는 기본적인 방법을 잘 따랐고, 모델을 바탕으로 실제 어떻게 작용을 했는지 객관적으로 해석하려 했어요. 그리고 그 현상을 보고 문제점을 인식한 다음에 해결방안을 찾았죠.” (이정호)

“로우 데이터를 파악해서 모델을 만들었잖아요. 그러면 그 모델을 통해서 어떤 변수가 이탈에 얼마만큼 영향을 미친다라는 정량화된 수치를 도출할 수 있어요. 우리는 그 수치대로 해석한 거예요. 당연한 거 같지만 놓치는 경우가 많거든요.” (이진우)

“멤버들의 조합이 좋았다고 생각해요. 좋은 성과를 내기 위해 누구 하나 빠지지 않고 열심히 했거든요. 제 자신이 부족하다고 생각했는데, 믿고 잘 따라와준 친구들에게 고마워요. 팀원들에게 많이 배웠어요.” (이혜주)

“리더의 탁월한 리더쉽이 있었죠.(웃음)” (조만재)

게임 데이터를 다뤄보니 어떻던가요?

“현실 세계를 옮겨 놓은 데이터 같다는 생각이 들었어요. 캐릭터의 파티 활동이나 길드 활동이 모두 찍혀있었죠. 현실에서는 한 사람의 사회 활동, 이를테면 직장을 다녀오는 시간 같은 개인적인 정보를 얻기 쉽지 않잖아요. 현실적이지만 현실적이지 않은 데이터를 분석해보니 새로운 느낌이 들었죠. 실제론 이렇게 얻을 수 없을테니까요.”(이정호)

“다양한 행동 패턴들을 관찰 할 수 있었어요. 가짜 세계지만 더 현실에 가까운 진실된 데이터 같았어요. 관심있는 분야의 데이터를 실제로 다뤄보니 더 흥미로웠던 거 같아요.”(이혜주)


“기본에 충실해서 잘 된 것 같다.”라는 이야기는 우승 비법이 아니라 필승 비법인 것 같은데요. 공모전이나 대회를 준비하는 분들에게 도움이 될 것 같습니다.

앞으로도 엔씨는 게임 데이터를 직접 다뤄볼 수 있는 기회를 다양한 방법으로 제공할 예정입니다. 관련 소식은 이번 대회를 진행한 I&I실의 블로그에서 빠르게 확인하실 수 있습니다!

‘DANBI’ 블로그 바로가기

많은 기대바랍니다. 🙂

TOP