기록은 영원하지만 전체를 기록한 기록은 아무것도 의미하지 않는다.

제가 게임 회사를 다니다보니, 유저들의 활동에 관한 수많은 기록들이 지니는 의미에 대해서 고민하는 시간이 많습니다. 유저들이 활동한 총 시간, 접속한 유저 수, 동접자, 신규 가입자 수, 유니크 ID 수, 레벨 분포, 평균적인 소모 금액, 소모 금액의 분포 등등등 정말 온갖 데이터들이 축적됩니다. 들리는 말로는 와우는 하루에 페타 단위의 로그가 쌓인다고 하더군요.

이 수많은 데이터는 그 자체로는 아무 소용이 없습니다. 기획자는 자신의 의도가 제대로 반영되었는지 확인해야 하고, 운영자는 이상증후가 없는지를 확인해야 하기 때문에 이 수많은 데이터를 의도에 맞게 배열하거나 계산하는 과정이 필요합니다. 아마 어느정도 통계쪽에 관련이 있으신 분은 아시겠지만 이를 데이터 마이닝이라고 합니다. 실상 큰 규모의 회사에서 라이브 서비스를 진행하면서 하는 일 중 가장 먼저 중요한 일은 바로 이 데이터 마이닝이죠.

던전앤 파이터라는 게임의 예인데, 어느 날 패치 이후, 신규 가입자의 수와 유니크 ID, 동접자가 늘었습니다. 기획자들이 패치를 기획할 때 의도한 바였기 때문에 패치는 성공적이었다고 판단할만 했습니다.

그런데 운영 측에서 데이터 마이닝을 통해서 문제점을 발견했습니다. 문제점은 비록 신규 가입자는 늘었지만 정작 게임에서 대부분의 돈을 사용하는 헤비 유저들의 이탈이 컸다는 겄입니다. 이와 함께 바로 3주 후부터는 매출의 지속적인 감소가 감지되었습니다. 어떻게 되었을까요? 다행히 운영 측에서 데이터 마이닝을 통해서 문제점을 조기에 발견했기 때문에 문제점을 바로 잡을 수 있었고, 곧 새로운 패치를 진행하여 이탈자를 붙잡을 수 있었습니다.

통계란 그렇습니다. 단순한 하나의 데이터는 아무것도 말하지 못합니다. 사실일 수도 있지만 사실과 반대일 수도 있습니다. 바이커님이 가져온 데이터는 이를테면 데이터 마이닝을 할 수 없으면서도 상당히 투박하여 반박이라고 하기엔 상당히 부실한 부분이 많은 그런 자료입니다.

물론 그렇다고 바이커님을 탓하고 싶지는 않습니다. 문제는 바이커 님이 아니라 어떤 논문에서도 바이커님이 제시한 것 이상으로 드러난 자료가 없기 때문입니다. 데이터 마이닝을 위해서는 매우 정밀한 수준의 데이터가 필요한데, 정보화 시대라며 2000년이 지난지 10년이 넘게 지났지만 아직도 통계 자료는 부실하기 짝이 없어 마이닝에 상당한 제약이 있고, 지역 차별의 경우엔 사실상 그 자료가 전무하다고 봐도 될 정도입니다. 제가 모든 논문을 찾아본 것은 아니지만 지역 차별의 연구에 사용된 자료조차 매우 피상적인, 데이터 마이닝이 힘든 얕은 수준의 자료에서 최대한으로 뽑아낸 것에 불과합니다.

가령 지역별 소득 격차에 대한 가장 근접한 자료인 지역별 개인 소득 자료조차 고작 3년 전부터 수집되기 시작했습니다. 하물며 차별이라는 증명하기 힘든 명제의 근거가 될만한 데이터가 쌓이기는 했을까요?

없습니다. 증명이 불가능한 문제에요. 강남에 호남 원적자가 많기는 하지만 그 원적자의 비율이 어떤가요? 30%는 넘었습니까? 강남에서 민주당 지지율이 얼마죠? 단순히 영남보다 많다고 증명이 되는 문제일까요? 

데이터 자체가 적습니다. 그것도 70년대부터 2000년까지의 자료로 증명할 수 있는 것은 아무것도 없습니다. 자료 자체가 적어요.

게임을 운영할 때에도 이런 문제는 발생합니다. 데이터를 모으지 못했는데, 별다른 증후 없이 유저들이 빠지기 시작합니다. 이 때, 자료가 없으니 그냥 손을 두고 구경만 하고 있어야 할까요? 그런 인간에게 왜 월급을 줍니까? 그럴 때 운영팀에서 해야 할 일은 유저들의 의견을 수집하고, 직접 유저들의 입장에서 생각하는 것입니다. 그리고 그 경험에서 이유를 찾는 것이죠. 현상에서 근거를 찾는 것이 불완전하기는 하지만 그렇다고 불완전한 데이터에서 결론을 유추하는 것보다는 훨씬 낫습니다. 그래서 월급 받는 것이죠.