구글(Google)의 능력은 우리의 상상을 초월한다. 젊은이들이 사용하는 twitter부터
수백만 블로그의 댓글등등, 대략 하루에 모으는 데이터의 양만해도 대략 1 peta byte라고 하니
놀라울 정도이다. 구굴의 전략은 매우 단순한데 자료를 제공해주는 것이라기 보다
사용자들의 선호정도를 조사해서 정보를 수집하고 가공한다. 비싼 큐레이터를 사용해서
정보를 애쁘게 가공하고자 한 야후!가 망한 이유는 여기에 있다고 한다. 구글은 사용자들이
클릭하는 개개의 단어, 제시된 Web page중에서 선택된 내용을 모두 기록하여 마이닝(mining)을
하기 때문에 컴퓨터를 쓰는 사용자의 의중이 가장 잘 파악되어 있다고 볼 수 있다. 더욱
놀라운 것은 구글에서 검색되는 특정 단어, 예를 들어 정치가의 이름의 횟수와 그들이
나선 선거에서의 득표수와 놀라울 정도로 높은 상관계수는 보여주는데 이전 대선에서
보여준 이명박, 정동영, 이회창의 득표수는 구글 index와 0.98 정도의 높은 상관관계를
보여주었다. 미국 대선도 마찬가지. 한가지는 문제는 그 구글의 측정 구간인데, 대략 투표
한달 전에 보여준 조회수가 가장 의미있는 것으로 보인다. 물론 구굴이 투표자의 산택을
결정하는 것이 아니라, 유권자의 상황을 보여주고 있기 때문에, 구글이 정치 상황을 예언해준다고
말을 하기는 어렵다는 것이다.  그러니까 만일 특별한 사안없이 그대로 쭉 흘러간다면 구글index가
보여주는대로 투표가 진행될 가능성의 매우 높다고 할 것이다.  그러나 엄기영, 최문순과 같이
비교적 국지전에서는 구글값이 별 의미를 가지지 못한다.  최문순의 낮은 인지도와, 막판 엄기영의
닭플레이가 구글값에는 제대로 반영되어있지 못한 것으로 보인다.  그 차이는 10% 정도 차이로 엄기영이
유리했다. 불행하게도 구글자료는 특정 지역기반, 예를 들어 강원도에서 수집한 값을 처리하지 못한다.
강원도에서 글을 올리는 사람도 실제 서버는 대전에 있기 때문이다. 만일 ip까지 확인하여 글쓴이의
지역까지 알아낼 수 있다면 강원도 선거도 꽤 정확하게 맟추지 않았을까 한다.  위치서비스... 이것 장난이 아니다.
그냥 재미삼아 내주었다간, 나라를 통째로 팔아먹는 일이 생기게 된다. 모두 조심해야 한다.  내가 관심가지는 것은
과연 이번 대선에서도 구글값이 그대로 높은 적중률을 보여주는가 하는 것이다. 상대방 후보에 대해서
욕을 하는 글이나 트윗을 날리는 것도 의미가 있는 일이다. 한나라당이나 보수우파에서 아무도 김진표를 
적극적 공박하지는 않는다. 누군가 작심하고 욕을 하는 것 역시 좋은 인기측도일 수 있다. 따라서 이런 것
저런것 다 퉁-쳐 볼 때 구글값은 어떤 전화여론조사보다 안정적이면 신뢰성있다는 주장도 있다. (단 global 환경에서...)
 

문제)   다음은 지난 한 달(7월 8일-8월 8일) 동안 구글이 무자비하게(?) 긁어 모은 인지도이다. (단위는 백만)
            등장한 인물은 모두 8명이다. 아래는 그들의 이름. 이명박은 주요 참고인으로 끌려나온 상황
  
              S = { 김문수,   김두관,    문재인,   박근혜,   손학규,   오세훈,   유시민,    이명박,   정동영  }
  

             상황은 좋다. 즉 인지도면에서는 누구하나 빠지지 않은 상황이다. 김두관이 약간 손해를 보는 듯하고
             위에 제시된 사람들을 아래 구글값(만단위) 순서대로 짝을 지어 보시오.  (단 구글쓰면 안됩니다. 반칙금지...^^)
   

     1)    506(만)
     2)    499
     3)    488
     4)    457
     5)   427
     6)   385
     7)   199
     8)   134
     9)     75


특정 후보를 지지하시는 분은 이대로 판이 흘러가도록 하면 안될 겁니다. 제 생각에 야권의 후보가
누가되든, 실제 대선에는 매우 작은 차이로 승패가 결정될 듯 합니다.