<그냥 끝내려고 했는데 젠장, 김교수의 통계 자체가 엉터리기 때문에 마지막으로 씁니다. >

1. 제가 김교수의 주장을 선의로 받아들였던 이유는 세가지. 첫번째는 저는 스스로 진영논리에서 자유롭다고 생각했지만 인간의 속성일 수 밖에 없는 진영논리 정신 발휘, 두번째는 권위논증의 오류 그리고 마지막으로 저 자신에 대한 과신

첫번째 진영논리는 영남패권 관련 김교수의 주장이 그동안 저의 주장과 비슷했기 때문입니다. 즉, 저의 주장과 비슷했기 때문에 당연히 했어야 할 기본적인 통계 수치 검증을 하지 않고 그대로 받아들였다는 것입니다.

두번쨰 권위논증의 오류는 첫번째 진영논리와 맞물려 그가 '미국 대학교의 사회학자'라는, 그러니까 한국의 교수들과는 달리 진영 편들기에 상대적으로 자유로운 입장이라는 판단 때문이었습니다.

세번째 저 자신에 대한 과신은 젠장할.


2. 김교수의 오류 첫번째, 통계가 엉망이고 통계치들이 믹싱되어 인용됨.

김교수의 주장인 "호남 출생자는 269만 원이고 영남 출생자는 264만 원"을 저는 각각 호남인 : 269만원 x 10개월 = 2690만원, 영남인 : 264만원 x 10개월 = 2,640만원으로 계산했고 따라서 제가 알고 있는 한국에서의 통상적인 월급 구조와 크게 차이나지 않았습니다.

그런데 젠장할. 1년은 10개월이 아니라 12개월입니다. 그래서 다시 계산한 것은 아래

호남인 : 269만원 x 12개월 = 3,228만원
영남인 : 269만원 x 12개월 = 3,168만원

김교수가 주장한 이 봉급을 아래의 기사와 비교해 보세요.

그림-030.gif

예. 김교수 주장의 근거 중 월급은 통계 상으로 대기업 신입사원의 평균 연봉입니다. '졸업 직후'에서 '직후'는 안티노님이 가지고 오신 근거에 의거, '졸업 후 3년 이내'로 확장해도 대기업 연봉을 기준으로 한 것이라고 해도 크게 문제가 안됩니다.


김교수의 주장은 어디서 나온 것일까요? 기사 하나를 인용합니다.

그림-031.gif


연도를 감안하더라도 대졸 초임의 경우 대기업 연봉>>중소기업의 연봉이고 김교수가 자신의 주장한 근거인 월급은 대기업 기준입니다.


그리고 설사, 대기업 기준이라고 해석을 해도 취업률이 다릅니다.

그림-033.gif


아래의 통계 및 기사 하나를 보면 김교수의 주장이 얼마나 엉터리인 통계를 기반으로 한 것인지를 아실겁니다. 즉, 김교수가 주장의 근거로 든 취업률은 전체 취업률과 비숫하고 임금을 기준으로 하면 대기업 대상인데 이걸 믹스했다는 것입니다.


그림-038.gif

3. 김교수의 오류 두번째, 호남인A의 표본 샘플 방법 명시하지 않음

김교수는 출신을 숨긴 호남인(호남인A)을 어떻게 조사했을까요? 

1) 요즘 대학 학적부에 출신지를 기록하는지 모르겠습니다만 기록한다고 치고 김교수는 모집단을 각 대학으로부터 받았을겁니다. 어떤 기준에 의해 표본 샘플을 추출했겠죠.

2) 그렇다면 호남인A를 조사하기 위하여 어떤 설문을 했을까요? 학적부에 기록된 전화번호 등을 보고 전화를 했을겁니다. 그렇다면 출신지를 호남이라고 명시한 표본을 제외한 표본 중에서 설문을 했겠죠. 그럼 출신지를 어디로 기록한 대상으로 표본샘플을 추출했을까요? 

김교수는 선택편향의 지적을 받고서야 알았을겁니다. 호남 출신지를 숨긴 사람들이 거의 예외없이 서울/경기를 선택한다는 것을요.

그렇다면, '여론조사 결과, 자신의 주장을 강화시킨다'라고 주장할 것이 아니라 제가 이미 밝힌대로 논문 주제는 '영남패권의 실제성 여부'가 아니라 '정치, 사회적 병리 현상'으로 바뀌었어야죠. 안그런가요?


4. 김교수의 오류 세번째, 역선택을 배제


설문 조사시에 어떻게 질문했을까요?

일단 여론조사의 방법 상, 여론조사의 취지를 밝혔겠죠. 그리고 이런저런 질문을 한 다음 출신지를 물어보겠죠.

"당신은 혹시 원적지가 호남 아닙니까?"

이렇게 물어보았을겁니다. 실제로는 이보다 더 완곡히 물어보았겠죠. 그런데 여기서 역선택이 일어납니다. 역선택의 경우의 수 일부분을 정리하면,

a) 영남패권을 극도로 증오하는 실제 호남인A가 출신지를 밝히는 경우
b) 영남패권을 극도로 증오하는 실제 호남인A가 서울/경기로 대답하는 경우
c) 영남패권을 인정하지만 소소 입장인 실제 호남인A --> 출신지를 밝히는 경우
d) 영남패권을 인정하지만 소소 입장인 실제 호남인A --> 서울/경기로 대답하는 경우
e) 실제 서울/경기 출신이지만 호남인A로 대답하는 경우 등등.


정리하자면 설문조사(전화로 한 경우)는 이런 순서로 이루어졌겠죠.

a. 취업하셨습니까?
b. 연봉은 얼마입니까?
등등 조사에 필요한 설문을 한 다음..... 아마도 마지막 부분에 가서 출신지를 물어보았을겁니다.

여기서 역선택이 발생합니다. 설문 조사 시 여론조사의 목적을 밝혔을테고 설사 밝히지 않았다고 하더라도 대학 졸업생이니까 여론조사의 목적을 알아차렸을겁니다.

지난 2007년 새누리당 당내 대선 당시, '역선택에 의하여 박근혜 후보가 떨어졌다'는 항간의 주장을 생각해 보십시요. 일반적인 역선택 중 가장 악의적인 역선택은 상대당 후보들 중 경쟁력이 가장 강한 후보를 배제하는 것입니다. 마찬가지입니다. 설문조사의 목적을 알아챈 대상자들은 예로, 영남패권을 증오하는 호남인은 호남인대로 자신의 주장이 가장 강하게 반영될 대답을 했을 것입니다. 그리고 상기 4-a)의 경우 남성인 경우 또는 여성인 경우가 다릅니다.

그리고 이런 역선택보다 더 심한 오류는 표본샘플의 특성이 불이익을 당하지 않으려는 경향이 크므로 아래의 무응답편의 때문에 더 커질겁니다.



5. 김교수의 오류 네번째, 무응답편의(non-response bias)를 배제

호남인A를 밝히기 위하여 표본샘플을 1000명으로 표본 샘플을 추출하는 경우,
호남 출신지가 서울/경기로 숨기기 때문에(김교수도 알았을 것입니다) 출신지가 서울/경기로 명시된 인구는 전체 인구 대비 대략 20% 정도.

즉, 표본샘플 1000여명 중 200명이 설문조사 대상이라는 것이죠.

그런데 우리나라 대선 후보 여론조사에서 응답률은 대략 20% 내외. 이 설문조사의 경우에는 더 낮을 것이지만 대략 20%대라고 보고 200명 중 설문조사에 응답한 사람은 40명. 김교수가 20명을 가지고 판단하기에는 힘들다고 생각해서 표본샘플을 확대하거나 바꾸거나 또는 각 샘플 단위로 조사한 것을 단순히 더한 경우 등등을... 밝혀야 하는데 밝히지 않았습니다.

어쨌든, 200백명 중 40명이 응답했을 경우 과연 그 것이 모집단의 평균 오차를 그대로 반영할까요? 1936년 미국 대선에서의 사례를 아래에 인용합니다. 

그림-036.gif

우선, 리터리 다이제스트 사가 저런 엄청난 오류를 범한 것은 바로 무응답편의(non-response bias)의 결과였습니다. 오른쪽 설명 중 '공화당 지지자가 많았다'의 의미는 지금까지도 여론조사의 통설로 알려진 '부유층과 빈민층은 여론조사에 응하지 않는다. 반면에 중산층은 여론조사에 적극적으로 응한다'라는 무응답편의를 고려하지 않았다는 것입니다.

제가 이 주제를 언급하면서 인구센서스에서 가구별 월소득 조사의 질문을 드린 것이 바로 그 것입니다. 단순히, 무응답 편의의 오류로만 해도 저렇게 오차가 납니다. 물론, 당시의 여론조사 기법에 비하여 지금은 훨씬 정교합니다만 지난 대선에서 출구조사의 당선자 결과와 실제 당선자 결과가 뒤바뀐 것을 생각해 보십시요.


6. 왜 부유층과 빈민층은 여론조사에 응하지 않을까? 또한, 중산층은 왜 적극적으로 여론조사에 응할까?

이에 대한 답변은 이렇습니다.(제 개인적인 판단입니다)

첫번째, 빈민층은 자신이 빈민층인 것을 밝히기 싫어서 또한 부유층 역시 자신이 부유층인 것이 노출되기 싫어서
두번째, 반면에 중산층은 장규분포 상 가장 많으므로 자신이 중산층인 것을 밝히는게 문제가 안되서
세번째, 빈민층은 자신이 원하는 후보가 당선되기를 원하지만 그 사실을 숨겨서 사실 상의 역선택의 효과 + 정치적 이익이 보장되지 않으므로.
네번째, 부유층은 누가 당선이 되던 자신의 정치적 이익은 크게 좌우되지 않으므로. 


제가 다음 대선에서 문재인이 절대 당선될 일이 없다고 장담하는 이유이기도 합니다. 문재인을 지지하는 층은 중산층이고 여론조사는 과대포장되었으며 안철수가 빈민층을 투표하게 만들어야 하며 그래서 정책대결시는 안철수 필승이라고 하는 이유입니다.


어쨌든, 리터리 다이제스트의 경우, 저런 오차가 생겼습니다. 여론조사 기법이 발달했다는 것은 그 오차를 보정하는 방법 때문이지 표본샘플의 경향은 마찬가지입니다. 더우기, 악의성이라는 것이 보태진 역선택, 그리고 출신지를 숨긴 이유가 불이익으로부터의 보호에서 오는 선택 편향, 단지 김교수의 여론조사에서 그 취지에 부응하기 위하여 자신의 출신지를 노출시켰을까요?


위에서 200백명 중 40명이 응답했을 경우 과연 그 것이 모집단의 평균 오차를 그대로 반영할까요? 이미 표본집단이 모집단의 오차 경향과는 다른 것이 확실시 되는데도요?


7. 퀴즈 하나 내고 끝내죠.

전두환 정권 때 13개 은행장 전부가 영남출신입니다. 그런데 권위 상 한국은행장>산업은행장>기업은행장>기타 10개 은행장 순인데  편의 상 한국은행장>기타 12개 은행장이라고 치고요... 다음과 같은 인사가 이루어졌습니다.

1) 한국은행장 + 기타 12개 은행장 : 전부 영남출신
2) 한국은행장 = 호남출신, 기타 12개 은행장 : 전부 영남출신
3) 한국은행장 = 충청출신, 기타 12개 은행장 : 전부 영남출신
4) 한국은행장 = 호남출신, 기타 12개 은행장 중 한 명은 충청 출신이고 나머지 전부 영남출신
5) 한국은행장 = 충청출신, 기타 12개 은행장 중 한 명은 호남 출신이고 나머지 전부 영남출신

1)번을 제외하고 어느 인사의 경우가 영남패권의 징후를 가장 잘 드러낼까요?



백이숙제는 "以暴易暴"를 남겼고 한그루는 "以"를 남기고 간다.