1. 영남패권 관련 통계를 조사하면서 '선택편향효과'를 거론한 미국 캔자스대학교 사회학과 김창환 교수의 발언에 제가 이런 의문을 제기했었습니다.

4. 내가 이 기사를 보면서 가장 의아했던 부분은 아래 부분이다. 역시, 설명의 편의를 위하여 필요없는 문장은 삭제했다.

월급을 따져보면 호남 출생자는 269만 원이고 영남 출생자는 264만 원으로 뒤집힌다. (삭제) 혹자는 출생지역으로는 지역 효과를 파악할 수 없고 출신지역을 봐야 한다고 주장할 것이다. 사회과학에서 흔히 말하는 ‘선택편향효과’를 통제해야 한다는 얘기다. 하지만 호남 출신이 출신지를 숨기는 이유는 호남 출신자의 불이익을 완화하기 위해서다. 이 경우 출신지역 효과는 줄어들면 줄어들지 늘어나지는 않는다. 선택편향의 방향이 필자의 결론을 약화하기보다 오히려 강화한다는 얘기다. 
(출처(ref.) : 정치/경제/사회 게시판 - 호남 출신이 출신지를 숨겨서 발생하는 통계 상의 오류, 선택편향효과에 대하여 -  by 한그루)

이 부분에 대하여 안티노님이 '김교수의 말이 맞다'는 취지의 주장을 하셨길래 '그런가?'라고 생각해서 제가 검증을 해보았습니다.


2. 검증에 필요한 전제 조건이 있는데 이 전제 조건을 먼저 설명하겠습니다.

첫번째는 '선택편향효과'의 특성 상 출신지(또는 출생지. 이하 출신지로 통합)를 숨긴 호남 사람들 중 취업자와 미취업자가 섞여있지 않다는 것입니다. 즉, 출신지를 숨긴 사람은 취업자 또는 미취업자 어느 한쪽으로 편향(bias)되어 있어야 한다는 것입니다.

만일, 출신지를 숨긴 호남사람들 중에 취업자와 미취업자가 섞여 있다면 김교수가 '선택편향효과' 용어 자체를 언급하지 않았을 것이고 따라서 '그 부분은 조사할 수 없었다'라고 이야기해야 맞다는 것입니다.

즉, 김교수가 선택편향효과를 언급한 것을 넘어 '자신의 결론을 오히려 강화시킨다'라고 발언한 것은 위에 언급한 어느 한쪽으로 편향(bias) 되어 있다는 것을 김교수는 알고 있다는 것입니다. 아닌가요?


두번째는 통계를 산출하는 방식 상 모집단에서 표본샘플을 추출하는데 비교 대상인 영남 출신 샘플수와 호남 출신 샘플수를 맞추었을겁니다. 이 샘플수를 추출하는데 선택 편향 효과를 언급했으므로 영남 사람들은 출신지를 숨기지 않았을 것이고 출신지를 숨긴 호남 사람들이 있기 때문에 호남 출신 샘플수에서 제외되었다는 것입니다.


여기서부터 통계의 오차는 내정되어 있습니다. 표본샘플을 추출했고 그 표본샘플은 통계 산출에 적합하였을텐데 '호남출신을 숨겼기 때문'에 다음 선택된 표본샘플은 싱제 통계 산출 목적보다 덜 적합한 표본샘플이 되었을 것이며 '호남출신을 숨긴 표본샘플로 선정된 개체수가 많을수록' 통계는 오차가 점점 커질 것입니다.

3. 아래의 표는 '취업자 수'를 기준으로 제가 검증해 본 것입니다.

선택편향료과 통계 가상치.gif

표본샘플을 영남 출신과 호남 출신을 각각 1,000명으로 맞추었다고 가정합니다. (Case 1)

이 때 출신을 숨긴 호남 사람들은 위에서 언급한 것처럼 편향성을 가지고 있는데(취업을 한 사람, 또는 취업을 하지 않은 사람) Case2는 편향성이 호남 출신을 숨긴 사람들 중 취업을 한 사람이 편향성을 보였다고 가정한 경우, 그리고 Case3은 호남 출신을 숨긴 사람들이 취업을 하지 않은 사람이 편향성을 보였다고 가정한 경우이며 그 편향성 개체수는 50명으로 가정한 것입니다. 

통계 결과(취업률)를 보면 편향성이 없는 경우에 비해(Case1) 오차를 보여줍니다. 이 오차는 Case2에서는 신뢰 오차 범위이지만 Case3에서는 (신뢰 오차가 얼마인지 모르지만 ±2.5%인 경우)신뢰 오차 범위를 벗어납니다. 

이 때, 표본샘플 개수는 호남의 경우 샘플 개수와 출신지를 숨긴 개체수가 더해져 1050명이 됩니다. 출신지를 숨긴 개체수를 100명이라고 했을 때 개체수는 1100명이 되며 오차는 더 크게 나타납니다(Case3 및 4)


4. 선택편향효과에서 출신지를 숨긴 호남 사람들이 취업자와 미취업자로 3등분되는 경우가 있기는 합니다. 바로 김교수가 주장한 '권력의 핵심 부분에서는 영남패권이 있다'라는 것인데 이 것을 감안하면 미래에 권력의 핵심에 들어갈 가능성이 있는 직업군을 가진 호남 출신자들은 자신의 출신지를 숨겼을 것이고 권력의 핵심과 관련이 없는 직업군을 가진 호남 사람들은 출신지를 숨기지 않았다는 것이죠. 

반면에, 미래의 권력의 핵심에 들어갈 가능성이 없는 직업군을 가진 호남 사람들 중에 자신의 취업 여부를 결정할 사람이 영남 사람일 가능성을 염두, 출신지를 숨겼을 가능성, 이렇게 3등분 되는 경우가 있습니다.


따라서, 제가 제기하는 의문은 이렇습니다.

"출신지를 숨겼다면 김교수 역시 출신지를 숨긴 사람들의 편향성을 알 수 없을 것이고 내가 검증해본 것처럼 편향성을 반영했다면 통계의 결과가 신뢰할 수 없을 정도로 결과가 나오는데 어떻게 그런 주장을 할 수가 있느냐?"


김교수의 주장이 맞는 경우가 있기는 합니다. Case2 또는 Case3에서 가정한 출신지를 숨긴 호남 사람들의 수가 50명보다 훨씬 적어서 출신지를 숨긴 호남 사람들을 감안해도 결과는 신뢰 오차 범위 내였어야 한다는 것입니다.

그렇다면, 최소한 김교수는 '선택편향효과가 자신의 주장을 강화한다'라는 말을 할 것이 아니라 '선택편향효과는 크게 의미없다'라고 했어야 했다는 것입니다. 단, 출신지를 숨긴 호남 사람들의 개체수가 표본샘플수보다 무시할 정도로 적은 경우에 말입니다.


과연, 김교수는 어떤 근거로 저런 주장을 한걸까요? 제 판단은 '결론 짜맞추기'라는 것입니다. 제가 한국의 통계들을 전혀 믿지 않는 이유들 중 하나이고요.


제가 과연 잘못 주장하는 것일까요?

백이숙제는 "以暴易暴"를 남겼고 한그루는 "以"를 남기고 간다.