1. 인구조사(인구 sensus)를 2년마다 하나? 아니면 3년마다 하나? 어쨌든 내년에 인구조사를 한다.


다 아시다시피 인구조사는 대한민국의 모든 가구들을 대상으로 하는 것으로 실질적으로 온 국민을 전수조사하는 효과를 가지므로 우리나라에서 작성하는 통계들 중 오차가 적을 확률이 가장 높다. 이론적으로는 그렇다. 그런데 실제 그럴까?


작장생활을 하는 자식이 있는 아크로 회원분 들 중 자식의 월급을 정확히 알고 있는 분이 몇 분이나 될까? 예전에는 자식의 월급을 통째로 받아서 용돈을 주고 나머지는 어머니가 관리하면서 자식의 미래를 위해 재테크를 하였기 때문에 자식의 월급을 정확히 알고 있는 부모들이 많았을 것이다. 그런데 최근에는 자식들이 알아서 재테크를 하는 경우가 많은 것 같다. 아무래도 부모보다는 자식들이 재테크에 대하여 더 많은 정보를 좀더 쉽게 획들할 수 있는 위치에 있기 때문이다.


따라서, 인구조사 연구원이 가정을 방문하여 어머니를 대상으로 인구조사의 조사 항목 중 하나인 가구당 월소득을 물어볼 때 정확한 대답을 하지 못하고 이 것은 대한민국의 소득 관련한 통계를 왜곡시킬 가능성이 크다. 그리고 그 왜곡은 무작위가 아니라 특정 소득계층을 향하여 편향될 가능성이 있다.


자, 여기서 퀴즈를 하나 내볼까?


Q1 : 자식의 월급은 250만원. 그런데 어머니는 자식의 월급을 모른다. 이런 조건에서 가구당 월소득을 질문 받았을 때 어머니는 어떤 대답을 할까?

A1) 자식의 월급 추정치를 가능한 한 높게 잡아서 대답한다.
A2) 자식의 월급을 알지 못하므로 '모른다'라고 대답한다.
A3) 자식의 월급 추정치를 가능한 한 낮게 잡아서 대답한다.



다른 퀴즈를 내볼까?

Q2 : 한 빈곤층 가정의 부인이 가구의 월소득을 정확히 아는 경우, 이 부인은 자신의 가정의 월소득을 높여서 말할까? 낮추어 말할까?

Q3 : 한 부유층 가정의 부인이 가구의 월소득을 정확히 아는 경우, 이 부인은 자신의 가정의 월소득을 높여서 말할까? 낮추어 말할까?

Q4 : 이제는 가정 단위로 인터넷에 접속하여 공인인증서를 이용하여 본인임을 확인한 후 인터넷 상에서 설문조사에 응할 수 있다. 그러면 인터넷에 접속하여 설문조사에 응하는 경우, 상기 Q1~Q3까지에서 발생할 오차가 클까? 아니면 면접조사원의 설문조사에 응하는 답의 오차가 클까?



2. 지금 나는 선택편향효과(Selection bias effect)에 의한 통계의 오차를 이야기하는 것이다. 선택편향효과의 이해를 돕기 위해 예를 든다.


일반적으로, 체중이 덜나가는 사람이 체중이 더 나가는 사람보다 인내력이 강한 것으로 알려져 있다. 그런데 한 제약회사에서 다이어트 약을 개발하고 그 효과를 실험하기 위해 임상실험응모자를 모집, 임상실험에 들어간다. 그런데 다이어트 약이라고 하지만 임상실험기간은 보름 이상 걸릴 것이고 따라서 임상실험응모자는 임상실험기간동안 이런저런 생활 상의 제약을 받을 것이다.

그런데 이미 서술한 것처럼 체중이 더나가서 상대적으로 인내심이 약한 체중이 더 나가는 임상실험대상자는 제약으로 인한 괴로움을 참지 못하고 임상실험대상자에서 빠져나간다. 그리고 임상실험 기간이 끝났다.

이 결과를 가지고 다이어트 약을 개발한 회사는 제대로 된 약의 효과를 알 수 있을까?


선택편향효과는 사회학과에서 만들어낸 용어로 샘플을 사전 또는 사후에 선택하여 발생할 수 있는 통계 상의 오류를 의미한다. 천문학을 전공하신 방문객님을 잠시 호출하자면, 천문학에서도 선택편향효과에 의한 통계 상의 오류가 발생한다. 대부분의 천문학 관찰도구는 빨간색보다 파란색에 더 민감하게 반응하기 때문에 천문학 관찰 시에 파란 은하가 빨간 은하가 더 잘 발견되는데 이 것 역시 선택편향효과에 의한 통계 상의 오류이다.

사회학과에서 이야기하는 선택편향효과에 의한 통계적 오류는 정치학 관점에서 이야기하면 역선택으로 인한 통계적 오류 쯤 될 것이다.


3. 이 선택편향효과를 가지고 미국 캔자스대학교 사회학과 김창환 교수가 영남패권주의에 대한 통계를 조사하고 그 결과를 주간동아에 발표했다. (기사 전문은 여기를 클릭) 기사 중 일부를 설명의 편의를 위해 기사의 순서와는 다르게 배치한다.


두 번째 차원인 엘리트 내부의 권력 배분 기제로서의 영남패권주의는 매우 쉽게 확인된다. 이명박 정부에서는 이른바 ‘고소영’(고려대, 소망교회, 영남 출신)이 권력을 장악한다고 비판받았다. 박근혜 정부에서도 현재 5대 사정기관 수장 전원이 영남 출신이다. 정치권력만이 아니다. 경제 권력도 영남 집중이 심하다. 인터넷 경영분석 사이트 ‘CEO스코어’가 2013년 한국 30대 상장사 사장급 인원의 출신 고교를 분석한 결과를 보면 42%가 영남 출신인 반면, 호남은 6%에 불과했다. 

엘리트 집단에서의 호남 출신이 적고 영남 출신은 과반에 가깝다는 조사는 그동안 영남패권의 문제점 중 하나인 '권력의 독점 주장'과 일치한다. 그런데 하위 집단에서는 영남패권 관련한 주장과 상반되는 조사 결과가 나왔다.


여러 자료를 통해 검증을 시도했지만 인종주의적 영남패권주의가 존재한다는 증거는 발견하기 어려웠다. 2010년 인구총조사 자료를 이용해 노동시장에 참여하는 25~54세 성인의 직업 분포를 살펴보자. 영남에서 태어난 노동자가 호남 출생자보다 더 높은 직업·지위를 차지한다는 증거가 없다. 광주 출생자의 21%가 관리직이나 전문직에 종사하므로 대구(21%)나 부산(20%) 출생자와 다르지 않다. 특별시가 아닌 광역시나 도 간 차이도 1~2%p에 지나지 않는다. 청년층에서 영남 출생자가 더 이득을 보는 것도 아니다. 대졸자 직업 이동경로 조사 자료를 이용해 서울 소재 4년제 대학 졸업자의 졸업 직후 노동시장 성과를 보면 영남 출생 남성은 73%, 호남 출생 남성은 69%가 취업했다. 언뜻 영남 출생자가 앞서는 듯 보이지만 월급을 따져보면 호남 출생자는 269만 원이고 영남 출생자는 264만 원으로 뒤집힌다. 대졸 여성 노동자 중에서는 호남(71%)의 취업률이 영남(68%)보다 높다. 노동패널 자료를 이용한 다른 연구에서도 영호남 출생자 사이 의미 있는 임금 격차는 발견하지 못했다. 심지어 서울 강남3구 거주민의 출생지역을 살펴봐도 영남과 호남 사이에 유의미한 차이가 없다. 


마지막으로 지역 불균형 발전 문제를 살펴보자. 호남지역의 저발전은 이 지역 출신의 경제적 기회를 저해한다. 2010년도 인구총조사 자료를 이용해 분석해보면 25~29세 청년층 가운데 출생 시도와 현재의 거주 시도가 일치하는 비율은 52%다. 대도시 간 차이는 미미하다. 대구 출생자 가운데 현재 대구에 거주하는 비율은 51%, 부산은 51%, 광주는 54%이다. 전북(46%)과 경북(46%)도 별 차이가 없다. 하지만 전남은 다른 지역보다 젊은 층의 이주율이 높고 출생지와 현 거주지의 일치율(32%)이 유독 낮다. 전남지역의 소외감에는 분명히 물질적인 근거가 있다. 
그러나 전남의 소외를 기반 삼아 지역 간 연대를 끌어낼 수 있을지는 의심스럽다. 다른 지역보다 발전 속도가 빠르고 인구도 유입되고 있는 충청지역에서 ‘반영남패권주의 연대’라는 구호에 동참할 것이라 기대하기는 어렵기 때문이다. 특히나 TK(대구·경북) 정권 하에서도 경북의 발전이 경기도나 경남보다 앞서나가지 못했음을 고려하면 정권교체가 지역 발전을 보장하지도 않는다는 결론이 나온다. 

*1. 대구, 부산 및 광주 출신자의 관리직이나 전문직에 종사하는 비율이 비슷한 것은 예전에 흐강님께서 인용했던 통계와 상이하다. 
*2. TK 정권 하에서 경북의 발전이 경기도나 경남보다 앞서지 못했다는 결과는 내가 다른 통계를 들어 주장했던(대구의 GRDP는 하위권, 그러나 재산보유율은 지자체 중 4위) '영남패권은 있다' 그러나 'TK는 오히려 정치적 착취를 당하고 있다'라는 주장과 일치한다.


두 문단으로 나눈 통계의 결과들에는 수많은 함정이 도사리고 있다. 예를 하나 들어보자.

첫번째, 관리직이나 전문직의 직종이 명시되지 않았다. 예를 들어, 하급공무원의 경우에는 일단 공무원에 임관이 되면 출생지역별 차별을 받지 않는다. 그러나 검사, 변호사 및 판사 등 향후 권력의 중추에 설 가능성이 다분한 전문직의 경우에는 그동안의 통념 상 출생지역별 차별을 받을 것이다.

하급공무원의 경우에는 차별을 받는 호남출신이 광주에서 임관을 하건 서울에서 임관을 하건 크게 문제가 되지 않는다. 그러나 예로 판사의 경우에는 다르다. 지방 법원들에서 근무하다가 승진에 상대적으로 유리할 서울로 발령이 날 확률이 지방별로 통계가 없으며 또한 서울로 발령이 난 경우에 승진에 대한 추이 통계가 없다는 것이다.


즉, 기계적인 지역별 관리직이나 전문직의 직종 비율은 '실제 호남차별은 없다'는 명제를 만족시키는데 부족하다는 것이다. 예로, 광주출생자가 광주에서 관리직 또는 전문직에 종사하는지 아니면 서울이라는 '대한민국 권력의 핵심 도시'에서 근무하는지에 대한 명시가 없다는 것이다.



4. 내가 이 기사를 보면서 가장 의아했던 부분은 아래 부분이다. 역시, 설명의 편의를 위하여 필요없는 문장은 삭제했다.

월급을 따져보면 호남 출생자는 269만 원이고 영남 출생자는 264만 원으로 뒤집힌다. (삭제) 혹자는 출생지역으로는 지역 효과를 파악할 수 없고 출신지역을 봐야 한다고 주장할 것이다. 사회과학에서 흔히 말하는 ‘선택편향효과’를 통제해야 한다는 얘기다. 하지만 호남 출신이 출신지를 숨기는 이유는 호남 출신자의 불이익을 완화하기 위해서다. 이 경우 출신지역 효과는 줄어들면 줄어들지 늘어나지는 않는다. 선택편향의 방향이 필자의 결론을 약화하기보다 오히려 강화한다는 얘기다. 

김교수의 주장대로 '출신지역 효과는 줄어든다'를 만족하는 경우는 다음과 같다.

1) 호남출생자의 평균 월급이 269만원인데 월급을 훨씬 많이 받는 호남출생자들이 출생지역을 숨겨 실제로는 더 높을 평균월급이 269만원으로 낮추어진 경우
2) 호남출생자의 평균 월급이 269만원인데 월급을 훨씬 적게 받는 호남출생자들이 출생지역을 숨겨 실제로는 더 낮을 평균월급이 269만원으로 높여진 경우
3) 호남출생자의 평균 월급이 269만원인데 출생지역을 숨기는 호남 출생자들의 월급은 무작위여서 평균월급이 269만원으로 산출된 경우


상기 3)의 경우는 선택편향효과와는 관계가 없으므로 제외된다. 1) 아니면 2)인데 김교수는 과연 어떤 근거로 필자의 결론을 오히려 강화시킨다고 주장하는 것일까?


내 추론은, 두번째 항목인 '엘리트 내부의 권력 배분 기제로서의 영남패권주의는 매우 쉽게 확인'되는 것이라면 호남출생자들이 모를리 없고 따라서 월급이 많은 관리직 또는 전문직에 종사하는 호남출신지들이 출신지에 더욱 민감할 것이며 따라서 출신지를 숨기는 비율은 월급이 많을수록 높다는 추정이 가능하며 따라서 위에 1)번에 해당한다.


그렇다면, 호남출신자의 실제 월급은 평균인 269만원보다 높아져서 영남출신지와의 임금 차이가 유의미하게 벌어질텐데 거꾸로 호남출신자들이 더욱 대우를 받는다는 이야기인가?


내 결론은, 통계 조사를 어떻게 했는지는 알 수 없지만, 기사의 내용만으로는 신뢰하기 힘들다는 것이다. 이런 통계 상의 오류 여부를 확인하기 위하여 통계 조사 방법 및 결과를 입수하고 틀린 곳이 있다면 정정을 요구하고 정보를 공유하는 것도 좋은 방법일 것이며 어쨌든, 호남차별에 관련하여 통계를 작성할 때, 선택편향효과를 감안하여 작성해야 한다는 시사점을 주고 있기는 하다.



백이숙제는 "以暴易暴"를 남겼고 한그루는 "以"를 남기고 간다.