예전, 그러니까 지난 5월 하순 즈음 한그루님이 <미국의 지역별 혐오트윗 분포 패턴>을 보여주는 자료를 보여주신 적이 있는데, 그 때 한그루님이 올렸던 글 일부 및 올려준 이미지 자료를 다시 보면, 

 
 
카운티별로 'hate word'가 포함된 발언을 통계낸 것이라고 하는데 hate word가.....   bitch...nigger....fag(동성애자)....homo.....queer(남자 동성애자)....dyke(여자동성애자)....gook(동양인, 특히 중동인)....tranny(성전환자) cripple(불구자. 특히 정신적으로 장애인)..... 등등.....


 <당시 한그루님이 올렸던 미국내 지역별 혐오트윗 분포 패턴> 

 이미지-002.png 
 

  이하 약간의 잡생각

 1. 한국에서 저와 같거나 비슷한 방식으로 패턴을 뽑아보면 결과가 어떻게 나올까?

  현재 추측 또는 감으로는 지난해 민주당 대 새누리 지지율 지역별 패턴을 인구보정해 뽑아낸 이미지 패턴과 상당히 가깝지 않을까 싶음
  적어도 좌우 대립과 관련된 '일베식 비하어'의 경우는 그럴 것 같은데, 실제로 트위터 API가 제공하는 과거트윗검색을 통해 '좌좀'을 키워드로 광주, 부산, 대구 등 지역별 트윗을 뽑아보면 그런 생각이 들 수 밖에 없다.  

 바꿔 말해, <일베식 좌파, 호남 비하> 트윗의 지역별 분포 패턴은 아래 이미지에서 나타난 지난 대선 당시의 지역별 새누리 지지패턴과 일치도가 상당히 높을 것임.  

 <이미지 출처> : '51.6 대 48.0' 득표율 그대로 보여주는 인구비례 전국지도
(한겨레 사이언스온, 오철수, 2012-12-26)


  pattern.jpg 
 

 그럼 '김치녀' 등과 같은 여성 및 외국인 노동자 비하어와 같은 비교적 현실정치적 성격이 떨어진 비하어의 경우는 어떨까? 

 거기까진 아직 잘 모르겠지만, 한국의 남녀대립 및 외국인 노동자 혐오정서는 좌우파를 공히 가로지르는 경향이 심해지고 있으므로 저 패턴과는 다르게 나올 공산이 클 듯.

 


 2. 한가지 난점 - 한국어 자연어 처리.

 적어도 몇몇 단어의 경우, 단순한 빈도산출만으로는 '비하어' 패턴을 제대로 반영할 수 없는 경우가 있다.

 실제로 최근, 국정원 직원이 '좌익효수'라는 아이디로 디씨에 호남비하댓글을 올렸다는 민주당 진선미 의원의 최근 주장이 뉴스를 통해 흘러나온 이후 '홍어'라는 단어가 포함된 트윗은 광주를 중심으로 한 호남지역에서 활발하게 올라온 반면 대구 지역에서는 그런 트윗이 거의 없다시피 했다. 만약 이를 그 트윗의 내용(정서)를 무시한 채 단순 빈도수로 산출한다면, <전라도 혐오발언 트윗>이 광주에서 압도적으로 많이 올라온다는 어처구니없는 패턴이 나올 수 밖에.

 그렇다면 이런 경우 결국 정서분석(Sentiment Analysis)와 같은 자연어 분석으로 '진짜' 혐오트윗을 가려내야 한다는 얘긴데, 이게 그리 간단치가 않다.

 영화평이나 특정 상품에 대한 반응을 호의적 반응과 부정적 반응으로 갈래를 나누는 비교적 '단순'한 경우라면, 한국어 자연어 분석 수준이 이미 상용화된 형태로나마 어느 정도 실용화 단계에 이르렀지만 지금 관건이 되는 분석수준은 이를 넘어선 수준.