정치/경제/사회 게시판
http://www.nocutnews.co.kr/Show.asp?IDX=2590119
지금까지 알려진 것과는 다르네요. 그래서 길벗님 같은 분도
<<<디지털분석에 대한 전문가인 분석팀은 분석 키워드는 박근혜, 문재인 등 아주 핵심적인 단어 4개로 추리고 국정녀가 사용한 IP, 아이디를 가지고 검색하면 더 효율적이고 충분히 공정한 수사결과물을 얻을 수 있다고 주장했고 권은희는 70개 키워드를 넣었어야 했다고 주장했습니다.>>>
라고 주장한거거든요. 표창원의 주장이 사실이라면 지금까지 아크로에서 4개의 키워드가지고 왈가왈부 한거는 다 뻘짓한거라는 결론이 됩니다. 피의자의 변호인이 지정해주는 방식대로 수사를 한다? 검색을 해봤는데 걸리는건 없네요. 아무래도 검색왕 한그루님의 도움이 필요할 듯.
그리고 이 부분도 흥미롭습니다.
따라서 아래 길벗님의 말씀은 뻘글. 길벗님 주장대로 김용판이 개별사건에 대해 일선 수사과장에게 지시나 의견 개진을 했다면 그것 역시 불법. 김용판이 괜히 단순한 격려전화였을 뿐이라고 발뺌한게 아니라는거죠.
<<< 서울경찰청장의 압수수색영장 신청 만류 전화 자체가 외압이라면 수서경찰서장이나 수사라인 상부의 의견 개진이나 지시는 모두 외압이라 할 수 있겠네요. 일선의 수사과장은 자기 마음대로 수사해도 되는 것인가요? 상부의 지시가 부당하다면 그것이 외압이라 할 수 있겠지만, 정당하고 합리적 이유가 있다면 수용해야 하는 것이 아닌가요? 김용판 서울경찰청장의 지시나 의견 개진이 합리적인 이유를 갖고 있느냐를 보고 외압여부를 판단해야 하는 것 아닙니까?>>>
빨리 하기 위해서 키워드를 4개로 줄여라 ? 어디가서 이런 이야기하면 Information Retrieval하는 사람들에게
싸대기 맞습니다. 지금 이 수사의 목적이 무엇인가요 ? 정상적이면 이렇게 해야 합니다.
1. 특정 국정원 직원 id로 확인된 몇 사람이 올린 댓글을 확보합니다. 그 집합을 { K }라고 합시다.
2. { K } 에 있는 모든 단어를 정리해서 사전(global dictionary)를 만듭니다. 그렇게 만들어진 단어들의 집합을 { w_i }라고 하면
3. w_i를 담고있는 모든 댓글을 전체에서 찾아내면 됩니다. 이렇게 learning data와 evaluation set를 쪼개서 해야 정상입니다.
빨리 하기 위해서 댓글을 4개로 줄여야 한다 ? 4개 대신 100개로 하면 시간이 25배로 늘어납니까 ?
말도 안되는 소리죠. 그 100개의 키워드는 모두 독립적이므로 10개씩 쪼개서 다른 10개 PC에 넣어 돌리면 같은
시간에 다 나옵니다. 아니면 쓰레드를 늘여서 해도 충분히 적절한 시간에 다 찾아낼 수 있습니다. 100개 아니라
500개라도 반나절이면 합니다. 수백기가의 유전체 정보처리하는데에도 단순서열 검색이면 2-3일에 다 처리됩니다.
이게 무슨 문장분석도 아니고 각 댓글의 단어들이 각 문장(화일)에 있는지를 검사하는 그야말로
가장 원시적인 작업입니다. 그 댓글 다 모아서 Burrow Wheeler기법, suffix array로 고급의 인덱스 구조로 변환한
뒤에 keyword 던져넣으면 눈깜짝할 새 다 나옵니다. 경찰에서는 이 작업을 무슨 아래한글 "찾기" 기능으로 하는 모양이죠 ?
시간 때문에 100개 중에서 4개로 줄인다 ? 100% 왜곡입니다. 100개로 찾으면 1월까지 걸린다 ?
언어처리의 기초도 모르는 수준이죠. 사이버 수사관들 대부분의 수준이 인케이스같은 도구를 사용하거나
몇 백여개의 자료에서 단어 찾기(?) 기능을 이용하는 수준에 불과하다는 거죠.
그리고 특정 단어로 문제의 댓글을 찾는다는 것 자체가 말이 안되죠.
문재인대신 문죄인, 문쩌리, 간철수, 노알아, 노구리... , 닭근혜, 개명박...이 많은 alias를 어떻게 구분해 냅니까 ?
ID를 확보하여 포털 증거수색하면 바로 나오죠. 애먼짓 한다고 지울시간 다 주고... 인터넷 실명제 해야한다고 그렇게
우기드니...무슨 짓거리인지 이해가 안됩니다. 4개로 한다는 것은 힌트를 준거죠. 말이 안되는 소립니다.
요약: 잘 모르면 전문가들에게 물어보자.


ps : 이거는 미투라고라님 전문 분야가 아닌가요?
http://www.youtube.com/watch?feature=player_embedded&v=8OvoBTyUbKY
기자들이 김수미 수사관에게 키워드가 몇 개냐고 집요하게 묻습니다.
김수미는 머뭇거리다, 그 상관에서 마이크를 넘깁니다. 키워드 선정에 문제가
없었다면 바로 답이 튀어나오겠죠. 6:00 쯤 보시면 해당 상사가 답을 합니다.
"검색에 사용된 키워드는 수십여개.... 정도"
사용자 ID와 접속기록등 40여개의 자료는 확보되었지만 노트북만 검사하고
통신사 글 수사는 수사권 밖이라고 하네요. (그 사이 열나게 그간 달아논 댓글 지우고...)
며칠간 집에서 끼고 앉아있던 껍데기 노트북 수사도 엉망이고.
불법댓글을 밝혀낼 마음이 처음부터 없었든 것이 확연하다고 판단됩니다.
아니 국정원 직원이 멀쩡한 직장 PC두고 집에서 키보드질을 해야할 무슨 이유가 있을까요 ?
그것도 종북주의자 자료수집도 아니고,.... 복잡한 이론을 떠나서 이게 상식적으로 말이 되나요 ?
정치/사회게시판 최신댓글