2019년 1월 29일 화요일

GPS로 조사원의 위치를 추적한다면?

 이 논문은 서베이를 진행하는 조사원에게 실제로 GPS 장치(스마트폰에 앱 설치)를 가지고 다니게 하여 그 위치를 추적하였고, 그 효과를 측정하였다.

 결론적으로 GPS 앱설치가 조사원의 행동을 크게 변화시켰다고 한다.

 필자 생각에는 국내 도입이 시급하다고 본다.




다 골라라 하지 맙시다(“yes/no” versus “check all that apply”)

 해당되는 것을 모두 골라주세요...이런 설문은 가급적 만들지 않는 것이 좋겠다.

 이 논문은 철저하게 이런 주장을 하고 있다. 특히 면접원의 개입이 없는 웹조사의 경우에는 더욱 더 모두 골라주세요...를 하지 말아야한다. 대신 보기 하나 하나를 불러주면서 이게 해당되는지 여부를 묻도록 권장한다. 아래 수치를 보면 두 방법의 응답 결과 차이가 너무 크게 난다.

 그렇다면 왜 그런걸까? 결국 응답자의 응답시간 차이였다. 아래 표2를 보면 특히 웹조사에서 응답 시간 차이는 더 크다.

 결론은 나왔다. 모두 골라라 식의 문항은 아예 만들지를 말자...특히 웹조사에서는






2019년 1월 17일 목요일

우리나라 공론조사 규모가 커진 이유?

 신고리 공론조사나 대입 공론조사 등 최근 전국 단위의 공론조사 참석자 규모가 대략 500명 내외였다. 해외 공론조사 참석자들이 많아야 200명임을 감안하면 과히 세계 최고의 수준임에 분명하다.

 그렇다면 왜 이렇게 우리나라 공론조사는 대규모로 했을까? 그건 바로 사실상 공론조사 결과가 재판 판결(?)과 같은 역할을 했기 때문이다. 즉 공론조사에서 나온 응답 결과가 참고가 아닌 사실상 최종 결정으로 그 역할을 한 것이다. 이러다 보니 참석자 수를 최대한 늘려 표집오차를 줄일 필요가 있었을 것이다. 아래와 같이 표본조사의 표집오차에 영향을 주는 요인은 표본수와 응답비율인데, 공론조사 주제가 찬반 갈등이 첨예하다는 점에서 응답비율은 50% 50%로 가정하면 결국은 표본수를 최대한 늘리는 것이 표집오차를 줄이는 유일한 방법이다. 500명을 한 것은 아마도 그래야 표집오차를 한 자리 수 이내로 낮출수 있었기 때문이었을 것이다. 물론 더 늘리면 좋겠지만 비용이나 응답자 관리를 생각할 때 500명이 최대였을 수 밖에 없다. (생각해봐라...500명이 한 번에 밥을 먹고, 잘 수 있는 곳이 많지 않다)

 공론조사에서 표본수 증가는 엄청난 비용 증가로 이어진다. 조사만 하면 되는 여론조사와 달리 공론조사는 일정 기간 한 장소에 응답자들을 모아 놓고 숙의 과정을 거쳐야하기 때문이다. 특히 1박이나 2박을 하는 공론조사일 경우 숙박비와 식비만 해도 상당하다. 물론 사례비도 상당히 높다.

이런 점에서 공론조사의 목적을 다시 제고할 필요가 있다. 공론조사는 결정의 최종 수단이 절대 아니다. 그 보다는 숙의 이전과 이후 태도가 어떻게 변화했는지를 판단하는 일종의 실험이다.





2019년 1월 16일 수요일

왜 모집단이 훨씬 큰 중국도 여론조사 천명, 우리나라도 천명을 하나요?

 고객들이 여론조사 표본수를 이야기할 때 가장 많이 궁금해하는 것이 모집단이 엄청 큰 중국이나 미국 같은 나라에서 여론조사 천명을 하면 그 보다 모집단이 훨씬 작은 우리나라는 천명보다 적게 해도 되는거 아니냐는 식의 모집단 수에 따른 표본 수 관련 질문이다. 이런 질문은 국내에 국한하면 전국을 천명하면 시군이나 읍면동 단위의 소규모 지역조사는 훨씬 적게 해도 되는거 아니냐는 것이다.

 그러나 결론부터 이야기하면 전혀 그렇지 않다. 아래 표를 참고하면 되는데, 모집단 수가 적으나 엄청 많으나 요구되는 표본수는 크게 다르지 않다. 물론 이런 현상은 통계학적 계산에서 나온 것이다(그 계산법은 필자가 이해 못하니 그냥 넘어가시는 걸로^^). 구체적으로 모집단이 오천명인 지역의 경우 95% 신뢰수준에서 표집오차를 +-2.5% 정도로 하고 싶을 때 1176명 정도를 조사해야하지만, 모집단이 3억일 때는 1537명 정도가 필요하다. 모집단 수는 엄청 차이 남에도 불구하고 필요한 표본수는 큰 차이가 없다.

 요약하자면 모집단이 정말 소수이지 않는 한 여론조사에서 필요한 표본수의 차이는 그리 크지 않다는 것이다. 일정한 표집오차를 유지하고자 한다면 전국이나 시군 단위나 같은 표본수로 조사해야한다.


2019년 1월 14일 월요일

믹스 모드 조사에 대해 다시 생각해보기

 믹스 모드 조사는 표집틀이 동일한 조사에서 응답자에 따라 조사방법을 달리하는 조사를 의미한다. 최근 통계청 조사에서 PC나 스마트폰 웹조사를 실시하는 것이 바로 그것이다. 즉 조사구를 뽑아 가구를 선정한 후 면접원이 다수 방문했음에도 부재 등으로 조사를 못하는 가구에 대해 포스트잇으로 웹조사를 안내하여 조사 요청을 한다. 미국의 ACS 조사는 대표적인 믹스모드 조사이다. 선정된 표본에게 1차로 우편, 2차로 전화나 웹조사, 3차로 면접원 방문 조사를 실시한다.

 그런데 이런 믹스모드 조사가 일부 조사회사에 이상하게 적용되고 있다. 예를 들면 50대까지는 액세스 패널 대상 웹조사+60세 이상은 대면면접조사, 혹은 50대까지는 액세스 패널 대상 웹조사+60세 이상은 전화면접조사 등의 조사를 믹스모드 조사로 둔갑(?)시키고 있다. 이런 조사는 분명 2개 이상의 조사방법을 한 조사에 활용하니 믹스 모드가 맞다. 그러나 두 조사의 표집틀이 완전히 다르다는 점에서 이렇게 하는 조사는 적절한 조사가 아니다.

 물론 표집틀이 다른 믹스모드 조사도 정확하다고 주장할 수 있다. 선거조사에서 싱글모드 조사보다 한 두 번 정확할수 있으니 말이다. 그렇다고 원칙에 어긋난 조사가 정당화될 수는 없다.

2019년 1월 12일 토요일

[매소드 시각화] 닷(dot) 그래프의 시대

 최근 서베이 관련 그래프에서 닷(dot) 그래프가 유행이다. 막대, 원, 꺾은선 정도로 표현되던 서베이 그래프에서 닷 그래프의 등장은 센세이션했다. 왜냐하면 닷 그래프를 통해 서브그룹(하위 집단)별 차이를 기존의 범례에서 벗어나 표현할 수 있기 때문이다.

 역시 백문이 불여일견이니 예시를 보여드리겠다. 액셀에서 그래프 좀 그려본 분이라면 왜 닷 그래프가 파워풀한지 금방 이해할 수 있을 것이다. 물론 문제가 있다. 액셀에서 닷 그래프가 지원이 안된다는 것이다. 물론 어찌어찌 변형하여 액셀에서 그릴 수는 있다. 그러나 그 과정이 어렵고 지난하다. 하루빨리 액셀에 닷 그래프가 지원되기를 바란다.








2019년 1월 10일 목요일

[매소드 시각화] 4점 척도 문항 그래프 그리기

 우리나라는 이상하게 4점 척도를 참 많이 쓴다. 찬성한다-반대한다 이렇게 안하고 거의 매우 찬성한다-대체로 찬성한다-대체로 반대한다-매우 반대한다 이런 식으로 척도를 만든다. 사실 매우 찬성한다는 비율을 활용할게 아니라면 굳이 이렇게 묻지 않아도 되지만...여하튼 오늘은 그걸 얘기하자는 건 아니고...이렇게 쓴 4점 척도의 그래프를 어떻게 그릴지 고민해보자는 것이다.

 우선 아래와 같이 그래프를 그릴 수 있다. 각각의 척도 비율과 함께 찬성이나 반대 합 비율까지 보여줄 수 있어 아래 방식은 많이 활용되고 있다. 그러나 이 그래프는 치명적인 단점이 있다. 바로 합 비율 즉 찬성과 반대 비율이 숫자로만 나와 있어 그 두 수치간 차이를 쉽게 알 수 없다는 것이다.




 그래서 필자는 위 그래프의 단점을 보완하기 위해 아래와 같은 방식의 그래프를 자주 활용한다. 물론 바 그래프가 세워져 있는 세로 막대보다는 누워있는 가로 막대를 더 선호한다. 뭐 이유는 가로 막대가 조금 더 안정적인 느낌이기도 하고, 수치를 확인하기가 더 편하기 때문이다.



 그래프는 서베이 결과를 보여주는 가장 기본적인 방식 중 하나이다. 중요한 것은 그냥 수치를 보여주는 것에 비해 그래프로 보여주는게 최소한 이용자에게 편해야한다. 개인마다 선호가 있겠지만 이런 측면에서 4점 척도 최적의 그래프를 소개했다고 생각한다. 더 좋은게 있으면 언제든지 소개해주셨으면 한다.