2019년 1월 29일 화요일

GPS로 조사원의 위치를 추적한다면?

 이 논문은 서베이를 진행하는 조사원에게 실제로 GPS 장치(스마트폰에 앱 설치)를 가지고 다니게 하여 그 위치를 추적하였고, 그 효과를 측정하였다.

 결론적으로 GPS 앱설치가 조사원의 행동을 크게 변화시켰다고 한다.

 필자 생각에는 국내 도입이 시급하다고 본다.




다 골라라 하지 맙시다(“yes/no” versus “check all that apply”)

 해당되는 것을 모두 골라주세요...이런 설문은 가급적 만들지 않는 것이 좋겠다.

 이 논문은 철저하게 이런 주장을 하고 있다. 특히 면접원의 개입이 없는 웹조사의 경우에는 더욱 더 모두 골라주세요...를 하지 말아야한다. 대신 보기 하나 하나를 불러주면서 이게 해당되는지 여부를 묻도록 권장한다. 아래 수치를 보면 두 방법의 응답 결과 차이가 너무 크게 난다.

 그렇다면 왜 그런걸까? 결국 응답자의 응답시간 차이였다. 아래 표2를 보면 특히 웹조사에서 응답 시간 차이는 더 크다.

 결론은 나왔다. 모두 골라라 식의 문항은 아예 만들지를 말자...특히 웹조사에서는






2019년 1월 17일 목요일

우리나라 공론조사 규모가 커진 이유?

 신고리 공론조사나 대입 공론조사 등 최근 전국 단위의 공론조사 참석자 규모가 대략 500명 내외였다. 해외 공론조사 참석자들이 많아야 200명임을 감안하면 과히 세계 최고의 수준임에 분명하다.

 그렇다면 왜 이렇게 우리나라 공론조사는 대규모로 했을까? 그건 바로 사실상 공론조사 결과가 재판 판결(?)과 같은 역할을 했기 때문이다. 즉 공론조사에서 나온 응답 결과가 참고가 아닌 사실상 최종 결정으로 그 역할을 한 것이다. 이러다 보니 참석자 수를 최대한 늘려 표집오차를 줄일 필요가 있었을 것이다. 아래와 같이 표본조사의 표집오차에 영향을 주는 요인은 표본수와 응답비율인데, 공론조사 주제가 찬반 갈등이 첨예하다는 점에서 응답비율은 50% 50%로 가정하면 결국은 표본수를 최대한 늘리는 것이 표집오차를 줄이는 유일한 방법이다. 500명을 한 것은 아마도 그래야 표집오차를 한 자리 수 이내로 낮출수 있었기 때문이었을 것이다. 물론 더 늘리면 좋겠지만 비용이나 응답자 관리를 생각할 때 500명이 최대였을 수 밖에 없다. (생각해봐라...500명이 한 번에 밥을 먹고, 잘 수 있는 곳이 많지 않다)

 공론조사에서 표본수 증가는 엄청난 비용 증가로 이어진다. 조사만 하면 되는 여론조사와 달리 공론조사는 일정 기간 한 장소에 응답자들을 모아 놓고 숙의 과정을 거쳐야하기 때문이다. 특히 1박이나 2박을 하는 공론조사일 경우 숙박비와 식비만 해도 상당하다. 물론 사례비도 상당히 높다.

이런 점에서 공론조사의 목적을 다시 제고할 필요가 있다. 공론조사는 결정의 최종 수단이 절대 아니다. 그 보다는 숙의 이전과 이후 태도가 어떻게 변화했는지를 판단하는 일종의 실험이다.





2019년 1월 16일 수요일

왜 모집단이 훨씬 큰 중국도 여론조사 천명, 우리나라도 천명을 하나요?

 고객들이 여론조사 표본수를 이야기할 때 가장 많이 궁금해하는 것이 모집단이 엄청 큰 중국이나 미국 같은 나라에서 여론조사 천명을 하면 그 보다 모집단이 훨씬 작은 우리나라는 천명보다 적게 해도 되는거 아니냐는 식의 모집단 수에 따른 표본 수 관련 질문이다. 이런 질문은 국내에 국한하면 전국을 천명하면 시군이나 읍면동 단위의 소규모 지역조사는 훨씬 적게 해도 되는거 아니냐는 것이다.

 그러나 결론부터 이야기하면 전혀 그렇지 않다. 아래 표를 참고하면 되는데, 모집단 수가 적으나 엄청 많으나 요구되는 표본수는 크게 다르지 않다. 물론 이런 현상은 통계학적 계산에서 나온 것이다(그 계산법은 필자가 이해 못하니 그냥 넘어가시는 걸로^^). 구체적으로 모집단이 오천명인 지역의 경우 95% 신뢰수준에서 표집오차를 +-2.5% 정도로 하고 싶을 때 1176명 정도를 조사해야하지만, 모집단이 3억일 때는 1537명 정도가 필요하다. 모집단 수는 엄청 차이 남에도 불구하고 필요한 표본수는 큰 차이가 없다.

 요약하자면 모집단이 정말 소수이지 않는 한 여론조사에서 필요한 표본수의 차이는 그리 크지 않다는 것이다. 일정한 표집오차를 유지하고자 한다면 전국이나 시군 단위나 같은 표본수로 조사해야한다.


2019년 1월 14일 월요일

믹스 모드 조사에 대해 다시 생각해보기

 믹스 모드 조사는 표집틀이 동일한 조사에서 응답자에 따라 조사방법을 달리하는 조사를 의미한다. 최근 통계청 조사에서 PC나 스마트폰 웹조사를 실시하는 것이 바로 그것이다. 즉 조사구를 뽑아 가구를 선정한 후 면접원이 다수 방문했음에도 부재 등으로 조사를 못하는 가구에 대해 포스트잇으로 웹조사를 안내하여 조사 요청을 한다. 미국의 ACS 조사는 대표적인 믹스모드 조사이다. 선정된 표본에게 1차로 우편, 2차로 전화나 웹조사, 3차로 면접원 방문 조사를 실시한다.

 그런데 이런 믹스모드 조사가 일부 조사회사에 이상하게 적용되고 있다. 예를 들면 50대까지는 액세스 패널 대상 웹조사+60세 이상은 대면면접조사, 혹은 50대까지는 액세스 패널 대상 웹조사+60세 이상은 전화면접조사 등의 조사를 믹스모드 조사로 둔갑(?)시키고 있다. 이런 조사는 분명 2개 이상의 조사방법을 한 조사에 활용하니 믹스 모드가 맞다. 그러나 두 조사의 표집틀이 완전히 다르다는 점에서 이렇게 하는 조사는 적절한 조사가 아니다.

 물론 표집틀이 다른 믹스모드 조사도 정확하다고 주장할 수 있다. 선거조사에서 싱글모드 조사보다 한 두 번 정확할수 있으니 말이다. 그렇다고 원칙에 어긋난 조사가 정당화될 수는 없다.

2019년 1월 12일 토요일

[매소드 시각화] 닷(dot) 그래프의 시대

 최근 서베이 관련 그래프에서 닷(dot) 그래프가 유행이다. 막대, 원, 꺾은선 정도로 표현되던 서베이 그래프에서 닷 그래프의 등장은 센세이션했다. 왜냐하면 닷 그래프를 통해 서브그룹(하위 집단)별 차이를 기존의 범례에서 벗어나 표현할 수 있기 때문이다.

 역시 백문이 불여일견이니 예시를 보여드리겠다. 액셀에서 그래프 좀 그려본 분이라면 왜 닷 그래프가 파워풀한지 금방 이해할 수 있을 것이다. 물론 문제가 있다. 액셀에서 닷 그래프가 지원이 안된다는 것이다. 물론 어찌어찌 변형하여 액셀에서 그릴 수는 있다. 그러나 그 과정이 어렵고 지난하다. 하루빨리 액셀에 닷 그래프가 지원되기를 바란다.








2019년 1월 10일 목요일

[매소드 시각화] 4점 척도 문항 그래프 그리기

 우리나라는 이상하게 4점 척도를 참 많이 쓴다. 찬성한다-반대한다 이렇게 안하고 거의 매우 찬성한다-대체로 찬성한다-대체로 반대한다-매우 반대한다 이런 식으로 척도를 만든다. 사실 매우 찬성한다는 비율을 활용할게 아니라면 굳이 이렇게 묻지 않아도 되지만...여하튼 오늘은 그걸 얘기하자는 건 아니고...이렇게 쓴 4점 척도의 그래프를 어떻게 그릴지 고민해보자는 것이다.

 우선 아래와 같이 그래프를 그릴 수 있다. 각각의 척도 비율과 함께 찬성이나 반대 합 비율까지 보여줄 수 있어 아래 방식은 많이 활용되고 있다. 그러나 이 그래프는 치명적인 단점이 있다. 바로 합 비율 즉 찬성과 반대 비율이 숫자로만 나와 있어 그 두 수치간 차이를 쉽게 알 수 없다는 것이다.




 그래서 필자는 위 그래프의 단점을 보완하기 위해 아래와 같은 방식의 그래프를 자주 활용한다. 물론 바 그래프가 세워져 있는 세로 막대보다는 누워있는 가로 막대를 더 선호한다. 뭐 이유는 가로 막대가 조금 더 안정적인 느낌이기도 하고, 수치를 확인하기가 더 편하기 때문이다.



 그래프는 서베이 결과를 보여주는 가장 기본적인 방식 중 하나이다. 중요한 것은 그냥 수치를 보여주는 것에 비해 그래프로 보여주는게 최소한 이용자에게 편해야한다. 개인마다 선호가 있겠지만 이런 측면에서 4점 척도 최적의 그래프를 소개했다고 생각한다. 더 좋은게 있으면 언제든지 소개해주셨으면 한다.



2019년 1월 8일 화요일

할당조사에서 Cell vs Rim?

 우리나라 조사회사들은 할당조사 시 지역*성*연령별 교차표를 만들어 이를 할당표라고 지칭하고, 그 표에 맞게 조사하고, 그게 안되면(100% 교차표대로 조사하지 못하면) 표에 맞게 가중치를 부여해왔다. 일명 셀할당과 셀가중치를 부여한 것이다.

 백문이 불여일견이니 2018년 12월 주민등록인구통계를 기반으로 17개 시도, 남녀, 5개 연령대로 구분하여 셀 할당표를 작성하면 아래와 같다. 셀이라고 하는 것이 숫자가 있는 한 칸을 의미하고 이렇게 짜면 총 170개의 칸 즉 셀이 생긴다.


 반면에 림 할당표는 이와는 다르게 변인별로 할당표를 작성한다. 직접 할당표를 보여주면 아래와 같다. 셀할당표와는 다르게 교차가 아닌 각 변인별로 독립적으로 할당표를 만든다. 24개의 칸 즉 셀이 만들어지니 위의 170개 셀과는 엄청난 차이임을 알 수 있다.


 위 두개 표를 딱 봐도 셀할당표대로 조사하는 것이 훨씬 어렵겠다는 것이 느껴질 것이다. 실제 조사 과정에서도 예를 들면 세종시 30대 여자 1명을 찾기 위해서 엄청난 노력을 한다. 반면 림할당은 그에 비하면 조금 느슨하다. 그렇다고 림할당이 쉬운 것만은 아니다. 어차피 3개 변인별 할당을 동시에 충족시켜야하기 때문이다. 그럼에도 불구하고 셀할당보다는 실사 과정에서 조금 숨통이 트이는 건 사실이다.

 사실 전화조사나 대면면접조사에서 응답 대상자를 상대적으로 쉽게 조사할 수 있을 때에는 셀할당이 크게 문제가 되지 않았다. 오히려 더 촘촘하게 조사한다는 자부심(?)도 있었다. 그러나 지금처럼 조사가 정말 안되는 상황에서 리서처가 과거와 같은 셀 할당을 고집한다는 건 실사에서 일하는 분들에게 가혹한 기준이 될 수 있다.

 이런 점을 고려할 때 셀 할당의 환상을 거둘 필요가 있다. 현실적으로 림 할당도 전부 맞추기 어렵다는 점에서 림 할당으로 조사하는 것이 맞다고 본다. 또 하나는 셀 할당을 신(?)처럼 모시다보니 지역/성/연령 이외의 변인을 추가 할당 변인으로 감히 모셔오지 못했다. 그러나 림할당을 도입한다면 지역, 성, 연령 외에 조사 주제별로 주요한 할당 변인, 예를 들면 학력, 가구원수 등을 추가 변인으로 추가하는 것이 가능하다.


 할당도 시대에 따라 변할 필요가 있다.