메소드서베이

2019년 2월 12일 화요일

웹조사 시 몇 개 문항까지 조사 가능한가요? (1탄)

웹조사를 할 때 고객에게 가장 많이 받는 질문 중 하나는 바로
"몇 개 문항까지 가능한가요?" 이다.

문항을 만들다 보면 당연히 많아지고 줄이는 것도 큰 일이므로 크게 줄이지 않고 하고 싶은게 인지상정인지라 이런 질문을 할 수 밖에 없다는 거 이해한다.

몇 문항을 물을 수 있다는 법칙은 당연히 없다. 그래도 나름의 경험으로 문항 수로 딱 말하기는 어렵고 가급적 20분을 넘지 않아야한다고 고객에게 대답한다.

그러나 조금만 더 깊이 생각해보면 응답 시간에 영향을 주는 건 문항 수만은 아니다. 문항 수만큼 중요한 것이 문항의 난이도일 것이다.

그래서 구글링으로 자료를 찾아봤다. 역시나 있었다. Shorter Isn’t Always Better라는 발표 자료이고, Inna Burdein이란 메소돌로지스트가 2013년 작성한 것이다. 아래 그래프를 보면 36개 문항의 쉬운 설문의 응답시간과 24개의 어려운 설문의 응답 시간이 거의 비슷하다는 걸 알 수 있다.

좀더 자세한 내용은 아래 사이트를 참조:
https://c.ymcdn.com/sites/www.casro.org/resource/collection/0A81BA94-3332-4135-97F6-6BE6F6CEF475/Presentation_-_Inna_Burdein_-_The_NPD_Group.pdf

응답 시간 뿐만 아니라 응답율 역시 36개 문항의 쉬운 설문과 24개의 어려운 설문이 비슷하였다.

이 발표 자료에서는 문항 수와 난이도별로 일자 찍기 비율도 보여주고 있는데, 흥미롭게도 20분 조금 더 걸렸고 응답율도 비슷했던 36개 문항의 쉬운 설문과 24개의 어려운 설문이었지만 일자찍기에서는 2배 가까이 차이가 났다. 이는 일자찍기의 경우 응답시간보다는 문항 수에 더 영향이 있다는 것을 알 수 있다.

또 하나 의미 있는 것은 15분이 넘어가면 실제 응답 시간보다 응답자가 지각하는 응답시간이 훨씬 짧아진다는 것이다. 실제 45분이 걸린 설문이라도 응답자들은 23분이나 26분 정도 걸린 것으로 착각하고 있었다. 이런 결과로 응답자들의 응답 최대치가 30분 정도이지 않을까 하는 생각을 해본다.

결론적으로 이상적인 응답시간, 최대 응답시간, 최대 문항 수 이런 건 알 수가 없다. 원칙적으로 쉽고 짧은 설문이 가장 좋을 것이다. 그러나 현실적으로 무작정 이 원칙을 지킬 수는 없다. 그러므로 최대한 설문을 쉽게 만들고, 문항 수도 최대한 줄이려는 노력이 필요할 뿐이다.

2019년 1월 29일 화요일

GPS로 조사원의 위치를 추적한다면?

이 논문은 서베이를 진행하는 조사원에게 실제로 GPS 장치(스마트폰에 앱 설치)를 가지고 다니게 하여 그 위치를 추적하였고, 그 효과를 측정하였다.

결론적으로 GPS 앱설치가 조사원의 행동을 크게 변화시켰다고 한다.

필자 생각에는 국내 도입이 시급하다고 본다.

다 골라라 하지 맙시다(“yes/no” versus “check all that apply”)

해당되는 것을 모두 골라주세요...이런 설문은 가급적 만들지 않는 것이 좋겠다.

이 논문은 철저하게 이런 주장을 하고 있다. 특히 면접원의 개입이 없는 웹조사의 경우에는 더욱 더 모두 골라주세요...를 하지 말아야한다. 대신 보기 하나 하나를 불러주면서 이게 해당되는지 여부를 묻도록 권장한다. 아래 수치를 보면 두 방법의 응답 결과 차이가 너무 크게 난다.

그렇다면 왜 그런걸까? 결국 응답자의 응답시간 차이였다. 아래 표2를 보면 특히 웹조사에서 응답 시간 차이는 더 크다.

결론은 나왔다. 모두 골라라 식의 문항은 아예 만들지를 말자...특히 웹조사에서는

2019년 1월 17일 목요일

우리나라 공론조사 규모가 커진 이유?

신고리 공론조사나 대입 공론조사 등 최근 전국 단위의 공론조사 참석자 규모가 대략 500명 내외였다. 해외 공론조사 참석자들이 많아야 200명임을 감안하면 과히 세계 최고의 수준임에 분명하다.

그렇다면 왜 이렇게 우리나라 공론조사는 대규모로 했을까? 그건 바로 사실상 공론조사 결과가 재판 판결(?)과 같은 역할을 했기 때문이다. 즉 공론조사에서 나온 응답 결과가 참고가 아닌 사실상 최종 결정으로 그 역할을 한 것이다. 이러다 보니 참석자 수를 최대한 늘려 표집오차를 줄일 필요가 있었을 것이다. 아래와 같이 표본조사의 표집오차에 영향을 주는 요인은 표본수와 응답비율인데, 공론조사 주제가 찬반 갈등이 첨예하다는 점에서 응답비율은 50% 50%로 가정하면 결국은 표본수를 최대한 늘리는 것이 표집오차를 줄이는 유일한 방법이다. 500명을 한 것은 아마도 그래야 표집오차를 한 자리 수 이내로 낮출수 있었기 때문이었을 것이다. 물론 더 늘리면 좋겠지만 비용이나 응답자 관리를 생각할 때 500명이 최대였을 수 밖에 없다. (생각해봐라...500명이 한 번에 밥을 먹고, 잘 수 있는 곳이 많지 않다)

공론조사에서 표본수 증가는 엄청난 비용 증가로 이어진다. 조사만 하면 되는 여론조사와 달리 공론조사는 일정 기간 한 장소에 응답자들을 모아 놓고 숙의 과정을 거쳐야하기 때문이다. 특히 1박이나 2박을 하는 공론조사일 경우 숙박비와 식비만 해도 상당하다. 물론 사례비도 상당히 높다.

이런 점에서 공론조사의 목적을 다시 제고할 필요가 있다. 공론조사는 결정의 최종 수단이 절대 아니다. 그 보다는 숙의 이전과 이후 태도가 어떻게 변화했는지를 판단하는 일종의 실험이다.

2019년 1월 16일 수요일

왜 모집단이 훨씬 큰 중국도 여론조사 천명, 우리나라도 천명을 하나요?

고객들이 여론조사 표본수를 이야기할 때 가장 많이 궁금해하는 것이 모집단이 엄청 큰 중국이나 미국 같은 나라에서 여론조사 천명을 하면 그 보다 모집단이 훨씬 작은 우리나라는 천명보다 적게 해도 되는거 아니냐는 식의 모집단 수에 따른 표본 수 관련 질문이다. 이런 질문은 국내에 국한하면 전국을 천명하면 시군이나 읍면동 단위의 소규모 지역조사는 훨씬 적게 해도 되는거 아니냐는 것이다.

그러나 결론부터 이야기하면 전혀 그렇지 않다. 아래 표를 참고하면 되는데, 모집단 수가 적으나 엄청 많으나 요구되는 표본수는 크게 다르지 않다. 물론 이런 현상은 통계학적 계산에서 나온 것이다(그 계산법은 필자가 이해 못하니 그냥 넘어가시는 걸로^^). 구체적으로 모집단이 오천명인 지역의 경우 95% 신뢰수준에서 표집오차를 +-2.5% 정도로 하고 싶을 때 1176명 정도를 조사해야하지만, 모집단이 3억일 때는 1537명 정도가 필요하다. 모집단 수는 엄청 차이 남에도 불구하고 필요한 표본수는 큰 차이가 없다.

요약하자면 모집단이 정말 소수이지 않는 한 여론조사에서 필요한 표본수의 차이는 그리 크지 않다는 것이다. 일정한 표집오차를 유지하고자 한다면 전국이나 시군 단위나 같은 표본수로 조사해야한다.

2019년 1월 14일 월요일

믹스 모드 조사에 대해 다시 생각해보기

믹스 모드 조사는 표집틀이 동일한 조사에서 응답자에 따라 조사방법을 달리하는 조사를 의미한다. 최근 통계청 조사에서 PC나 스마트폰 웹조사를 실시하는 것이 바로 그것이다. 즉 조사구를 뽑아 가구를 선정한 후 면접원이 다수 방문했음에도 부재 등으로 조사를 못하는 가구에 대해 포스트잇으로 웹조사를 안내하여 조사 요청을 한다. 미국의 ACS 조사는 대표적인 믹스모드 조사이다. 선정된 표본에게 1차로 우편, 2차로 전화나 웹조사, 3차로 면접원 방문 조사를 실시한다.

그런데 이런 믹스모드 조사가 일부 조사회사에 이상하게 적용되고 있다. 예를 들면 50대까지는 액세스 패널 대상 웹조사+60세 이상은 대면면접조사, 혹은 50대까지는 액세스 패널 대상 웹조사+60세 이상은 전화면접조사 등의 조사를 믹스모드 조사로 둔갑(?)시키고 있다. 이런 조사는 분명 2개 이상의 조사방법을 한 조사에 활용하니 믹스 모드가 맞다. 그러나 두 조사의 표집틀이 완전히 다르다는 점에서 이렇게 하는 조사는 적절한 조사가 아니다.

물론 표집틀이 다른 믹스모드 조사도 정확하다고 주장할 수 있다. 선거조사에서 싱글모드 조사보다 한 두 번 정확할수 있으니 말이다. 그렇다고 원칙에 어긋난 조사가 정당화될 수는 없다.

2019년 1월 12일 토요일

[매소드 시각화] 닷(dot) 그래프의 시대

최근 서베이 관련 그래프에서 닷(dot) 그래프가 유행이다. 막대, 원, 꺾은선 정도로 표현되던 서베이 그래프에서 닷 그래프의 등장은 센세이션했다. 왜냐하면 닷 그래프를 통해 서브그룹(하위 집단)별 차이를 기존의 범례에서 벗어나 표현할 수 있기 때문이다.

역시 백문이 불여일견이니 예시를 보여드리겠다. 액셀에서 그래프 좀 그려본 분이라면 왜 닷 그래프가 파워풀한지 금방 이해할 수 있을 것이다. 물론 문제가 있다. 액셀에서 닷 그래프가 지원이 안된다는 것이다. 물론 어찌어찌 변형하여 액셀에서 그릴 수는 있다. 그러나 그 과정이 어렵고 지난하다. 하루빨리 액셀에 닷 그래프가 지원되기를 바란다.