고객들이 여론조사 표본수를 이야기할 때 가장 많이 궁금해하는 것이 모집단이 엄청 큰 중국이나 미국 같은 나라에서 여론조사 천명을 하면 그 보다 모집단이 훨씬 작은 우리나라는 천명보다 적게 해도 되는거 아니냐는 식의 모집단 수에 따른 표본 수 관련 질문이다. 이런 질문은 국내에 국한하면 전국을 천명하면 시군이나 읍면동 단위의 소규모 지역조사는 훨씬 적게 해도 되는거 아니냐는 것이다.
그러나 결론부터 이야기하면 전혀 그렇지 않다. 아래 표를 참고하면 되는데, 모집단 수가 적으나 엄청 많으나 요구되는 표본수는 크게 다르지 않다. 물론 이런 현상은 통계학적 계산에서 나온 것이다(그 계산법은 필자가 이해 못하니 그냥 넘어가시는 걸로^^). 구체적으로 모집단이 오천명인 지역의 경우 95% 신뢰수준에서 표집오차를 +-2.5% 정도로 하고 싶을 때 1176명 정도를 조사해야하지만, 모집단이 3억일 때는 1537명 정도가 필요하다. 모집단 수는 엄청 차이 남에도 불구하고 필요한 표본수는 큰 차이가 없다.
요약하자면 모집단이 정말 소수이지 않는 한 여론조사에서 필요한 표본수의 차이는 그리 크지 않다는 것이다. 일정한 표집오차를 유지하고자 한다면 전국이나 시군 단위나 같은 표본수로 조사해야한다.
2019년 1월 16일 수요일
2019년 1월 14일 월요일
믹스 모드 조사에 대해 다시 생각해보기
믹스 모드 조사는 표집틀이 동일한 조사에서 응답자에 따라 조사방법을 달리하는 조사를 의미한다. 최근 통계청 조사에서 PC나 스마트폰 웹조사를 실시하는 것이 바로 그것이다. 즉 조사구를 뽑아 가구를 선정한 후 면접원이 다수 방문했음에도 부재 등으로 조사를 못하는 가구에 대해 포스트잇으로 웹조사를 안내하여 조사 요청을 한다. 미국의 ACS 조사는 대표적인 믹스모드 조사이다. 선정된 표본에게 1차로 우편, 2차로 전화나 웹조사, 3차로 면접원 방문 조사를 실시한다.
그런데 이런 믹스모드 조사가 일부 조사회사에 이상하게 적용되고 있다. 예를 들면 50대까지는 액세스 패널 대상 웹조사+60세 이상은 대면면접조사, 혹은 50대까지는 액세스 패널 대상 웹조사+60세 이상은 전화면접조사 등의 조사를 믹스모드 조사로 둔갑(?)시키고 있다. 이런 조사는 분명 2개 이상의 조사방법을 한 조사에 활용하니 믹스 모드가 맞다. 그러나 두 조사의 표집틀이 완전히 다르다는 점에서 이렇게 하는 조사는 적절한 조사가 아니다.
물론 표집틀이 다른 믹스모드 조사도 정확하다고 주장할 수 있다. 선거조사에서 싱글모드 조사보다 한 두 번 정확할수 있으니 말이다. 그렇다고 원칙에 어긋난 조사가 정당화될 수는 없다.
그런데 이런 믹스모드 조사가 일부 조사회사에 이상하게 적용되고 있다. 예를 들면 50대까지는 액세스 패널 대상 웹조사+60세 이상은 대면면접조사, 혹은 50대까지는 액세스 패널 대상 웹조사+60세 이상은 전화면접조사 등의 조사를 믹스모드 조사로 둔갑(?)시키고 있다. 이런 조사는 분명 2개 이상의 조사방법을 한 조사에 활용하니 믹스 모드가 맞다. 그러나 두 조사의 표집틀이 완전히 다르다는 점에서 이렇게 하는 조사는 적절한 조사가 아니다.
물론 표집틀이 다른 믹스모드 조사도 정확하다고 주장할 수 있다. 선거조사에서 싱글모드 조사보다 한 두 번 정확할수 있으니 말이다. 그렇다고 원칙에 어긋난 조사가 정당화될 수는 없다.
2019년 1월 12일 토요일
[매소드 시각화] 닷(dot) 그래프의 시대
최근 서베이 관련 그래프에서 닷(dot) 그래프가 유행이다. 막대, 원, 꺾은선 정도로 표현되던 서베이 그래프에서 닷 그래프의 등장은 센세이션했다. 왜냐하면 닷 그래프를 통해 서브그룹(하위 집단)별 차이를 기존의 범례에서 벗어나 표현할 수 있기 때문이다.
역시 백문이 불여일견이니 예시를 보여드리겠다. 액셀에서 그래프 좀 그려본 분이라면 왜 닷 그래프가 파워풀한지 금방 이해할 수 있을 것이다. 물론 문제가 있다. 액셀에서 닷 그래프가 지원이 안된다는 것이다. 물론 어찌어찌 변형하여 액셀에서 그릴 수는 있다. 그러나 그 과정이 어렵고 지난하다. 하루빨리 액셀에 닷 그래프가 지원되기를 바란다.
역시 백문이 불여일견이니 예시를 보여드리겠다. 액셀에서 그래프 좀 그려본 분이라면 왜 닷 그래프가 파워풀한지 금방 이해할 수 있을 것이다. 물론 문제가 있다. 액셀에서 닷 그래프가 지원이 안된다는 것이다. 물론 어찌어찌 변형하여 액셀에서 그릴 수는 있다. 그러나 그 과정이 어렵고 지난하다. 하루빨리 액셀에 닷 그래프가 지원되기를 바란다.
2019년 1월 10일 목요일
[매소드 시각화] 4점 척도 문항 그래프 그리기
우리나라는 이상하게 4점 척도를 참 많이 쓴다. 찬성한다-반대한다 이렇게 안하고 거의 매우 찬성한다-대체로 찬성한다-대체로 반대한다-매우 반대한다 이런 식으로 척도를 만든다. 사실 매우 찬성한다는 비율을 활용할게 아니라면 굳이 이렇게 묻지 않아도 되지만...여하튼 오늘은 그걸 얘기하자는 건 아니고...이렇게 쓴 4점 척도의 그래프를 어떻게 그릴지 고민해보자는 것이다.
우선 아래와 같이 그래프를 그릴 수 있다. 각각의 척도 비율과 함께 찬성이나 반대 합 비율까지 보여줄 수 있어 아래 방식은 많이 활용되고 있다. 그러나 이 그래프는 치명적인 단점이 있다. 바로 합 비율 즉 찬성과 반대 비율이 숫자로만 나와 있어 그 두 수치간 차이를 쉽게 알 수 없다는 것이다.
우선 아래와 같이 그래프를 그릴 수 있다. 각각의 척도 비율과 함께 찬성이나 반대 합 비율까지 보여줄 수 있어 아래 방식은 많이 활용되고 있다. 그러나 이 그래프는 치명적인 단점이 있다. 바로 합 비율 즉 찬성과 반대 비율이 숫자로만 나와 있어 그 두 수치간 차이를 쉽게 알 수 없다는 것이다.
그래서 필자는 위 그래프의 단점을 보완하기 위해 아래와 같은 방식의 그래프를 자주 활용한다. 물론 바 그래프가 세워져 있는 세로 막대보다는 누워있는 가로 막대를 더 선호한다. 뭐 이유는 가로 막대가 조금 더 안정적인 느낌이기도 하고, 수치를 확인하기가 더 편하기 때문이다.
그래프는 서베이 결과를 보여주는 가장 기본적인 방식 중 하나이다. 중요한 것은 그냥 수치를 보여주는 것에 비해 그래프로 보여주는게 최소한 이용자에게 편해야한다. 개인마다 선호가 있겠지만 이런 측면에서 4점 척도 최적의 그래프를 소개했다고 생각한다. 더 좋은게 있으면 언제든지 소개해주셨으면 한다.
2019년 1월 8일 화요일
할당조사에서 Cell vs Rim?
우리나라 조사회사들은 할당조사 시 지역*성*연령별 교차표를 만들어 이를 할당표라고 지칭하고, 그 표에 맞게 조사하고, 그게 안되면(100% 교차표대로 조사하지 못하면) 표에 맞게 가중치를 부여해왔다. 일명 셀할당과 셀가중치를 부여한 것이다.
백문이 불여일견이니 2018년 12월 주민등록인구통계를 기반으로 17개 시도, 남녀, 5개 연령대로 구분하여 셀 할당표를 작성하면 아래와 같다. 셀이라고 하는 것이 숫자가 있는 한 칸을 의미하고 이렇게 짜면 총 170개의 칸 즉 셀이 생긴다.
백문이 불여일견이니 2018년 12월 주민등록인구통계를 기반으로 17개 시도, 남녀, 5개 연령대로 구분하여 셀 할당표를 작성하면 아래와 같다. 셀이라고 하는 것이 숫자가 있는 한 칸을 의미하고 이렇게 짜면 총 170개의 칸 즉 셀이 생긴다.
반면에 림 할당표는 이와는 다르게 변인별로 할당표를 작성한다. 직접 할당표를 보여주면 아래와 같다. 셀할당표와는 다르게 교차가 아닌 각 변인별로 독립적으로 할당표를 만든다. 24개의 칸 즉 셀이 만들어지니 위의 170개 셀과는 엄청난 차이임을 알 수 있다.
위 두개 표를 딱 봐도 셀할당표대로 조사하는 것이 훨씬 어렵겠다는 것이 느껴질 것이다. 실제 조사 과정에서도 예를 들면 세종시 30대 여자 1명을 찾기 위해서 엄청난 노력을 한다. 반면 림할당은 그에 비하면 조금 느슨하다. 그렇다고 림할당이 쉬운 것만은 아니다. 어차피 3개 변인별 할당을 동시에 충족시켜야하기 때문이다. 그럼에도 불구하고 셀할당보다는 실사 과정에서 조금 숨통이 트이는 건 사실이다.
사실 전화조사나 대면면접조사에서 응답 대상자를 상대적으로 쉽게 조사할 수 있을 때에는 셀할당이 크게 문제가 되지 않았다. 오히려 더 촘촘하게 조사한다는 자부심(?)도 있었다. 그러나 지금처럼 조사가 정말 안되는 상황에서 리서처가 과거와 같은 셀 할당을 고집한다는 건 실사에서 일하는 분들에게 가혹한 기준이 될 수 있다.
이런 점을 고려할 때 셀 할당의 환상을 거둘 필요가 있다. 현실적으로 림 할당도 전부 맞추기 어렵다는 점에서 림 할당으로 조사하는 것이 맞다고 본다. 또 하나는 셀 할당을 신(?)처럼 모시다보니 지역/성/연령 이외의 변인을 추가 할당 변인으로 감히 모셔오지 못했다. 그러나 림할당을 도입한다면 지역, 성, 연령 외에 조사 주제별로 주요한 할당 변인, 예를 들면 학력, 가구원수 등을 추가 변인으로 추가하는 것이 가능하다.
할당도 시대에 따라 변할 필요가 있다.
2018년 12월 21일 금요일
단언컨데 웹조사에서 디바이스 효과(Smartphones, Tablets, Laptop, PC)는 없습니다.
웹조사는 초창기에 당연히 PC로만 했다. 뭐 테블릿이나 스마트폰이 없었으니까. 그러나 세월이 흐르면서 테블릿이나 스마트폰으로 웹조사를 하는 비율이 많아졌다. 그러면서 나온 의문은 당연히 작은 화면으로 하는데도 응답의 질에 문제가 없을까였다. 특히나 나이가 많은 리서처들이 이런 걱정을 더 많이 한 것 같다(이건 전적으로 내 생각).
지금 소개하는 논문 역시 이에 대한 의문증에서 시작한 것이다. 이 논문의 차별성은 여러 나라의 여러 웹조사 데이터를 가지고 증명했다는 것이다. 더불어 선택 바이어스를 최소화라기 위해 모드 선택을 응답자가 하지 않았다고 한다.
논문의 결론은 모드 효과에 대해서는 안심해도 된다는 거다. 진짜 걱정하지 말자. 응답자들을 믿자.
지금 소개하는 논문 역시 이에 대한 의문증에서 시작한 것이다. 이 논문의 차별성은 여러 나라의 여러 웹조사 데이터를 가지고 증명했다는 것이다. 더불어 선택 바이어스를 최소화라기 위해 모드 선택을 응답자가 하지 않았다고 한다.
논문의 결론은 모드 효과에 대해서는 안심해도 된다는 거다. 진짜 걱정하지 말자. 응답자들을 믿자.
2018년 12월 15일 토요일
우리나라 폴(poll) 시장에서 '전화면접조사'는 살아남을 수 있을까?
우리가 흔히 이야기하는 여론조사에는 두 종류가 있다. 하나는 폴(poll)이고 하나는 서베이(survey)이다. 사실 두 단어 자체의 차이는 없다. 그러나 시간이 흐르면서 자연스럽게 퀵하게 태도 정도를 확인하기 위한 조사는 폴, 학계나 통계청 등에서 행위, 태도, 신념 등 다양한 문항을 확인하기 위한 조사는 서베이로 간주되고 있다.
우리나라에서 폴이 서베이와 분리되어 인식된 것은 전화면접조사의 시작과 궤를 같이 한다. 대면면접조사에 비해 비용이나 시간을 훨씬 덜 들여 조사할 수 있는 전화면접조사의 등장은 주로 서베이에 머물던 여론조사 시장에서 폴이 확장되는 계기를 마련한 것이다. 예전 같으면 어림도 없었던 한 두 문항 여론조사도 등장했다. 아무튼 폴은 전화면접조사와 함께 계속 성장해왔다. 거기에 ARS 조사의 등장으로 전화면접과 함께 전화조사 시장의 성장이 가파랐다.
그러나 최근 전화면접조사는 하락세를 걷고 있다. 전화조사 내부에서는 ARS 조사에 밀리고, 웹조사라는 새로운 모드 등장에 그 하락세는 지속될 것으로 보인다. 이유는 자명하다. 비용의 문제이다. 전화면접조사는 필연적으로 면접원이 필요한데 응답율 하락(전화를 아예 받지 않는 문제, 받아도 상당수가 조사를 거절하는 문제)으로 면접원에게 줘야하는 수당이 자꾸 늘어나는 것이다. 문제는 이러한 응답율 하락이 더욱 심각해질 것이라는 점이다.
그렇다면 향후 폴 시장에서 전화면접조사는 살아남을 수 있을까? 내 생각으로는 힘들어 보인다. 그 근거를 몇 가지로 정리해보면 다음과 같다.
1. 전화면접조사와 ARS조사의 직접비 차이가 계속 벌어질 것이다.
(전화면접조사의 직접비는 상승 대비 ARS조사 직접비 상승은 크지 않을 것)
2. 스팸차단기술 발달로 조사회사에서 거는 전화를 안받는 사람들이 계속 늘어날 것이다.
3. 스마트폰 웹조사 시장이 성장할 것이다
이런 이유로 폴 시장은 ARS조사와 웹조사가 양분하는 시장으로 바뀔 가능성이 크다.
피드 구독하기:
글 (Atom)