2018년 6월 28일 목요일

이제는 온리 휴대전화조사 시대로?





  여론조사 좀 하시는 분들에게는 익숙한 잡지인 Public Opinon Quarterly에서 2018년 여름호가 새로 나왔다. 뭐 재미있는거 없나하고 (제목만) 살펴보던 중 흥미로운 논문이 있어 소개하고자 한다.

  아래 논문을 보면 제목부터 센세이션하다. 한마디로 이제는 휴대전화 RDD 시대라는 거다. 지난 10년 이상 유무선 듀얼 RDD 시대가 지배하고 있다는 것을 감안하면 시사하는 바가 매우 크다. 내용을 보면 그냥 허투루하는 주장이 아니다. 2012년부터 2015년까지 퓨리서치에서 진행한 유무선 RDD 전화조사 원자료를 가지고 분석하였는데 휴대전화 RDD로 진행된 조사가 퀄러티 측면에서도 유선 RDD로 진행된 조사보다 낫다는 것이다. 스마트폰 보급율이 세계 최고인 우리나라에 시사하는 바가 큰 주장이다.

  좀 더 자세한 내용을 보려면 아래 사이트로 가면 된다.
  https://academic.oup.com/poq/article/82/2/279/5002117



2018년 6월 26일 화요일

여론조사 '웹이나'라고 들어보셨나요?

  웹과 세미나를 결합한 웹이나(Webinars)가 대세인 듯 하다. 테드와 다른 점은 화자가 화면에 나오지 않고 목소리로 설명만 한다는 것이다. 수강하는 사람은 장표만 보게 되고 설명만 들으면 된다. 콘텐츠에 오롯이 집중할 수 있어 매우 강점이 있다.

  필자가 오늘 소개할 것은 미국여론조사협회에서 운영하는 웹이나이다. 무료는 아니고 미국여론조사협회 비회원의 경우 편당 79불 정도를 지불해야한다. 또 하나의 장벽은 영어...(영어 공부 좀 열심히 할 걸 후회 중이다)

https://www.aapor.org/Education-Resources/Online-Education/Webinars.aspx



전화조사의 가장 큰 걸림돌은 무엇일까요?


  최근 전화조사에서는 집전화보가 휴대전화번호로 조사를 많이 한다. 적게는 50%에서 많게는 80%까지 휴대전화로 하고 있고, 시간이 지날수록 이 비율은 증가할 전망이다. 사실 이러한 변화는 집전화를 쓰는 가구 비율이 현격히 낮아지면서 이에 적응한 결과이다. 즉 전화번호의 커버리지를 휴대전화 사용을 통해 확대한 것이다.

  그렇다면 휴대전화를 쓰면서 커버리지는 정말 확대된 것일까? 이론적으로는 당연히 그렇다. 그러나 필드에서 느끼는 바는 꼭 그렇지 않다는 거다. 문제는 휴대전화로 5번이상 재컨택해도 전화를 안받는 비율이 전체 비율에서 가장 높다는 것이다. 신호는 분명히 가는데 안받는다. 왜 그럴까? 그 이유는 바로 후후콜과 같은 전화 차단앱 때문이라는게 필자의 생각이다. 물론 증거는 없다. 얼마나 많은 사람들이 이런 앱을 쓰는지도 모르기 때문이다.

  그러던 중 이와 관련한 미국여론조사협회 공식 리포트를 보게 되었다. 유레카...
이 레포트의 내용을 요약하면 미국에서 전화 차단앱으로 인한 여론조사 거절 문제는 상당히 심각하다는 것이다. 유추해보면 우리는 더하면 더했지 덜하지는 않을 것이다.

https://www.aapor.org/Education-Resources/Reports/Spam-Flagging-and-Call-Blocking-and-Its-Impact-on.aspx

  재미있는 것은 이에 대한 해결 방안이다. 로비가 허용된 미국이니만큼 협회 차원에서 여론조사 회사 번호는 전화차단이 되지 않도록 로비를 하겠다고 한다. 그 전까지는 조사회사에서 알아서 발신번호를 자주 바꾸라고 권하고 있다. 우리나라 조사협회도 이런 걸 고민해야하지 않을까?

웹서베이를 맡길 때 고려해야할 5가지 체크리스트

  최근 일반국민 대상 여론조사를 웹조사로 하는 경우가 많아졌다. 웹조사에 대한 인식이 개선된 결과일 것이다. 그렇다면 웹조사를 맡길 때 어떤 점을 유의해야할까?

  1. 조사회사가 가지고 있는 액세스 패널(일종의 회원^^)이 확률추출기반인지 비확률추출기반인지를 알아본다. 고민할 필요 없이 확률추출기반의 액세스 패널은 세계에서도 손에 꼽힌다. 당연히 우리나라 조사회사에는 확률추출기반 액세스 패널이 없으니 안심(?)해도 된다.

  2. 비확률추출 기반의 액세스 패널일 경우 패널의 모집 경로가 다양한지 확인한다. 온라인으로만 패널을 모집했는지, 아니면 오프라인 모집을 병행했는지 확인해야한다. 당연히 온라인과 오프라인을 병행하여 모집한 액세스 패널이 온라인으로만 모집한 패널보다 질이 높을 확률이 높다.

  3. 응답 디바이스가 다양한지 확인한다. 즉 PC 이외에 스마트폰이나 패드로도 조사가 가능한지 확인할 필요가 있다. 또한 이메일로만 조사 참여를 요청하는지 문자로도 병행하는지 확인도 해야한다. 당연히 멀티 디바이스로 조사가 되는 것이 좋고, 이메일 외에 문자로도 조사참여를 하는 것이 좋다.

  4. 패널 관리 그 중에서도 1회 조사에 참여한 패널에게 얼마 후에 다시 조사에 참여하게 하는지를 살펴야한다. 그러한 기준이 없다면 일명 키보드 워리어에게 조사를 점령당하기 십상이다.

  5. 마지막으로 조사 참여 요청을 보내는 패널을 최소한으로 하는지 점검해야한다. 이론적으로는 1000명을 조사하기 위해 랜덤하게 뽑은 1000명의 패널에게만 조사 요청을 하는 것이 가장 좋다. 그러나 현실적으로 조사에 참여하지 않는 사람도 있으므로 최소한 5000명 이상에게는 보내는 게 현실이다. 물론 몇 만명에게 보낼 경우 조사는 빨리 끝날 수 있지만 이는 조사 품질에 나쁜 영향을 미친다.

2018년 6월 25일 월요일

여론조사에 대해 배울 수 있는 무료 온라인 강좌를 소개합니다

  온라인으로 여론조사에 대해 배울 수 있는 무료 온라인 강좌가 있어 소개합니다.
미국여론조사협회, 유럽조사협회, 세계여론조사협회가 공식적으로 인증한 강좌라 더 믿음이 가고 실제로 들어가 내용을 확인해보니 좋은 내용이 많습니다. 무료이고 회원가입은 필요합니다.






http://www.newsu.org/courses/understanding-and-interpreting-polls-international

대면면접조사 시 우리나라 조사회사에서는 가구 선정을 어떻게 하나요?

   전국 일반국민 대면면접조사는 주변에서 흔히 접할 수 있다. 설문지가 길고 인식이나 태도를 알아보는 류의 조사들은 대부분 대면면접조사를 한다고 보면 된다. 그렇다면 조사회사들은 대면면접조사에서 어떤 방식으로 가구를 선정할까?

  가구 선정에 있어 가장 중요한 변수는 해당 조사가 통계청 인증조사인지 여부이다. 통계청 인증조사일 경우에는 통계청에서 조사구(60가구 내외의 리스트 및 요도)를 받을 수 있어 조사구 내에서 가구를 선정한다.


  문제는 대다수의 비인증조사인데 이런 류의 조사는 가구를 어떻게 선정할까? 일단 조사구를 받을 수 없다(통계법 제30조 2항). 결론부터 얘기하면 가구를 선정하기 어렵다. 아니 선정할 수가 없다. 그 이유는 가구 리스트가 없기 때문이다. 그러면 면접원이 아무 지역에나 가서 마음대로 조사하는걸까? 그건 당연히 아니다. 이를 막기 위해 조사회사들은 집계구(조사구 4-5개를 합친 정도의 구역)를 활용한다. 해당 집계구 안에서 할당에 맞춰 조사를 하라는 의미이다.

  요약해서 이야기하면 통계청 인증조사가 아닌 이상 대면면접조사에서 확률적 가구 추출은 불가능하다. 물론 KGSS처럼 사전에 조사 지역 요도를 그리고 가구 리스트를 구축하면 가능할 수 있으나 조사회사에서 이는 불가능한 일이다. 만약 통계청 인증조사가 아닌 대면면접조사에서 가구를 계통적으로 추출했다느니 하는 말이 나오면 아 얘네들 사기(?)를 치는구나라고 생각하면 된다.

  개인적인 소망이 있다면 우리도 미국처럼 가구 주소를 공개적으로 신청하여 받을 수 있으면 좋겠다. 그럴 경우 ABS(Address Base Sampling) 방법으로 가구를 선정할 수 있기 때문이다. 아니면 조사구를 통계청 인증을 받지 않은 조사에서도 활용하게 해줬으면 좋겠다.

응답률이 낮으면 질이 낮은 조사일까?

  여론조사를 공격할 때 흔히들 지적하는 레퍼토리는 응답률이다. 낮은 응답률의 조사는 대표성과 자료의 질 차원에서 나쁘다는 것이다. 과연 이 말은 사실일까?

  지금까지 나온 결과를 종합해보면 이는 사실이 아니다. 정확하게는 응답률과 자료의 질과는 강한 연관 관계가 없다는 것이다. 심지어 언론 보도 시에 응답률을 반드시 이야기하지 않아도 된다는 게 미국여론조사협회의 입장이다. 응답률에 목을 맨 우리나라와는 사뭇 다른 입장이다.



휴대전화번호를 무작위로 생성하여 웹조사 요청 문자를 보낼 수 있을까?

  원래 웹조사는 이메일이 url을 보내는 주요한 수단이었다. 그러나 스마트폰의 보급율이 높아지면서 이메일보다는 문자를 통해 url을 보내는게 더 효율성이 높아졌다. 문제는 스마트폰으로 문자를 보내려면 휴대전화번호가 있어야한다는 것이다. 조사회사들은 자사가 보유한 액세스 패널의 휴대전화번호로 문자를 보낸다.

  문득 든 생각, 전화면접조사처럼 휴대전화를 무작위로 생성하여 보내면 안될까? 여기서 안될까는 두 가지 의미를 내포한다. 우선 법적으로 문제가 없느냐이고, 다음으로는 실제로 그렇게 보낼 경우 조사가 진행되는지이다. 첫 번째 문제를 해결하기 위해 필자는 작년에 국민신문고를 통해 법적인 문제가 없는지를 자문하였고 자문 결과 법적으로는 문제가 없다는 응답을 받았다. 아래 그림은 당시 필자가 했던 질문과 정부로 부터 받은 답변 내용이다. 다음으로 그렇게 무작위로 보냈을 경우 조사가 진행될 수 있을까? 이에 대해서는 실험조사가 필요하다.



여론조사할 때 몇 명이나 해야해요?

  조사 협의를 하면서 고객에게 가장 많이 받는 질문 중 하나가 몇 명 정도나 조사해야하냐는 거다. 사실 표본수는 명확히 돈(예산)과 비례한다. 예산이 많으면야 표본수를 늘릴수록 좋다. 표본수를 늘릴수록 표집오차가 감소하기 때문이다. 그러나 무한정 늘린다고 그에 따라 오차가 무한정 줄어들지 않는다. 아래 그림과 같이 처음엔 가파른 경사로 표집오차가 감소하다가 점점 그 기울기가 완만해진다. 보통 500명에서 1000명 사이에서 드라마틱하게 감소한다. 이 지점 중에서 표본수를 선택하면 그만이다.



  이왕 표집오차 얘기를 꺼낸 김에 한 가지 더 유의할 것이 있다. 위에 표를 보면 제목 밑에 약 50% 정도일 때(for a result of around 50%)라는 말이 있는데 이건 무엇을 의미하는 것일까? 이 말은 관측비율이 50% vs. 50%일 때의 표집오차라는 의미이다. 이해를 돕기 위해 아래표를 보자. 표본수가 동일하더라고 관측비율이 다르면 표집오차가 달라진다. 즉 50%일 때 표집오차가 가장 크다. 그렇다. 원래는 표본수가 동일해도 문항마다 표집오차가 다르다. 그러나 이를 문항마다 표기할 경우 너무 복잡할 수 있기 때문에 '최대허용오차'라는 표현으로 50%일 때의 표집오차는 대표로 표기하는 것이다.


만19세 이상 일반국민 여론조사에서 1인가구는 몇 %나 나와야하는걸까요?


  보통 일반국민 대상 여론조사에서 1인가구가 과소하게 잡히는 건 어제 오늘의 문제가 아니다. 흔히들 원래는 30% 가까이 나와야하는데 실제 조사에서는 10% 남짓 잡힌다는 이야기를 자주 한다. 그러나 이 말은 틀린 말이다.

  우선 1인가구가 30% 정도 된다는 것은 가구를 기준으로 한 것이다. 2016년 기준으로 1인가구가 539만 7,615가구이니 전체 가구 1,936만 7,696가구로 나누면 정확히 27.87%이다.  

  그러나 조사회사에서 실시하는 일반국민 대상 여론조사는 조사 대상이 만19세이상 성인남녀이다. 이 경우 1인가구 비율을 정확히 알기 위해서는 만19세이상 4천만여명 중 1인가구에 사는 사람이 몇 명 정도 되는지 알아야한다. 그러나 이를 추론할 수 있는 통계청 전수조사가 아쉽게도 없다.

  그래서 2017년 사회조사 마이크로 데이터를 구해서 가구원 가중치를 넣은 상태로 추정해보았다. 이 조사는 전수조사만큼은 아니지만 모집단에 상당히 접근한 조사라 할 수 있다. 그렇다면 일반국민 중 1인가구의 비율은 몇 %나 될까? 그 결과는 아래와 같다. 대략 15% 정도 된다.

가구원수
빈도(가중후)
비율
1
6,157,272
14.8
2
11,965,851
28.8
3
10,784,317
25.9
4인이상
12,677,282
30.5
전체
41,584,721
100.0



  그렇다면 연령대별로는 어떨까? 20 16.7%, 30 10.7%, 40 10.2%, 50 16.5%, 70세이상 29.4%로 70세이상에서 1인가구 비율이 가장 높았다.


연령대 * 가구원수 교차표
전체
1 가구
2 가구
3 가구
4 가구 이상
연령대
19-29
빈도
1202071
1092881
2053690
2831762
7180404
연령대 %
16.7%
15.2%
28.6%
39.4%
100.0%
30-39
빈도
802585
1530688
2302814
2872364
7508451
연령대 %
10.7%
20.4%
30.7%
38.3%
100.0%
40-49
빈도
851149
1323321
2284402
3872416
8331288
연령대 %
10.2%
15.9%
27.4%
46.5%
100.0%
50-59
빈도
987305
2702643
2474249
2089711
8253908
연령대 %
12.0%
32.7%
30.0%
25.3%
100.0%
60-69
빈도
922676
2945483
1135008
580982
5584149
연령대 %
16.5%
52.7%
20.3%
10.4%
100.0%
70세이상
빈도
1391486
2370835
534153
430046
4726520
연령대 %
29.4%
50.2%
11.3%
9.1%
100.0%
전체
빈도
6157272
11965851
10784316
12677281
41584720
연령대 %
14.8%
28.8%
25.9%
30.5%
100.0%

할당표집 대표성 제고 방안: ‘학력’과 ‘직업’ 변인 추가

  우리나라에서 실시되는 일반국민 대상 여론조사에서는 조사 방법(전화조사, 웹조사, 대면면접조사 등)에 관계없이 표본추출 방법으로 할당표집(Quota Sampling)을 주로 활용하고 있다. 할당표집은 조사할 모집단의 특성을 잘 반영한다고 판단되는 변인별로 조사할 표본수를 미리 할당하여 조사하는 방법을 의미한다. 즉 할당변인을 교차한 할당표라는 것을 만든 후, 이를 근거로 조사하는 방법이다. 전국 1,000명을 조사한다고 했을 때, 가장 많이 활용하는 변인은 지역별, 성별, 연령대별인데 이를 근거로 한 할당표는 <1>과 같다. <1>은 매월 발표되는 주민등록인구통계(201712월 말 기준) 자료를 인구비례에 맞게 작성한 것으로 할당표집 조사에 있어 일종의 나침반같은 역할을 한다.

  할당표집에서 왜 지역별, 성별, 연령대별 변인을 주로 활용하는 것일까? 사실 지역별, 성별, 연령대별 할당은 조사업계에서는 너무나 당연한 것으로 받아들여져 왔다. 그래서인지 이에 대한 명확한 이유를 찾기는 어렵다. 그러나 리서치 실무를 담당하면서 느낀 현실적인 이유는 아래 세 가지 정도이다.

1. 정치나 사회에 대한 태도를 형성하는데 지역별, 성별, 연령대별 변인이 가장 기본적이면서 중요하다.
2. 매달 업데이트되는 주민등록인구통계를 통해 비교적 정확한 최신의 모집단 분포를 알 수 있다.
3. 할당표 차원에서 지역별, 성별, 연령대별 변인 구간을 곱하면 160개의 셀이 나오는데, 그 외에 할당 변인을 추가할 경우 셀이 너무 많아져 사실상 셀별 할당이 어려워진다.

  지역별, 성별, 연령대별 할당표집에 문제가 없는 것은 아니다. 비확률표집(Nonprobability Sampling)이라는 문제는 차치하고서라도 조사 방법별로 선택편향(Selection Bias) 문제로 지역별, 성별, 연령대별 이외의 다른 사회경제적 변인에서 편향이 나타날 수 있다는 게 일반적인 지적이다. 대표적으로 거론되는 것이 학력과 직업의 편향 문제이다. 지역별, 성별, 연령대별 변인만 할당으로 맞추어 조사하다보니, 학력이나 직업 변인이 모집단 분포와는 다르게 조사된다는 것이다. 조사 방법별 조금씩 차이는 있지만 실제로 전화조사나 웹조사를 기준으로 학력별로 대졸자 이상, 직업별로는 주부와 사무/관리직 비율이 과대 대표되는 게 현실이다.

  그렇다면 지역별, 성별, 연령대별 변인 외에 학력이나 직업도 할당 변인으로 추가할 수는 없는 것일? 실 학력과 직업을 할당 변인에 추가해야한다는 이야기는 여론조사의 대표성 문제를 제기하는 자리에서는 어김없이 나왔다. 그런데도 조사업계에서 이를 적용하지 못한 것은 지역별, 성별, 연령대별 변인과는 달리 학력이나 직업 변인의 경우 비교적 정확한 최신의 모집단 분포를 알 수 없었기 때문이다. 즉 만 19세 이상 일반국민을 기준으로 일반적인 여론조사에서 나누는 학력 분포(중졸이하, 고졸, 대졸이상) 직업 분포(//어업, 자영업, 판매/영업/서비스직, 생산/기능/노무직, 사무/관리/전문직, 전업주부, 학생, 무직/기타)의 비율을 참고할 만한 자료가 없거나 있어도 최신의 자료가 아니다 보니 사용할 수 없었다는 문제가 있었다.

  하지만 올해 초부터 통계청에서 '마이크로데이터(MD)'를 인터넷으로 무료 제공하기 시작하면서, 19세 이상 일반국민의 학력과 직업 분포를 알 수 있는 길이 열렸다. 즉 통계청에서 실시하는 조사 중에 매년 실시하면서 학력과 직업 변인이 포함된 조사의 마이크로데이터를 활용할 경우 비교적 정확하면서도 최신의 학력과 직업 분포를 유추할 수 있게 된 것이다. 통계청의 사회조사가 이러한 조건에 맞는 조사로 이 조사의 마이크로데이터를 만19세 이상 일반국민 비율에 맞게 가중치를 주고 분석해 본 결과, 2015년 기준 우리나라 만 19세 이상 일반국민의 학력과 직업 비율은 <2>와 같았다.

  이렇게 산출한 학력과 직업 비율 자료를 활용할 경우, 지역별, 성별, 연령대별 외에 학력과 직업이 할당 변인으로 반영된 여론조사가 가능해질 것으로 보인다. 한국리서치는 지금까지 5회에 걸쳐 웹조사 방식의 1,000명 일반국민 여론조사에 이 할당 방식을 적용하였고, 조만간 전화조사와 대면면접조사에도 적용할 계획이다. 물론 할당변인의 증가로 인해 조사의 난이도가 증가하는 문제는 여전히 해결해야 할 과제이다. 조사에 대한 협조율이 낮아지는 추세 속에서 할당 변인을 늘리는 것은 분명 조사 기간과 비용에도 영향을 주기 때문이다. 그러나 조사 결과의 편향을 줄이고, 대표성을 제고하기 위해서 할당표집 시 학력직업변인의 추가는 반드시 실현되어야 할 과제라고 생각한다.

<1> 1,000명 조사 기준 지역별·성별·연령별 할당표
                                                                                                                                                                                                       (단위: )
행정구역

합계
19-29
30-39
40-49
50-59
60세이상
전국
1,000
179
182
208
199
232
497
93
94
106
101
103
503
86
88
102
98
129
서울특별시
198
38
39
40
37
44
97
19
20
20
18
20
101
19
19
20
19
24
부산광역시
71
12
12
14
15
18
34
6
6
7
7
8
37
6
6
7
8
10
대구광역시
48
9
8
10
10
11
24
5
4
5
5
5
24
4
4
5
5
6
인천광역시
56
10
11
12
12
11
28
5
6
6
6
5
28
5
5
6
6
6
광주광역시
29
6
6
6
6
5
14
3
3
3
3
2
15
3
3
3
3
3
대전광역시
30
6
6
6
6
6
15
3
3
3
3
3
15
3
3
3
3
3
울산광역시
21
4
4
4
5
4
11
2
2
2
3
2
10
2
2
2
2
2
경기도
240
44
47
55
47
47
120
23
24
28
24
21
120
21
23
27
23
26
강원도
30
5
4
6
6
9
15
3
2
3
3
4
15
2
2
3
3
5
충청북도
29
5
5
6
6
7
15
3
3
3
3
3
14
2
2
3
3
4
충청남도
(세종시포함)
44
7
8
9
8
12
22
4
4
5
4
5
22
3
4
4
4
7
전라북도
37
6
6
7
7
11
19
3
3
4
4
5
18
3
3
3
3
6
전라남도
38
6
5
7
8
12
19
3
3
4
4
5
19
3
2
3
4
7
경상북도
53
8
8
10
11
16
26
4
4
5
6
7
27
4
4
5
5
9
경상남도
65
11
11
14
13
16
33
6
6
7
7
7
32
5
5
7
6
9
제주특별자치도
11
2
2
2
2
3
5
1
1
1
1
1
6
1
1
1
1
2


<2> 1,000명 조사 기준 학력과 직업 할당 표본 수와 비율

학력 비율

표본 수()
비율(%)
중졸이하
236
23.6
고졸
397
39.7
대졸이상
367
36.7
직업 비율

표본 수()
비율(%)
//어업
48
4.8
자영업
130
13.0
판매/영업/서비스
72
7.2
생산/기능/노무
156
15.6
사무/관리/전문
196
19.6
주부
212
21.2
학생
62
6.2
무직/기타
123
12.3