유권자가 양극화되면 왜 여론조사가 더 자주 틀릴까
선거가 끝나면 빠지지 않는 말이 있다. “이번에도 여론조사가
빗나갔다.” 처방으로 흔히 나오는 게 표본을 더 키우자는 것이다.
1,000명이 모자라면 2,000명, 3,000명을
조사하자고. 그런데 유권자가 둘로 갈라진 상황에서는 표본을 늘려도 잘 맞지 않는다. 틀린 답이 오히려 더 단단해지기도 한다.
이유는 생각보다 단순하다. 조사가 틀리는 원인이 “몇 명한테 못 물었나”가 아니라
“누가 대답을 피했나”에 있기 때문이다.
같은 무응답, 다른 결과
간단한 상황을 가정해 보자. 어떤 도시의 유권자가 A 지지 50%, B 지지 50%로
정확히 반반이다. 조사 회사가 전화를 돌린다.
양쪽이 비슷하게 응답하는 평범한 상황이라면 받은 답도 대체로 반반이 된다.
조사 결과 50:50, 실제도 50:50. 잘
맞는다.
이제 분위기가 험악해졌다고 하자. B를 지지하는 사람들이 “내 생각을 굳이 말하고 싶지 않다”며 전화를 끊거나 모름이라고 답한다. A 지지자는 여전히 잘 응답한다. 전화를 건 사람 수는 똑같다. 그런데 실제로 답한 사람만 모아 보면 A가 부풀려진다. 받은 답이 A 62%, B 38%처럼 한쪽으로 쏠린다. 실제는 여전히 반반인데 조사는 A가 앞선다고 말한다. 사라진 12%포인트는 응답을 피한 쪽이 통계에서 빠지면서 생긴 착시다.
그림 | 실제 지지율이 50:50으로 같아도, B진영이 응답을 피하면 조사 결과가 12%포인트 어긋난다.
표본을 키워도 안
되는 이유
표본을 2배로 늘리면 어떻게 될까. 응답을 피하는 성향이 그대로라면 더 많은 A 지지자와 더 적은 B 지지자를 똑같은 비율로 더 모을 뿐이다. 같은 방향으로 틀린 숫자가
더 정밀해진다. 틀린 과녁을 더 촘촘히 맞히는 셈이다. 표본
크기는 우연한 흔들림은 줄여 주지만, 한쪽이 빠져서 생긴 치우침은 줄이지 못한다.
가중을 줘도 다
못 잡는다
“그러면 가중치로 보정하면
되지 않나” 싶을 것이다. 조사 회사는 성별·연령·지역 비율을 실제 인구에 맞춰 표본을 보정한다. 응답자 중 20대가 적게 나오면
20대 한 명의 답에 무게를 더 싣는 식이다.
문제는 이 보정이 인구 구성만 맞춘다는 데 있다. 같은 60대 안에서도 어느 진영 지지자가 더 많이 답했는지는 성·연령·지역 가중으로 되돌릴 수 없다. 양극화가 심해지면 “60대니까 이쪽을 찍겠지” 같은 짐작이 깨진다. 그래서 인구 구성이 완벽하게 맞춰진 표본도 정치적으로는 한쪽으로 기운 채 남는다.
숨은 표심이 더한다
한쪽 선택이 사회적으로 눈치 보이는 분위기가 되면 응답자는 속마음을 숨기거나 모름으로 답한다. 전화를 안 받는 사람만 빠지는 게 아니라, 받은 사람도 진짜 답을
내놓지 않는 것이다. 응답 회피와 답 숨기기가 같은 방향으로 겹치면 치우침은 더 커진다.
조금 더 정확히 쓰면, 무응답이 만드는 편향은 대략 이렇다.
편향 ≈
Cov(응답확률, 지지후보) ÷ 평균 응답확률
응답확률과 지지가 따로 놀면(공분산이 0이면) 무응답이 아무리 많아도 편향은 작다. 양극화는 이 둘을 엮어 공분산을 키운다. 그래서 같은 무응답률에서도
편향이 커진다.
양극화 시기의 조사를
읽는 법
양극화가 심한 때의 여론조사를 읽을 때는 숫자 하나만 보지 말고 누가 빠졌을지를 같이 봐야 한다. 응답률이 얼마였는지, 어떤 방식(전화
면접·ARS·모바일 웹)으로 조사했는지, 모름·무응답이 얼마나 쌓였는지가 그 숫자의 믿음직함을 가른다. 표본이 크다고 안심할 일이 아니라, 한쪽이 조용히 빠져나가지 않았는지부터
의심하는 게 순서다.
댓글 없음:
댓글 쓰기