유권자 양극화가 깊어질수록, 가중은 성·연령·지역을 넘어야 한다
앞선 두 글에서, 유권자가 둘로 갈라지고 한쪽이 입을 닫으면
여론조사가 어떻게 빗나가는지, 그리고 6·3 지방선거의 전화조사가
왜 그 함정에 더 깊이 빠졌는지를 봤다. 한 줄로 줄이면 이렇다. 양극화가
깊어질수록 정확한 조사는 더 어려워진다.
문제는 우리가 그 오차를 바로잡으려고 기대는 도구다. 거의 모든
조사는 성·연령·지역 비율을 실제 인구에 맞추는 가중으로
표본을 보정한다. 그런데 양극화가 만드는 편향은 바로 이 인구 구성 바깥에서 생긴다. 그래서 성·연령·지역을
아무리 정교하게 맞춰도 정치적으로 기운 표본은 그대로 남는다. 가중 전략이 한 칸 올라서야 하는 이유가
여기에 있다.
가중이 하는 일과
못 하는 일
가중은 단순한 작업이다. 표본의 어떤 비율이 실제 인구와 다르면, 모자란 쪽 응답에 무게를 더 실어 비율을 맞춘다. 이게 제대로 작동하려면
두 가지가 필요하다. 하나, 맞춰야 할 ‘진짜 분포’를 알아야 한다. 둘, 그 변수를 응답자에게서 측정할 수 있어야 한다.
성·연령·지역은 두
조건을 모두 만족한다. 통계청 인구 자료라는 믿을 만한 기준이 있고,
응답자에게 물어보면 바로 나온다. 그래서 오래도록 가중의 기본이 됐다.
양극화는 인구 구성
바깥에서 샌다
그런데 양극화 국면의 무응답은 성·연령·지역으로 설명되지 않는 곳에서 발생한다. 같은 60대 영남 남성 안에서도, 어느 쪽을 지지하느냐에 따라 누구는 응답하고
누구는 전화를 끊는다. 빠져나간 사람과 남은 사람의 차이가 정치 성향에 걸려 있는데, 이 성향은 성·연령·지역과
나란히 가지 않는다.
게다가 인구 구성과 투표 선택의 연결이 예전보다 느슨해졌다. “이
세대, 이 지역이면 이 당”이라는 공식이 약해지면서, 인구 정보로 정치 성향을 대신 짐작하기가 더 어려워졌다. 두 가지가
겹치면 결과는 정해져 있다. 인구 구성을 완벽히 맞춘 표본도 정치적으로는 한쪽으로 쏠린 채 남는다. 앞 글의 그림에서 본 그대로다.
그래서 ‘정치적으로 정보가 있는’ 변수가 필요하다
해법의 방향은 어렵지 않다. 인구 정보만으로 잡히지 않는 편향이라면, 정치 성향과 직접 맞물린 변수를 가중에 넣어야 한다.
첫걸음은 보통 학력이다. 2016년 미국 대선에서 여러 조사가
빗나간 큰 이유 하나가 학력 가중을 빠뜨린 것이었다. 학력은 응답 성향과도, 투표 선택과도 강하게 엮여 있어서, 성·연령·지역만 맞추면 고학력 응답자가 과대 대표되기 쉽다. 학력을 가중에 더하는 것은 비교적 논란이 적은 한 칸이다.
그다음은 과거 투표나 이념 성향처럼 정치 신호를 더 직접 담은 변수다. 예를
들어 직전 선거에서 어디에 투표했는지를 물어, 그 분포를 실제 개표 결과에 맞추는 식이다. 이건 인구 정보가 놓치는 정치적 쏠림을 정면으로 겨냥한다.
그림 | 양극화가 깊어질수록 위
칸에서 아래 칸으로. 정확도를 얻는 대신 가정·분산·규제 부담이 커진다.
공짜가 아니다
다만 인구 구성을 넘어서는 순간, 가중은 더 까다로워진다.
먼저 기준 분포의 문제다. 성·연령·지역에는 통계청이라는 기준이 있지만, 정당 지지에는 그런 인구센서스가
없다. 과거 투표는 실제 개표라는 기준이 있어 그나마 낫지만, 사람들은
자기가 누구를 찍었는지 잘못 기억하거나 이긴 쪽에 투표했다고 답하는 경향이 있다. 잘못된 기준에 맞춰
무게를 실으면 편향을 줄이는 게 아니라 새 편향을 만든다.
다음은 분산이다. 가중 변수를 늘릴수록 소수 칸에 큰 무게가
실리고, 효과적인 표본 크기는 줄어든다. 추정치가 더 출렁이게
된다.
그리고 규제가 있다. 공표·보도되는
선거 여론조사는 가중에 쓰는 변수와 배율에 제약이 따른다. 하고 싶다고 아무 변수나 아무 배율로 가중할
수 있는 게 아니다.
그래서 모형 쪽으로
간다
변수를 하나씩 더하는 방식에는 한계가 있다. 칸을 잘게 쪼갤수록
칸마다 응답자가 부족해지기 때문이다. 그래서 최근의 흐름은 모형을 쓰는 쪽이다.
대표적인 게 다층회귀 사후층화(MRP)다. 투표 선택을 성·연령·지역·학력·과거투표 같은 여러 변수의 함수로 모형화한 뒤, 알려진 모집단 구성에 맞춰 다시 합산한다. 칸마다 응답자가 적어도
모형이 이웃 칸의 정보를 빌려 메운다. 응답 성향 자체를 모형으로 추정해 그 역수로 가중하는 방법도
같은 갈래다.
이 길은 가정이 늘고 계산이 무거워진다. 그래도 성·연령·지역이라는 좁은 틀에 갇히지 않는다는 점에서, 양극화가 깊은 환경에서는 점점 불가피한 선택이 되고 있다.
가중은 마지막 손질이지
출발점이 아니다
한 가지는 분명히 해 두자. 아무리 정교한 가중도 사후 처방이다. 한쪽이 통째로 빠진 자료를 뒤에서 완벽히 되살릴 수는 없다. 가중으로
메우는 양이 많아질수록, 그 결과는 자료가 아니라 가정에 더 기대게 된다.
그러니 가중 전략을 끌어올리는 일과 애초에 덜 빠지게 모으는 일은 함께 가야 한다. 어떤 통로로 접촉하는지, 어떤 사람이 끝까지 응답하는지를 바꾸면, 가중이 떠안아야 할 짐 자체가 줄어든다. 좋은 가중은 좋은 수집
위에서만 제 힘을 낸다.
정리
양극화가 깊어질수록 성·연령·지역만으로는
표본의 대표성을 지킬 수 없다. 가중은 인구 구성을 맞추는 데서 정치적 신호를 담는 쪽으로, 단순한 비율 맞추기에서 모형 기반으로 옮겨가야 한다. 다만 어떤
가중도 믿을 만한 기준과 충분히 좋은 자료가 받쳐줄 때만 작동한다. 더 똑똑한 보정과 더 나은 수집, 둘 중 하나만으로는 양극화가 만든 편향을 이길 수 없다.