결국 과거 투표였다: 사회경제 변수 가중의 실패기
요즘 여론조사를 보는 사람들이 공통으로 품는 의심이 있다. 여당 지지가 실제보다 높게, 제1야당 지지가 실제보다 낮게 나오는 것 아니냐는 것이다. 조사하는 사람 입장에서 이 의심은 불쾌하지만 근거가 없지 않다. 응답이라는 행위 자체가 선택이고, 누가 응답을 선택하는지가 표본의 정치적 구성을 결정하기 때문이다. 문제는 처방이다. 성, 연령, 지역이야 할당과 가중으로 맞춘다 치고, 그다음에 무엇을 더 맞춰야 이 쏠림이 잡히는가.
직관적인 답은 사회경제적 배경이다. 학력이 높은 사람, 사무직, 자가 보유자가 과대 표집된다면 교육수준이나 직업이나 주택 변수를 가중에 추가하면 되지 않겠는가. 나도 그렇게 생각했고, 그래서 자체 조사 데이터로 하나씩 확인해 봤다. 결론을 먼저 말하면, 쏠림은 실재했고 보정은 작동했는데 정치 지표는 꿈쩍도 하지 않았다.
쏠림은 분명히 있다
벤치마크는 통계청 2025년 사회조사를 썼다. 만 18세 이상 가구원 3만 2천여 명에 가구원가중값을 적용하면 국내에서 구할 수 있는 가장 믿을 만한 인구·사회 분포가 나온다. 여기에 자체 휴대전화 웹조사(전국 만 18세 이상 2,530명, 성·연령·지역 가중)를 비교했다. 비교 변수는 일부러 할당에 쓰지 않은 것들로만 골랐다. 할당 변수의 일치는 설계의 결과일 뿐 대표성의 증거가 아니기 때문이다.
결과는 교과서적이었다. 경제활동 비율은 벤치마크와 0.4%p 차이로 사실상 일치했고, 가구소득 분포도 저소득층이 5.8%p 덜 잡힌 것 외에는 구간별로 잘 붙었다. 자영업 비중은 0.2%p 차이로 거의 정확했다. 반면 교육수준은 고졸 이하가 벤치마크보다 12.8%p 적었고, 직업에서는 사무·관리·전문직이 8.8%p 많고 생산·기능·노무직이 8.1%p 적었다. 고학력 화이트칼라 쏠림이다. 서울 지역 조사에서는 자가 거주자가 사회조사 서울 기준(48.4%)보다 7%p 가까이 많이 잡힌 표본도 있었다. 자기선택형 웹조사에서 늘 보고되는 패턴이고, 전화조사라고 다르지 않다.
그런데 보정해도 아무 일도 일어나지 않는다
여기까지 보면 처방은 자명해 보인다. 교육, 소득, 직업을 림가중 차원에 추가하면 된다. 실제로 했다. 성×연령 12셀과 지역 7권역은 기존 목표를 유지하고 교육 3구간, 가구소득 4구간, 직업 7구분을 사회조사 분포에 맞춰 레이킹을 돌렸다. 수렴은 깔끔했고 가중 효율 손실도 유효표본 90%에서 78%로 감당할 만했다.
그리고 국정평가는 0.2%p, 정당지지는 0.3%p 움직였다. 대선 투표 회상도 0.3%p 안에서 멈췄다. 12.8%p짜리 교육 쏠림을 전부 걷어냈는데 정치 지표는 측정오차 수준에서 끝난 것이다. 움직인 것은 이념성향(진보가 1.8%p 감소)과 주식투자 경험(4.2%p 감소)뿐이었는데, 둘 다 방향이 이론과 일치한다. 고학력층이 더 진보적이고 주식투자는 소득·교육과 직결되니, 림가중 자체는 정확히 작동했다는 뜻이다.
서울시장 선거 관련 조사 두 건에서도 같은 실험을 반복했다. 주택 점유형태를 사회조사 서울 분포에 맞추고, 주택소유 여부는 벤치마크가 약해서 목표값을 48%에서 59%까지 시나리오로 움직여 봤다. 후보 가상대결 지지율의 변화는 어떤 시나리오에서도 1%p 안팎이었고, 점유형태 기준으로는 오히려 보수 후보가 미세하게 깎이는 역방향이 나왔다. 표본이 자가 거주자를 과대 표집하고 있었기 때문이다. 부동산이 의제인 선거에서조차 주택 변수 가중은 판을 못 움직였다.
왜 안 움직이는가
산수는 단순하다. 가중으로 추정치가 움직이려면 두 조건이 동시에 성립해야 한다. 추가하는 변수에서 표본과 모집단이 어긋나 있어야 하고, 기존 가중을 통제한 뒤에도 그 변수가 종속변수와 상관이 남아 있어야 한다. 사회경제 변수들은 첫째 조건은 충족했지만 둘째에서 무너졌다. 한국 정치 태도의 분산은 연령이 압도적으로 흡수한다. 성과 연령과 지역을 이미 맞춘 표본에서 같은 연령대의 고졸과 대졸은, 유주택자와 무주택자는, 정당 선호가 생각만큼 다르지 않다. 그리고 고학력 쏠림은 진보 응답자와 보수 응답자 양쪽에서 비슷한 비율로 일어난다. 구성을 바꿔도 비율이 안 바뀌는 이유다.
뒤집어 말하면, 여론조사의 당파적 쏠림은 학력이나 자산을 경유해서 생기는 현상이 아니다. 정치적 관여와 당파성 그 자체의 차원에서 생긴다. 지금 국면에서는 정권 지지층이 조사에 더 적극적으로 응한다는 요인까지 겹친다. 인구·사회경제 변수는 이 차원을 비껴간다. 비유하자면 열이 나는 환자에게 체중을 맞추는 옷을 입히는 셈이다.
움직이는 것은 과거 투표뿐이다
같은 데이터에 대선 투표 회상을 가중 차원으로 추가하면 이야기가 달라진다. 표본의 회상 분포를 실제 개표 결과에 맞추는 순간 정당지지는 두 자릿수 %p가 이동했고, 그 이동은 거의 전부 양당 사이에서 일어났다. 무당층과 소수 정당은 거의 흔들리지 않았다. 보정이 표본을 뒤엎는 게 아니라 양당 회상층의 비율만 재조정한다는 뜻이다. 서울 조사에서도 후보 가상대결 격차가 크게 좁혀졌다. 사회경제 변수 다섯 개를 갈아 넣어도 1%p가 안 나오던 자리에서, 회상 변수 하나가 6~13%p를 움직였다.
이게 우연이 아닌 것이, 과거 투표는 두 가지 점에서 특별하다. 첫째, 개표 결과라는 행정 기준값이 존재하는 유일한 정치 변수다. 교육이나 소득의 벤치마크는 결국 다른 조사의 추정치지만 득표율은 추정치가 아니다. 둘째, 당파적 응답 선택이라는 문제의 발생 차원에 직접 닿아 있다. 퓨리서치가 ATP 패널을 정당일체감, 유권자 등록, 자원봉사로 캘리브레이션하는 것, 영국 조사업계가 1992년 총선 참사 이후 과거 투표 가중을 표준 도구로 정착시킨 것 모두 같은 결론의 다른 표현이다.
다만 회상은 거짓말을 한다
물론 공짜는 아니다. 과거 투표 회상에는 잘 알려진 두 가지 오염이 있다. 하나는 투표율 과대보고다. 내 데이터에서 비투표 응답은 9% 수준이었는데 실제 기권율은 20%가 넘었다. 다른 하나는 승자 쏠림 허위 회상이다. 시간이 지나면 패자에게 투표한 사람의 일부가 승자에게 투표했다고, 혹은 투표하지 않았다고 답하게 된다. 영국에서 2017년 직후 41%였던 노동당 투표 회상이 2년 뒤 같은 패널에서 한참 낮아진 것이 유명한 사례다.
그래서 적용 방식이 중요하다. 내가 정착시키려는 원칙은 이렇다. 첫째, 투표율은 건드리지 않는다. 기권을 인정한 소수가 전체 기권자의 대표라는 보장이 없으므로, 비투표·모름 칸은 표본 비율을 그대로 목표값으로 두고 투표층 내부의 후보 구성만 실제 득표율 비례로 맞춘다. 둘째, 회상의 질을 문항에서 끌어올린다. 무기명 투표 프레임, 기억나지 않음 보기, 그리고 "투표하려 했지만 사정이 생겨 못 했다" 같은 체면 유지 보기가 기권 인정률을 올린다는 것은 벨리 연구진 이래 반복 검증된 결과다. 셋째, 반복 조사라면 선거 직후 웨이브에서 받아둔 투표 응답을 패널로 고정해 회상 이동 자체를 차단한다. 유고브와 오피니엄이 쓰는 방식이다. 넷째, 단일 수치를 고집하지 않는다. 기본 가중과 당파 보정 가중을 나란히 제시하면 진실이 들어 있을 구간이 나오고, 그 구간 보고가 어느 한쪽 수치보다 정직하다. 허위 회상이 승자 쪽으로 쏠리는 만큼 당파 보정값은 보수 진영의 하한이 아니라 상한에 가까울 수 있다는 단서도 함께 단다.
마지막으로 제도적 단서 하나. 공표용 선거 여론조사는 성, 연령, 지역 외의 가중이 허용되지 않는다. 과거 투표 가중은 비공표 기획조사와 내부 분석의 도구이지 공표 조사의 도구가 아니다. 그러나 바로 그 비공표 영역에서, 우리가 매일 보는 공표 수치들이 어느 방향으로 얼마나 쏠려 있을 수 있는지를 측정하는 자가 더 정확한 판단을 내린다.
정리하자. 사회경제 변수 가중은 표본의 인구·사회적 대표성을 점검하고 전시하는 데에는 유용하다. 그러나 여론조사의 당파적 쏠림을 교정하는 데에는 무력하다는 것이 내 데이터가 세 번 반복해서 보여준 결과다. 쏠림이 생기는 차원에 보정을 걸어야 하고, 그 차원의 이름은 과거 투표 행태다. 1992년의 영국이 도달했던 결론에 2026년의 우리가 자기 데이터로 다시 도달하고 있는 셈이다.