2026년 6월 27일 토요일

재미있는 샘플매칭 이야기

재미있는 샘플매칭 이야기
약효를 재던 통계 도구가 어떻게 여론조사 표집 방법이 되었나

여론조사 업계에서 샘플매칭이라고 하면 보통 유고브(YouGov)의 간판 기술로 통한다. 비확률 온라인 패널을 가지고 전화조사 못지않은, 때로는 더 정확한 추정치를 만들어 낸다는 그 방법이다. 그런데 이 방법을 두고 흔히 오해하는 게 하나 있다. 유고브가 무에서 발명한 독자 기법이라는 생각이다. 사실은 그렇지 않다. 샘플매칭은 통계학에서 이미 수십 년간 쓰이던 도구를 옮겨 온 것이다.
더 흥미로운 것은 빌려 온 출처다. 우리가 표집을 배울 때 나오는 표본조사론이 아니다. 샘플매칭의 뿌리는 인과추론, 그중에서도 약이나 정책의 효과를 추정하는 관찰연구(observational study)에 있다. 무작위 실험이 불가능한 상황에서 편향을 걷어 내려고 만든 통계 도구가, 어느 순간 여론조사 표집 방법으로 변신했다. 이 변신이 어떻게 일어났는지, 그리고 그 변신이 성립하려면 무엇이 필요한지를 차례로 정리해 본다.
표집이 아니라 인과추론에서 왔다
관찰연구의 문제는 이렇게 생겼다. 어떤 약을 먹은 사람들과 먹지 않은 사람들의 건강 상태를 그냥 비교하면 약효를 알 수 없다. 약을 먹기로 한 사람들은 애초에 건강을 더 챙기는 사람들일 수도 있고, 반대로 이미 아파서 약을 먹은 사람들일 수도 있다. 두 집단이 출발선부터 다르기 때문에, 나중에 나타난 차이가 약 때문인지 원래 차이 때문인지 구분되지 않는다. 무작위 배정이라면 이 문제가 사라진다. 동전을 던져 약을 줄지 말지 정하면 두 집단이 평균적으로 같아지기 때문이다. 그러나 현실의 관찰 데이터에는 동전 던지기가 없다.
매칭은 이 곤란을 푸는 오래된 처방이다. 약을 먹은 사람 한 명마다, 먹지 않은 사람 중에서 나이, 성별, 소득, 평소 건강 상태처럼 관찰 가능한 특성이 비슷한 사람을 골라 짝지어 비교한다. 비슷한 사람끼리 비교하면 출발선의 차이가 줄어들고, 남는 차이를 약효로 읽을 수 있다는 발상이다.
이 발상을 통계 이론으로 세운 사람이 도널드 루빈(Donald Rubin)이다. 1973년 논문 “Matching to Remove Bias in Observational Studies”와 1974년의 잠재적 결과(potential outcomes) 틀이 출발선이고, 그 앞에는 윌리엄 코크런(William Cochran)이 1950~60년대에 다듬어 둔 관찰연구의 매칭과 층화 작업이 있다. 그리고 1983년, 폴 로젠바움(Paul Rosenbaum)과 루빈이 함께 쓴 성향점수(propensity score) 논문이 결정적이었다. 나이, 성별, 소득, 건강 상태 같은 특성을 하나하나 맞추는 대신, 처치를 받을 확률 하나로 요약해서 그 확률이 같은 사람끼리 짝지어도 편향이 제거된다는 사실을 증명한 것이다.
이 방법들이 똑같이 깔고 있는 가정이 하나 있다. 무작위성을 가정해도 좋다는 의미의 무시가능성(ignorability)이다. 관찰된 특성을 통제하고 나면, 처치를 받았는지 여부가 결과와 무관해진다는 가정이다. 기호로 쓰면 처치 여부와 잠재적 결과가 특성 X를 조건으로 독립이라는 뜻이다. 이 가정이 성립하는 한, 무작위 실험이 아니어도 매칭만으로 인과효과를 추정할 수 있다. 반대로 이 가정이 깨지면 아무리 정교하게 매칭해도 편향이 남는다. 뒤에서 보겠지만 샘플매칭의 운명도 바로 이 가정에 걸려 있다.
정치학자가 만든 표집 방법
이 인과추론 도구를 여론조사로 옮긴 사람이 더글러스 리버스(Douglas Rivers)다. 그의 이력에는 작은 반전이 있다. 통계 방법론을 자유자재로 다루는 사람이라 당연히 통계학 박사일 것 같지만, 그는 정치학자다. 컬럼비아대에서 학사를, 하버드대에서 1981년에 정치학 박사를 받았고, 칼텍과 UCLA를 거쳐 1989년부터 스탠퍼드대 정치학과 교수로 있다.
정치학자가 어떻게 표집 방법을 만들었을까 싶지만, 그가 발 담근 분야를 보면 이상한 일이 아니다. 리버스의 연구 영역은 정치학 안에서도 가장 계량적인 정치방법론(political methodology)이었다. 이산선택모형, 공간투표이론, 선거 데이터의 추정 문제처럼 사실상 계량경제학이나 통계학과 경계가 없는 주제들이다. 1980년대 정치방법론은 계량경제학에서 도구를 대거 빌려 오던 시기였고, 리버스는 그 한가운데에 있었다. 인과추론과 추정 이론에 깊이 들어가 있던 계량정치학자였기에, 루빈과 로젠바움의 매칭 도구를 자기 것처럼 쓸 수 있었다.
그는 학계에만 머물지 않았다. 1990년대 후반 실리콘밸리에서 회사를 두 개 세웠고, 이후 폴리메트릭스(Polimetrix)라는 여론조사 회사를 창업했다. 이 회사가 샘플매칭을 개발했으며, 2007년 유고브가 약 1,700만 달러에 인수했다. 리버스는 지금 유고브의 수석과학자(Chief Scientist)로 이 회사의 방법론 전반을 책임지고 있다. 방법의 원전은 그가 2007년 미국통계학회 연례회의(Joint Statistical Meetings)에서 발표한 논문 “Sampling for Web Surveys”다.
리버스가 알아챈 것은 이것이다. 옵트인 패널이 안고 있는 문제가 관찰연구의 문제와 구조가 똑같다는 사실이다. 관찰연구에서는 누가 처치집단에 들어갈지가 무작위로 정해지지 않아 모집단과 어긋난다. 옵트인 패널에서는 누가 패널에 가입할지가 무작위가 아니라 자기선택으로 정해져 모집단과 어긋난다. 두 문제는 화근이 같다. 무작위가 아닌 선택이다. 그래서 처방도 같다. 관찰된 특성으로 짝을 맞추고, 그 짝짓기를 무시가능성이라는 동일한 가정으로 떠받친다. 리버스는 패널 가입 자체를 일종의 처치로 본 셈이다. 누군가 온라인 패널에 자원해 들어왔다는 사실은, 관찰연구에서 누군가 약을 먹기로 했다는 사실과 통계적으로 같은 자리에 놓인다.
실제로 어떻게 매칭하는가
절차 자체는 의외로 깔끔하다. 네 단계로 정리된다.
1. 먼저 좋은 표집틀을 잡는다. 미국이라면 인구조사 자료(ACS)나 유권자 등록 파일처럼 모집단을 잘 대표하는 고품질 프레임이다.
2. 그 틀에서 확률표본을 뽑는다. 이것이 타깃 표본이다. 원래대로라면 면접하고 싶은 이상적인 응답자 명단이지만, 정작 이 사람들은 패널에 없어 면접할 수 없다.
3. 타깃 표본의 각 사람마다 패널 안에서 특성이 가장 가까운 패널원을 찾는다. 최근접 이웃 매칭이다.
4. 이렇게 매칭된 패널원들이 실제 응답자가 된다.
여기서 관건은 타깃 표본의 정체다. 타깃은 실제로 면접한 사람이 아니라, 모집단에서 무작위로 뽑은 가상의 명단이다. 일종의 합성된 확률표본인 셈이다. 인과추론의 매칭이 처치집단을 비교집단에 맞춘다면, 유고브는 거꾸로 손에 들고 있는 패널을 이 무작위 가상 명단에 맞춘다. 리버스와 베일리(Rivers & Bailey, 2009)는 여기서 한 걸음 더 나아가, 합성된 대표 표집틀을 만들고 거기서 타깃을 뽑는 방식을 정식화했다.
매칭 변수가 충분히 풍부해서 X를 조건으로 걸면 패널 가입 여부가 응답값과 무관해진다면, 다시 말해 무시가능성이 성립한다면, 이렇게 만든 표본은 확률표본처럼 작동한다. 리버스의 시뮬레이션이 보여 준 것이 그것이다. 매칭된 표본의 추정량은 패널에서 무작위로 일부를 뽑아 가중하는 방식보다 우수했고, 표본 분포는 모집단에서 단순무작위표집을 한 경우와 비슷했다. 2006년 미국 의회 선거에 적용했을 때는, 옵트인 웹 패널에서 샘플매칭으로 얻은 추정치가 RDD 전화면접 추정치보다 더 정확했다.
자주 헷갈리는 부분을 하나 정리하고 넘어가자. 유고브의 원래 샘플매칭은 성향점수 매칭과 같지 않다. 성향점수 매칭은 여러 특성을 점수 하나로 압축한 다음 그 점수가 비슷한 처치 대상과 비교 대상을 짝짓는다. 반면 유고브는 점수로 압축하지 않고 특성 거리로 직접 짝을 찾으며, 처치와 비교가 아니라 패널과 타깃을 짝짓는다. 다만 비확률표본을 다루는 또 다른 갈래인 유사가중(pseudo-weighting) 방식은 성향점수 모형을 그대로 가져다 쓴다. 비확률표본과 참조 확률표본을 합쳐 표본에 포함될 확률을 추정하고 그 역수로 가중하는 식이다. 그래서 비확률표집 추론이라는 큰 집안은 모두 로젠바움과 루빈의 후손이라 할 만한데, 유고브는 매칭이라는 갈래를, 발리언트나 엘리엇 같은 연구자들은 성향가중이라는 갈래를 택한 차이로 보면 된다.
작동을 좌우하는 두 조건
이론이 이렇게 깔끔해도, 실제로 작동하려면 패널이 두 가지를 갖춰야 한다. 매칭 변수가 풍부해야 하고, 그 정보가 현행화되어 있어야 한다. 둘은 비슷해 보이지만 서로 다른 종류의 요구이고, 각각 다른 종류의 실패를 막아 준다.
먼저 변수가 풍부해야 하는 까닭은 앞서 본 무시가능성 가정이 통째로 여기에 걸려 있기 때문이다. 패널 가입이 응답과 무관해지려면, 조건으로 거는 변수 X가 패널 가입과 응답값을 동시에 좌우하는 요인을 빠짐없이 담아야 한다. 변수가 빈약하면 조건을 걸어도 자기선택이 남는다. 인구통계 몇 개로만 매칭하면, 같은 40대 남성 안에서도 정치 고관여층만 패널에 들어와 있는 편향을 잡지 못한다. 유고브가 매칭에 쓰는 변수가 단순 인구통계를 훌쩍 넘어서는 까닭이다. 정당일체감, 과거 투표 행태, 이념 성향, 관심사, 미디어 소비 습관, 거기에 유권자 파일에서 끌어온 행정 변수까지 패널 프로필에 쌓아 둔다. 매칭 변수가 풍부할수록 무시가능성 가정도 그만큼 믿을 만해진다.
여기에는 긴장이 하나 숨어 있다. 변수를 늘릴수록 가정은 그럴듯해지지만, 동시에 차원의 저주 탓에 좋은 짝을 찾기가 어려워진다. 패널이 아무리 커도 변수가 수십 개로 늘어난 고차원 공간에서는 모든 타깃마다 가까운 이웃을 대 줄 수 없다. 그래서 실무는 가정을 강하게 만들 만큼 충분한 변수와 매칭이 실제로 가능한 차원 사이에서 타협한다. 거리함수를 어떻게 설계할지, 어떤 변수에 가중을 둘지, 근사 매칭을 어디까지 받아들일지가 모두 이 타협의 산물이다. 변수는 많아야 하지만 무한정 많을 수도 없다.
현행화가 필요한 까닭은 종류가 다르다. 매칭이 타당한가의 문제가 아니라, 매칭 변수를 언제 측정했는가의 문제다. 패널 프로필이 2년 전 값이라면, 매칭은 2년 전의 그 사람에게 맞춰진다. 정치 변수는 특히 시간에 민감하다. 2년 전 무당층이 지금은 특정 정당 지지자가 되어 있을 수 있고, 그사이 거주지나 직업이나 관심사가 바뀌었을 수 있다. 타깃 표본은 오늘의 모집단을 대표하는데 매칭 키가 과거 값이면, 오늘 기준으로는 엉뚱한 사람을 가까운 이웃으로 착각해 뽑게 된다. 측정 오차가 아니라 시점이 어긋나서 생기는 편향이다.
특히 고약한 것은 역설이다. 자주 변하는 변수일수록 매칭에서 가장 중요한 변수이기도 하다. 성별이나 출생연도는 변하지 않지만 매칭 정보로서의 가치는 낮다. 정당 지지, 후보 선호, 시사 관심, 정책 태도는 자주 변하면서 동시에 결과변수와 가장 강하게 연결된 변수다. 그러니 현행화 부담이 가장 큰 변수가 하필 매칭에 가장 절실한 변수에 몰린다. 유고브가 패널을 주기적으로 재접촉해 프로필을 갱신하고, 잘 변하지 않는 프레임 변수와 자주 갱신해야 하는 태도 변수를 따로 관리하는 것이 이 구조 때문이다.
두 조건을 한 문장으로 합치면 이렇게 된다. 풍부함은 올바른 차원에서 짝짓고 있는가를 보장하고, 현행성은 올바른 시점의 값으로 짝짓고 있는가를 보장한다. 둘 중 하나만 채워서는 다른 쪽 구멍으로 편향이 새어 든다. 변수가 풍부해도 낡았으면 과거에 대한 정밀한 매칭일 뿐이고, 최신이어도 빈약하면 현재에 대한 거친 매칭일 뿐이다.
매칭으로 잡히지 않는 것
샘플매칭의 한계는 대부분 무시가능성 가정으로 되돌아온다. 이 가정은 검증할 수가 없다. 패널 가입과 응답을 동시에 좌우하는 요인을 빠짐없이 담았는지를 데이터만 보고 확인할 방법이 없기 때문이다. 인구통계로 아무리 잘 매칭해도, 태도나 행동 차원의 자기선택까지 잡아 준다는 보장은 없다. 온라인 패널에 자원하는 사람은 인구통계로는 드러나지 않는 방식으로 일반 국민과 다를 수 있다. 정치에 관심이 유난히 많거나, 의견을 드러내고 싶은 욕구가 강하거나, 설문 보상에 민감하거나, 단지 남는 시간이 많은 사람일 수도 있다. 이것이 모든 비확률 방법을 향한 근본적인 비판이고, 샘플매칭도 예외가 아니다.
그래서 유고브도 매칭만으로 끝내지 않는다. 매칭으로 응답자를 고른 뒤, 사후층화 가중을 한 번 더 걸어 남은 불균형을 보정한다. 매칭이 일차 방어선이라면 가중이 이차 방어선인 셈이다. 그리고 이 방법이 늘 이기는 것도 아니다. 2006년 의회 선거에서는 전화조사를 앞섰지만, 이후 여러 선거에서 온라인 패널 기반 추정이 빗나간 사례도 적지 않다. 어떤 방법도 무시가능성이 깨지는 상황을 완전히 면제받지는 못한다.
한국에서는 무엇이 달라지는가
여기까지 오면 한국 적용의 문제가 보인다. 유고브 모델은 두 개의 인프라를 깔고 서 있다. 대규모 상시 패널과, 개인 단위 행정 정보를 담은 유권자 파일이다. 미국은 후자를 가지고 있다. 유권자 등록 파일에 인구통계와 과거 투표 참여 기록 같은 변수가 붙어 있어서, 패널원과 모집단 양쪽에 풍부한 매칭 키를 공급한다. 유고브 샘플매칭의 변수 풍부함은 상당 부분 이 외부 파일에서 나온다.
한국에는 이런 공개 프레임이 사실상 없다. 개인 단위 행정 변수를 외부에서 끌어다 매칭 키를 불릴 길이 막혀 있다는 뜻이다. 그러면 풍부함이라는 조건을 패널 내부에 프로필을 쌓아 올리는 방식만으로 채워야 한다. 가입 시점과 이후 조사에서 응답자에게 직접 물어 모은 정보가 거의 전부가 된다. 외부에서 사 오는 대신 내부에서 길러야 하는 구조다.
문제는 이 구조가 두 조건을 동시에 압박한다는 데 있다. 매칭 키를 내부 축적에만 의존하면, 변수의 풍부함도 패널 운영에 달리고 현행화 부담도 패널 운영에 달린다. 게다가 한국에서 가장 중요한 매칭 변수인 정치 변수는 가장 자주 변하는 변수이기도 해서, 갱신을 게을리하면 곧바로 시점 불일치 편향으로 이어진다. 미국에서는 외부 파일이 일부 떠받쳐 주던 짐을, 한국에서는 패널 운영 한 곳이 거의 다 떠안아야 한다.
여기에 통신사 마케팅 수신 동의 고객에게 SMS를 보내 모바일 웹조사로 응답을 받는 구조라면, 매칭 변수의 출처와 갱신 설계가 한층 더 중요해진다. 표집틀의 성격이 미국식 유권자 파일과 다른 만큼, 샘플매칭의 논리를 그대로 옮기기보다 어떤 변수를 어떻게 확보하고 언제 갱신할지를 한국 데이터 환경에 맞춰 다시 설계해야 한다. 방법을 수입하기는 쉽지만, 방법이 기대고 선 인프라까지 수입하기는 쉽지 않다.
샘플매칭의 이야기에서 오래 남는 것은 방법 자체보다 그 출신이다. 약효를 재려고 만든 도구가 여론조사 표집으로 건너온 것은, 두 문제가 같은 모양을 하고 있다는 사실을 알아본 한 사람의 눈 덕분이었다. 그리고 그 눈은 표집을 전공한 사람이 아니라 인과추론에 익숙했던 정치학자의 것이었다. 방법론에서 도약은 종종 분야와 분야 사이의 빈틈에서 나온다. 한국 조사 환경에 맞는 다음 도약도, 어쩌면 표집론 바깥에서 건너올지 모른다.
참고 문헌
Cochran, W. G., & Rubin, D. B. (1973). Controlling Bias in Observational Studies: A Review. Sankhyā: The Indian Journal of Statistics, Series A, 35(4), 417–446.
Rivers, D. (2007). Sampling for Web Surveys. Proceedings of the Joint Statistical Meetings, Section on Survey Research Methods. American Statistical Association.
Rivers, D., & Bailey, D. (2009). Inference from Matched Samples in the 2008 U.S. National Elections. Proceedings of the Joint Statistical Meetings, Section on Survey Research Methods.
Rosenbaum, P. R., & Rubin, D. B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika, 70(1), 41–55.
Rubin, D. B. (1973). Matching to Remove Bias in Observational Studies. Biometrics, 29(1), 159–183.
Rubin, D. B. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), 688–701.

통신 3사 웹조사라고 다 믿을 일은 아니다

 

통신 3사 웹조사라고 다 믿을 일은 아니다

가장 이상적인 방식일수록, 라벨만 흉내 내기 쉽다.

통신 3사 가입자를 표집틀로 쓴 웹조사라는 설명을 들으면 마음이 놓인다. 특정 회사 회원도, 일부 가입자도 아니고 이동통신 가입자 전체를 덮는 틀처럼 들리기 때문이다. 의뢰자에게 이 한 줄은 강한 신뢰 신호다. 그런데 라벨과 실제 사이에는 생각보다 넓은 틈이 있을 수 있다.

먼저 인정할 건 인정하자. 통신 3사를 아우르는 타겟 문자 웹조사는 방법론적으로 가장 바람직한 축에 든다. 조사자가 명단에서 대상을 골라 보내는 통제된 추출이면서, 세 통신사를 합치면 틀이 거의 전체 가입자에 닿는다. 누구를 부를지 통제하는 일과 틀을 넓게 잡는 일을 동시에 해내는, 모바일 조사가 지향할 만한 형태다. 그러니 이 라벨이 믿음직하게 들리는 데에는 이유가 있다.

문제는 이 이상을 세 통신사 모두에 대해 진짜로 구현하기가 현실적으로 매우 어렵다는 점이다. 통신사마다 조사용 문자 발송을 받아주는 조건이 다르고, 직접 계약이 열리는 곳과 대행사를 거쳐야만 하는 곳이 갈리며, 한 번에 보내야 하는 최소 물량 같은 제약도 붙는다. 1,000명 규모의 조사에서 세 통신사에 표본을 고르게 배분해 발송하는 일은, 비용으로 보나 구조로 보나 좀처럼 맞아떨어지지 않는다. 그래서 실제로는 한 통신사 쪽으로 쏠리기 쉽다.

여기서 의심의 단서가 나온다. 가장 어려운 방식을 쉽고 깔끔하게 한다고 내세우면, 한 번 멈춰야 한다. 어려운 걸 쉽게 한다는 말은, 실제로는 다른 걸 하고 있을 가능성을 품기 때문이다.

라벨은 그대로인데 표본은 전혀 다른 경우가 흔하다. 하나는 사실상 한 통신사 가입자만 썼으면서 ‘3라는 틀의 이름만 빌리는 경우다. 커버리지가 한쪽으로 쏠려 있지만 겉으로는 드러나지 않는다. 다른 하나는 문자로 골라 보내는 게 아니라 앱 안에 설문을 띄워 자원자를 받은 경우다. 이용자가 포인트를 보고 스스로 들어온 자기선택 표본인데, ‘웹조사라는 말로 뭉뚱그려진다. 앞은 통제된 추출이지만 틀이 좁고, 뒤는 틀을 따질 것도 없이 표본을 응답자 본인이 정한다. 같은 라벨 아래 성격이 정반대인 표본이 들어앉는 셈이다.

라벨 하나, 그 아래 갈라지는 표본들.

그래서 라벨이 아니라 표본이 어떻게 만들어졌는지를 물어야 한다. 세 통신사를 정말 다 썼는지, 각각 몇 명인지, 문자로 골라 보냈는지 아니면 앱에서 자원받았는지, 발송 대비 응답률은 얼마인지. 진짜로 3사 타겟 문자 웹조사를 했다면 이 질문들에 숫자로 답할 수 있다. 답이 두루뭉술하거나통신 3사 표집틀이라는 말만 반복된다면, 그 조사는 라벨이 약속한 것과 다른 물건일 수 있다.

가장 이상적인 방식일수록 흉내 내기 좋은 라벨이 된다. 통신 3사 웹조사라는 말이 주는 안심은 거저 주어지지 않는다. 그 안심이 정당한지는, 라벨 아래에서 표본이 어떻게 모였는지를 확인한 다음에야 말할 수 있다.

2026년 6월 26일 금요일

유권자 양극화가 깊어질수록, 가중은 성·연령·지역을 넘어야 한다

 

유권자 양극화가 깊어질수록, 가중은 성·연령·지역을 넘어야 한다

 

앞선 두 글에서, 유권자가 둘로 갈라지고 한쪽이 입을 닫으면 여론조사가 어떻게 빗나가는지, 그리고 6·3 지방선거의 전화조사가 왜 그 함정에 더 깊이 빠졌는지를 봤다. 한 줄로 줄이면 이렇다. 양극화가 깊어질수록 정확한 조사는 더 어려워진다.

문제는 우리가 그 오차를 바로잡으려고 기대는 도구다. 거의 모든 조사는 성·연령·지역 비율을 실제 인구에 맞추는 가중으로 표본을 보정한다. 그런데 양극화가 만드는 편향은 바로 이 인구 구성 바깥에서 생긴다. 그래서 성·연령·지역을 아무리 정교하게 맞춰도 정치적으로 기운 표본은 그대로 남는다. 가중 전략이 한 칸 올라서야 하는 이유가 여기에 있다.

가중이 하는 일과 못 하는 일

가중은 단순한 작업이다. 표본의 어떤 비율이 실제 인구와 다르면, 모자란 쪽 응답에 무게를 더 실어 비율을 맞춘다. 이게 제대로 작동하려면 두 가지가 필요하다. 하나, 맞춰야 할진짜 분포를 알아야 한다. , 그 변수를 응답자에게서 측정할 수 있어야 한다.

·연령·지역은 두 조건을 모두 만족한다. 통계청 인구 자료라는 믿을 만한 기준이 있고, 응답자에게 물어보면 바로 나온다. 그래서 오래도록 가중의 기본이 됐다.

양극화는 인구 구성 바깥에서 샌다

그런데 양극화 국면의 무응답은 성·연령·지역으로 설명되지 않는 곳에서 발생한다. 같은 60대 영남 남성 안에서도, 어느 쪽을 지지하느냐에 따라 누구는 응답하고 누구는 전화를 끊는다. 빠져나간 사람과 남은 사람의 차이가 정치 성향에 걸려 있는데, 이 성향은 성·연령·지역과 나란히 가지 않는다.

게다가 인구 구성과 투표 선택의 연결이 예전보다 느슨해졌다. “이 세대, 이 지역이면 이 당이라는 공식이 약해지면서, 인구 정보로 정치 성향을 대신 짐작하기가 더 어려워졌다. 두 가지가 겹치면 결과는 정해져 있다. 인구 구성을 완벽히 맞춘 표본도 정치적으로는 한쪽으로 쏠린 채 남는다. 앞 글의 그림에서 본 그대로다.

그래서정치적으로 정보가 있는변수가 필요하다

해법의 방향은 어렵지 않다. 인구 정보만으로 잡히지 않는 편향이라면, 정치 성향과 직접 맞물린 변수를 가중에 넣어야 한다.

첫걸음은 보통 학력이다. 2016년 미국 대선에서 여러 조사가 빗나간 큰 이유 하나가 학력 가중을 빠뜨린 것이었다. 학력은 응답 성향과도, 투표 선택과도 강하게 엮여 있어서, ·연령·지역만 맞추면 고학력 응답자가 과대 대표되기 쉽다. 학력을 가중에 더하는 것은 비교적 논란이 적은 한 칸이다.

그다음은 과거 투표나 이념 성향처럼 정치 신호를 더 직접 담은 변수다. 예를 들어 직전 선거에서 어디에 투표했는지를 물어, 그 분포를 실제 개표 결과에 맞추는 식이다. 이건 인구 정보가 놓치는 정치적 쏠림을 정면으로 겨냥한다.

그림 | 양극화가 깊어질수록 위 칸에서 아래 칸으로. 정확도를 얻는 대신 가정·분산·규제 부담이 커진다.

공짜가 아니다

다만 인구 구성을 넘어서는 순간, 가중은 더 까다로워진다.

먼저 기준 분포의 문제다. ·연령·지역에는 통계청이라는 기준이 있지만, 정당 지지에는 그런 인구센서스가 없다. 과거 투표는 실제 개표라는 기준이 있어 그나마 낫지만, 사람들은 자기가 누구를 찍었는지 잘못 기억하거나 이긴 쪽에 투표했다고 답하는 경향이 있다. 잘못된 기준에 맞춰 무게를 실으면 편향을 줄이는 게 아니라 새 편향을 만든다.

다음은 분산이다. 가중 변수를 늘릴수록 소수 칸에 큰 무게가 실리고, 효과적인 표본 크기는 줄어든다. 추정치가 더 출렁이게 된다.

그리고 규제가 있다. 공표·보도되는 선거 여론조사는 가중에 쓰는 변수와 배율에 제약이 따른다. 하고 싶다고 아무 변수나 아무 배율로 가중할 수 있는 게 아니다.

그래서 모형 쪽으로 간다

변수를 하나씩 더하는 방식에는 한계가 있다. 칸을 잘게 쪼갤수록 칸마다 응답자가 부족해지기 때문이다. 그래서 최근의 흐름은 모형을 쓰는 쪽이다.

대표적인 게 다층회귀 사후층화(MRP). 투표 선택을 성·연령·지역·학력·과거투표 같은 여러 변수의 함수로 모형화한 뒤, 알려진 모집단 구성에 맞춰 다시 합산한다. 칸마다 응답자가 적어도 모형이 이웃 칸의 정보를 빌려 메운다. 응답 성향 자체를 모형으로 추정해 그 역수로 가중하는 방법도 같은 갈래다.

이 길은 가정이 늘고 계산이 무거워진다. 그래도 성·연령·지역이라는 좁은 틀에 갇히지 않는다는 점에서, 양극화가 깊은 환경에서는 점점 불가피한 선택이 되고 있다.

가중은 마지막 손질이지 출발점이 아니다

한 가지는 분명히 해 두자. 아무리 정교한 가중도 사후 처방이다. 한쪽이 통째로 빠진 자료를 뒤에서 완벽히 되살릴 수는 없다. 가중으로 메우는 양이 많아질수록, 그 결과는 자료가 아니라 가정에 더 기대게 된다.

그러니 가중 전략을 끌어올리는 일과 애초에 덜 빠지게 모으는 일은 함께 가야 한다. 어떤 통로로 접촉하는지, 어떤 사람이 끝까지 응답하는지를 바꾸면, 가중이 떠안아야 할 짐 자체가 줄어든다. 좋은 가중은 좋은 수집 위에서만 제 힘을 낸다.

정리

양극화가 깊어질수록 성·연령·지역만으로는 표본의 대표성을 지킬 수 없다. 가중은 인구 구성을 맞추는 데서 정치적 신호를 담는 쪽으로, 단순한 비율 맞추기에서 모형 기반으로 옮겨가야 한다. 다만 어떤 가중도 믿을 만한 기준과 충분히 좋은 자료가 받쳐줄 때만 작동한다. 더 똑똑한 보정과 더 나은 수집, 둘 중 하나만으로는 양극화가 만든 편향을 이길 수 없다.

2026년 6월 25일 목요일

유권자 양극화 시대의 전화조사, 6·3 지방선거가 드러낸 것

 

유권자 양극화 시대의 전화조사, 6·3 지방선거가 드러낸 것

 

6·3 지방선거가 끝나고 익숙한 말이 다시 나왔다. “여론조사가 또 빗나갔다.” 서울시장처럼 끝까지 박빙으로 본 곳에서 예측이 어긋났고, 경남 같은 곳에서는 같은 시기 조사인데도 방식에 따라 두 자릿수 포인트씩 결과가 갈렸다. 막대한 비용을 들인 조사들이 왜 이렇게 흔들렸을까.

표본을 더 키우면 되지 않느냐는 처방이 흔히 나온다. 그런데 유권자가 둘로 갈라지고 한쪽이 입을 닫는 상황에서는 표본을 늘려도 잘 맞지 않는다. 틀린 답이 오히려 더 단단해지기도 한다. 조사가 흔들리는 원인이몇 명한테 못 물었나가 아니라누가 대답을 피했나에 있기 때문이다.

이 글은 먼저 그 원리를 간단한 그림으로 보이고, 그것이 6·3 지방선거의 전화조사 환경에서 왜 더 크게 작동했는지, 그리고 왜 단순한 처방으로는 풀기 어려운지를 정리한다.

같은 무응답, 다른 결과

간단한 상황을 가정해 보자. 어떤 도시의 유권자가 A 지지 50%, B 지지 50%로 정확히 반반이다. 조사 회사가 전화를 돌린다.

양쪽이 비슷하게 응답하는 평범한 상황이라면 받은 답도 대체로 반반이 된다. 조사 결과 50:50, 실제도 50:50. 잘 맞는다.

이제 분위기가 험악해졌다고 하자. B를 지지하는 사람들이내 생각을 굳이 말하고 싶지 않다며 전화를 끊거나 모름이라고 답한다. A 지지자는 여전히 잘 응답한다. 전화를 건 사람 수는 똑같다. 그런데 실제로 답한 사람만 모아 보면 A가 부풀려진다. 받은 답이 A 62%, B 38%처럼 한쪽으로 쏠린다. 실제는 여전히 반반인데 조사는 A가 앞선다고 말한다. 사라진 12%포인트는 응답을 피한 쪽이 통계에서 빠지면서 생긴 착시다.

그림 1 | 실제 지지율이 50:50으로 같아도, B진영이 응답을 피하면 조사 결과가 12%포인트 어긋난다.

표본을 키워도 안 되는 이유

표본을 2배로 늘리면 어떻게 될까. 응답을 피하는 성향이 그대로라면 더 많은 A 지지자와 더 적은 B 지지자를 똑같은 비율로 더 모을 뿐이다. 같은 방향으로 틀린 숫자가 더 정밀해진다. 틀린 과녁을 더 촘촘히 맞히는 셈이다. 표본 크기는 우연한 흔들림은 줄여 주지만, 한쪽이 빠져서 생긴 치우침은 줄이지 못한다.

6·3 지방선거는 전화조사에 불리한 환경이었다

이번 선거는 이 함정이 유난히 깊어지는 조건을 두루 갖추고 있었다.

첫째, 상대를 선이 아니라 악으로 규정하는 분위기가 강했다. 이런 구도에서는 한쪽 지지자가 자기 선택을 낯선 사람에게 밝히기를 꺼린다. 6·3 선거 분석에서도 보수 성향 유권자의 표심이 조사에 충분히 담기지 않았다는 진단이 여러 곳에서 나왔다. 이른바샤이 보수. 투표는 하되 조사에는 응하지 않거나 속내를 감추는 사람들이다.

둘째, 투표율이 낮아서가 아니라 높아서 생긴 문제도 있었다. 이번 지방선거 투표율은 61%로 역대 두 번째로 높았다. 양쪽 지지층이 강하게 결집했고, 한 정당에 일괄로 표를 몰아주던 줄투표가 줄면서 광역과 기초에서 서로 다른 당을 찍는 교차 투표가 늘었다. 결집과 교차가 함께 일어나면 조사로 잡아내야 할 그림이 그만큼 복잡해진다.

셋째, 그리고 이게 제일 중요한데, 전화조사는 응답률 자체가 매우 낮다. 최근 공개된 한 사례를 보면 같은 업체가 같은 기간에 돌린 조사인데도 전화면접 응답률은 10% 안팎, ARS 2% 안팎이었다. 100명에게 전화를 걸어 두세 명이 끝까지 답하는 구조다. 앞의 식으로 돌아가 보면, 편향은 무응답이 지지와 얼마나 엮였는가를 평균 응답확률로 나눈 값이다. 분모인 응답률이 이렇게 낮으면, 같은 정도의 치우침도 훨씬 큰 편향으로 부풀려진다.

그림 2 | 같은 무응답 쏠림이라도 응답률이 낮을수록 편향이 커진다. 전화면접( 10%) ARS( 2%)는 그 분모가 특히 작다.

그러니 응답률이 낮은 전화조사일수록, 어느 한쪽이 조금만 덜 응답해도 결과가 크게 흔들린다. 6·3에서 막대한 비용을 들인 조사들이 서울·경남·전북 같은 승부처에서 빗나간 데에는 이 구조가 깔려 있다.

전화면접과 ARS, 둘 다 다른 방향으로 샌다

그러면 응답률이 조금 더 높은 전화면접을 믿으면 되지 않나싶을 수 있다. 그런데 두 방식은 각자 다른 쪽으로 샌다.

전화면접은 면접원과 직접 통화한다. 상대를 악으로 모는 분위기에서는 응답자가 면접원 앞에서 속내를 잘 털어놓지 않는다. 대신 중도층이나 지지 정당이 없는 사람들이 상대적으로 끝까지 응답하는 경향이 있어, 결과가 여당 쪽으로 기우는 일이 잦다.

ARS는 기계음이 묻고 버튼으로 답한다. 익명성이 높아 속내를 덜 숨기지만, 끝까지 버튼을 누르는 사람은 정치에 관심이 아주 많은 사람들로 좁혀진다. 그래서 고관여층, 특히 결집한 보수층이 과하게 잡히기도 한다.

실제로 경남에서는 같은 시기 전화면접 조사가 한 후보의 두 자릿수 우세를 보인 반면, ARS 조사는 오차범위 안 접전으로 나왔다. 같은 유권자를 같은 주에 조사했는데 방식만 바꿨더니 그림이 달라진 것이다. 이럴 때 숫자만 봐서는 어느 쪽이 실제에 가까운지 가릴 수 없다. 두 방식 모두 자기 방향으로 치우쳐 있기 때문이다.

가중을 줘도 다 못 잡는다

그러면 가중치로 보정하면 되지 않나싶을 것이다. 조사 회사는 성별·연령·지역 비율을 실제 인구에 맞춰 표본을 보정한다. 응답자 중 20대가 적게 나오면 20대 한 명의 답에 무게를 더 싣는 식이다.

문제는 이 보정이 인구 구성만 맞춘다는 데 있다. 같은 60대 안에서도 어느 진영 지지자가 더 많이 답했는지는 성·연령·지역 가중으로 되돌릴 수 없다. 양극화가 심해지면 “60대니까 이쪽을 찍겠지같은 짐작이 깨진다. 그래서 인구 구성이 완벽하게 맞춰진 표본도 정치적으로는 한쪽으로 기운 채 남는다.

정당 지지나 과거 투표를 기준으로 가중을 더 주면 되지 않느냐는 의견도 있다. 방향은 맞지만 함정이 있다. 그 기준이 되는진짜 분포를 우리는 모른다. 더구나 큰 선거를 한 번 치르고 나면 지지의 바탕 자체가 출렁인다. 잘못된 기준에 맞춰 무게를 실으면 편향을 줄이는 게 아니라 다른 편향을 새로 만든다. 선거 여론조사는 정해진 기준을 벗어난 보정에 제약도 많다.

단순한 처방이 안 통하는 이유

정리하면 이렇다.

    표본을 키운다: 우연한 흔들림만 줄 뿐, 한쪽이 빠져 생긴 치우침은 그대로 남는다.

    ·연령·지역 가중: 인구 구성은 맞추지만 성향 쏠림은 못 잡는다.

    정당 지지·과거 투표 가중: 기준 분포가 불확실해 과보정 위험이 있다.

    전화면접과 ARS를 섞는다: 두 방식이 공유하는전화를 받고 끝까지 답하는 사람만 잡힌다는 자기선택은 사라지지 않는다.

    투표할 사람만 추린다(투표 의향 보정): 지방선거는 투표율 예측 자체가 불확실해 또 다른 가정을 얹는 일이 된다.

어느 것도 단독으로는 무응답이 성향과 엮여 생긴 편향을 깨끗이 지우지 못한다.

무응답이 만드는 편향은 대략 이렇게 쓸 수 있다.

편향 ≈ Cov(응답확률, 지지후보) ÷ 평균 응답확률

응답확률과 지지가 따로 놀면(공분산이 0이면) 무응답이 아무리 많아도 편향은 작다. 양극화는 이 둘을 엮어 분자를 키우고, 낮은 응답률은 분모를 줄인다. 전화조사가 양극화 국면에서 특히 약한 이유가 이 한 줄에 들어 있다.

그러면 무엇을 봐야 하나

양극화가 심한 때의 여론조사는 숫자 하나로 읽으면 안 된다. 먼저 누가 빠졌을지를 의심하는 게 순서다. 응답률과 접촉률이 얼마였는지, 어떤 방식으로 조사했는지, 모름·무응답이 얼마나 쌓였는지를 함께 봐야 한다. 한 조사의 한 숫자보다, 같은 시기 여러 조사가 그리는 분포와 그 분포가 한쪽으로 쏠려 있지 않은지를 보는 편이 안전하다.

방식을 고를 때도 마찬가지다. 전화를 받고 끝까지 답하는 사람만 모이는 구조 안에서는, 어떤 보정을 얹어도 빠져나간 사람을 완전히 되살리기 어렵다. 전화라는 통로 밖에서 응답자를 모으는 방식까지 함께 견줘 봐야 그림이 덜 일그러진다. 표본이 크다고 안심할 일이 아니다. 한쪽이 조용히 빠져나가지 않았는지부터 묻는 것, 양극화 시대의 조사를 읽는 일은 거기서 시작한다.

유권자가 양극화되면 왜 여론조사가 더 자주 틀릴까

 

유권자가 양극화되면 왜 여론조사가 더 자주 틀릴까


선거가 끝나면 빠지지 않는 말이 있다. “이번에도 여론조사가 빗나갔다.” 처방으로 흔히 나오는 게 표본을 더 키우자는 것이다. 1,000명이 모자라면 2,000, 3,000명을 조사하자고. 그런데 유권자가 둘로 갈라진 상황에서는 표본을 늘려도 잘 맞지 않는다. 틀린 답이 오히려 더 단단해지기도 한다.

이유는 생각보다 단순하다. 조사가 틀리는 원인이몇 명한테 못 물었나가 아니라누가 대답을 피했나에 있기 때문이다.

같은 무응답, 다른 결과

간단한 상황을 가정해 보자. 어떤 도시의 유권자가 A 지지 50%, B 지지 50%로 정확히 반반이다. 조사 회사가 전화를 돌린다.

양쪽이 비슷하게 응답하는 평범한 상황이라면 받은 답도 대체로 반반이 된다. 조사 결과 50:50, 실제도 50:50. 잘 맞는다.

이제 분위기가 험악해졌다고 하자. B를 지지하는 사람들이내 생각을 굳이 말하고 싶지 않다며 전화를 끊거나 모름이라고 답한다. A 지지자는 여전히 잘 응답한다. 전화를 건 사람 수는 똑같다. 그런데 실제로 답한 사람만 모아 보면 A가 부풀려진다. 받은 답이 A 62%, B 38%처럼 한쪽으로 쏠린다. 실제는 여전히 반반인데 조사는 A가 앞선다고 말한다. 사라진 12%포인트는 응답을 피한 쪽이 통계에서 빠지면서 생긴 착시다.

그림 | 실제 지지율이 50:50으로 같아도, B진영이 응답을 피하면 조사 결과가 12%포인트 어긋난다.

표본을 키워도 안 되는 이유

표본을 2배로 늘리면 어떻게 될까. 응답을 피하는 성향이 그대로라면 더 많은 A 지지자와 더 적은 B 지지자를 똑같은 비율로 더 모을 뿐이다. 같은 방향으로 틀린 숫자가 더 정밀해진다. 틀린 과녁을 더 촘촘히 맞히는 셈이다. 표본 크기는 우연한 흔들림은 줄여 주지만, 한쪽이 빠져서 생긴 치우침은 줄이지 못한다.

가중을 줘도 다 못 잡는다

그러면 가중치로 보정하면 되지 않나싶을 것이다. 조사 회사는 성별·연령·지역 비율을 실제 인구에 맞춰 표본을 보정한다. 응답자 중 20대가 적게 나오면 20대 한 명의 답에 무게를 더 싣는 식이다.

문제는 이 보정이 인구 구성만 맞춘다는 데 있다. 같은 60대 안에서도 어느 진영 지지자가 더 많이 답했는지는 성·연령·지역 가중으로 되돌릴 수 없다. 양극화가 심해지면 “60대니까 이쪽을 찍겠지같은 짐작이 깨진다. 그래서 인구 구성이 완벽하게 맞춰진 표본도 정치적으로는 한쪽으로 기운 채 남는다.

숨은 표심이 더한다

한쪽 선택이 사회적으로 눈치 보이는 분위기가 되면 응답자는 속마음을 숨기거나 모름으로 답한다. 전화를 안 받는 사람만 빠지는 게 아니라, 받은 사람도 진짜 답을 내놓지 않는 것이다. 응답 회피와 답 숨기기가 같은 방향으로 겹치면 치우침은 더 커진다.

조금 더 정확히 쓰면, 무응답이 만드는 편향은 대략 이렇다.

편향 ≈ Cov(응답확률, 지지후보) ÷ 평균 응답확률

응답확률과 지지가 따로 놀면(공분산이 0이면) 무응답이 아무리 많아도 편향은 작다. 양극화는 이 둘을 엮어 공분산을 키운다. 그래서 같은 무응답률에서도 편향이 커진다.

양극화 시기의 조사를 읽는 법

양극화가 심한 때의 여론조사를 읽을 때는 숫자 하나만 보지 말고 누가 빠졌을지를 같이 봐야 한다. 응답률이 얼마였는지, 어떤 방식(전화 면접·ARS·모바일 웹)으로 조사했는지, 모름·무응답이 얼마나 쌓였는지가 그 숫자의 믿음직함을 가른다. 표본이 크다고 안심할 일이 아니라, 한쪽이 조용히 빠져나가지 않았는지부터 의심하는 게 순서다.

2026년 6월 22일 월요일

정반대의 여론조사: 우리는 왜 믿고 싶은 숫자만 고르게 되었나

 

정반대의 여론조사: 우리는 왜 믿고 싶은 숫자만 고르게 되었나

6월 둘째 주에 나온 전국지표조사(NBS)에서 이재명 대통령의 국정운영 긍정 평가는 57%, 부정은 33%였다. 같은 주 한국갤럽도 긍정 57%, 부정 35%로 거의 같았다. 그런데 한 주 뒤 리얼미터 집계에서는 잘함 46%, 잘못함 51%로 부정이 앞섰다. 정당 지지도는 격차가 더 벌어진다. NBS는 더불어민주당 41% 대 국민의힘 25%, 갤럽은 41% 대 29%로 민주당이 두 자릿수 차이로 앞섰는데, 리얼미터에서는 민주당 40.1% 대 국민의힘 42.3%로 국민의힘이 역전한다.

세 조사 모두 "전국 만 18세 이상", "표본오차 ±3.1%포인트", "행정안전부 주민등록인구 기준 가중"이라는 같은 이력서를 달고 나왔다. 그런데 한쪽은 여당 우세, 다른 쪽은 야당 우세라는 정반대의 현실을 내놓는다.

숫자를 한 칸 더 열어 보면 차이가 어디서 오는지 분명해진다. 민주당 지지율은 NBS 41%, 갤럽 41%, 리얼미터 40.1%로 세 조사가 사실상 같다. 벌어지는 건 국민의힘이다. 전화면접인 NBS와 갤럽에서는 25%, 29%인데 ARS인 리얼미터에서는 42.3%다. 13~17%포인트 차이가 거의 전부 국민의힘 한 정당에서 발생한다. 무당층 규모도 전화면접에서 21~24%, ARS에서 15% 안팎으로 갈린다.

이 차이를 만드는 변수는 조사방법 하나다. NBS와 갤럽은 면접원이 직접 묻는 전화면접이고 응답률이 각각 26.0%, 11.3%다. 리얼미터는 기계가 묻는 ARS이고 응답률이 3.3%다. 100명에게 전화를 걸어 3명이 끝까지 답한 표본과, 11명에서 26명이 답한 표본은 응답자 구성이 다르다. 정치 관심이 높고 답할 동기가 강한 사람일수록 ARS에 남는다. ARS에서 국민의힘과 적극 지지층 응답이 두껍게 잡히는 까닭이다.

시차 때문 아니냐는 반론이 가능하다. 리얼미터는 6월 셋째 주, 나머지 둘은 둘째 주 조사다. 그러나 한 주 사이에 국민의힘 지지가 13~17%포인트 실제로 뛰었다고 보긴 어렵다. 갤럽의 최근 6개월 추이에서 국민의힘은 줄곧 18~29% 안에 있었다. 같은 기간 민주당 지지율이 세 조사에서 나란히 40~41%로 멈춰 있다는 사실도 시차 설명과 맞지 않는다. 한 주가 흘렀어도 움직인 건 국민의힘 숫자뿐이고, 그 움직임은 조사방법 경계와 정확히 겹친다.

문제는 이 두 숫자가 모두 "여론조사"라는 같은 이름으로 유통된다는 데 있다. 여당에 우호적인 사람은 NBS와 갤럽을, 야당에 우호적인 사람은 리얼미터를 인용한다. 같은 달에 대통령 긍정 57%와 46%가 동시에 존재하니, 인용하는 쪽은 자기 진영에 유리한 숫자를 고르기만 하면 된다. 정당 지지도도 민주당 우세본과 국민의힘 우세본이 둘 다 손에 들려 있다. 조사방법의 차이가 정파별 무기고로 바뀐 셈이다. 헤드라인만 보는 시민에게는 매주 두 개의 대한민국이 번갈아 제시된다.

여기서 보통의 유권자는 어느 쪽이 맞는지 판별할 도구가 없다. 그래서 신뢰가 방법론이 아니라 정파성에 닻을 내린다. 믿을 만한 조사를 고르는 게 아니라 믿고 싶은 결과를 고른다. 이게 지금 여론조사 소비의 실제 모습이다.

왜 판별 도구가 사라졌나. 전화면접 진영이 그 닻을 내려 주지 못했기 때문이다.

지난 몇 년간 전화면접 쪽의 공개 발언은 대부분 ARS 비판에 쏠려 있었다. 응답률이 한 자릿수로 낮고 정치 고관심층이 과대 대표된다는 지적이다. 방법론으로 보면 틀린 말이 아니다. 갤럽도 홈페이지에서 정치 고관심층 위주 조사가 전체 여론을 왜곡한다고, 조사방법이 다르면 결과도 다르다고 설명한다.

그런데 비판은 절반의 일이다. 나머지 절반은 "그래서 우리 방식이 선거를 더 정확히 맞혔다"는 실증인데, 전화면접 진영은 이걸 누적해 보여주지 못했다. 오히려 갤럽은 평소 정당 지지도는 선거 예측이 아니라고, 표본오차보다 작은 변동에 의미를 두지 말라고 미리 선을 긋는다. 옳은 주의 사항이다. 하지만 ARS의 정확성을 문제 삼으면서 정작 자기 조사는 정확성 평가의 무대에서 빠지겠다고 하면, 그 비판은 공중에 뜬다. 시민이 보기엔 "당신들 방식이 더 맞다는 증거는 어디 있느냐"는 물음에 답이 없는 것이다.

전화면접이 늘 옳았던 것도 아니다. 같은 전화면접인 NBS와 갤럽에서도 국민의힘이 25%와 29%로 4%포인트 갈린다. 전화면접 내부에도 편차가 있고, 선거 적중 기록 역시 진영의 주장만큼 완결돼 있지 않다. 이 부분은 실제 선거의 득표율과 사전 조사를 맞대어 본 별도의 점검이 필요하다. 다만 그 점검을 공개적으로, 반복적으로 떠안은 쪽이 전화면접 진영이었느냐고 물으면 답이 궁색해진다.

해법은 또 한 번의 ARS 비판이 아니다. 자기 조사 결과를 선거 결과 앞에 반복해서 올려놓고 검증받는 일이다. 그 기록이 쌓여야 시민의 신뢰가 정파성 말고 닻을 내릴 곳이 생긴다. 그 자리를 비워 둔 채 상대 방식만 깎아내리는 동안, 유권자는 합리적으로 고르는 법을 잃고 믿고 싶은 숫자만 고르는 습관을 들였다. 지금의 여론조사 불신은 ARS가 만든 것이 아니라, 전화면접 진영이 메우지 않은 빈자리가 만든 것이다.


자료 출처

  • 전국지표조사(NBS) 제182호, 2026년 6월 2주(6/8~10), 한국리서치·케이스탯리서치, 전화면접(통신사 가상번호), 응답률 26.0%, n=1,001
  • 한국갤럽 데일리 오피니언 제665호, 2026년 6월 2주(6/9~11), CATI(무선 가상번호), 응답률 11.3%, n=1,002
  • 리얼미터·에너지경제신문, 2026년 6월 3주(6/18~19), 무선 100% RDD ARS, 응답률 3.3%, n=1,001. 국정평가 수치는 정당지지도 교차표 base 기준

2026년 6월 12일 금요일

결국 과거 투표였다: 사회경제 변수 가중의 실패기

 

결국 과거 투표였다: 사회경제 변수 가중의 실패기

요즘 여론조사를 보는 사람들이 공통으로 품는 의심이 있다. 여당 지지가 실제보다 높게, 제1야당 지지가 실제보다 낮게 나오는 것 아니냐는 것이다. 조사하는 사람 입장에서 이 의심은 불쾌하지만 근거가 없지 않다. 응답이라는 행위 자체가 선택이고, 누가 응답을 선택하는지가 표본의 정치적 구성을 결정하기 때문이다. 문제는 처방이다. 성, 연령, 지역이야 할당과 가중으로 맞춘다 치고, 그다음에 무엇을 더 맞춰야 이 쏠림이 잡히는가.

직관적인 답은 사회경제적 배경이다. 학력이 높은 사람, 사무직, 자가 보유자가 과대 표집된다면 교육수준이나 직업이나 주택 변수를 가중에 추가하면 되지 않겠는가. 나도 그렇게 생각했고, 그래서 자체 조사 데이터로 하나씩 확인해 봤다. 결론을 먼저 말하면, 쏠림은 실재했고 보정은 작동했는데 정치 지표는 꿈쩍도 하지 않았다.

쏠림은 분명히 있다

벤치마크는 통계청 2025년 사회조사를 썼다. 만 18세 이상 가구원 3만 2천여 명에 가구원가중값을 적용하면 국내에서 구할 수 있는 가장 믿을 만한 인구·사회 분포가 나온다. 여기에 자체 휴대전화 웹조사(전국 만 18세 이상 2,530명, 성·연령·지역 가중)를 비교했다. 비교 변수는 일부러 할당에 쓰지 않은 것들로만 골랐다. 할당 변수의 일치는 설계의 결과일 뿐 대표성의 증거가 아니기 때문이다.

결과는 교과서적이었다. 경제활동 비율은 벤치마크와 0.4%p 차이로 사실상 일치했고, 가구소득 분포도 저소득층이 5.8%p 덜 잡힌 것 외에는 구간별로 잘 붙었다. 자영업 비중은 0.2%p 차이로 거의 정확했다. 반면 교육수준은 고졸 이하가 벤치마크보다 12.8%p 적었고, 직업에서는 사무·관리·전문직이 8.8%p 많고 생산·기능·노무직이 8.1%p 적었다. 고학력 화이트칼라 쏠림이다. 서울 지역 조사에서는 자가 거주자가 사회조사 서울 기준(48.4%)보다 7%p 가까이 많이 잡힌 표본도 있었다. 자기선택형 웹조사에서 늘 보고되는 패턴이고, 전화조사라고 다르지 않다.

그런데 보정해도 아무 일도 일어나지 않는다

여기까지 보면 처방은 자명해 보인다. 교육, 소득, 직업을 림가중 차원에 추가하면 된다. 실제로 했다. 성×연령 12셀과 지역 7권역은 기존 목표를 유지하고 교육 3구간, 가구소득 4구간, 직업 7구분을 사회조사 분포에 맞춰 레이킹을 돌렸다. 수렴은 깔끔했고 가중 효율 손실도 유효표본 90%에서 78%로 감당할 만했다.

그리고 국정평가는 0.2%p, 정당지지는 0.3%p 움직였다. 대선 투표 회상도 0.3%p 안에서 멈췄다. 12.8%p짜리 교육 쏠림을 전부 걷어냈는데 정치 지표는 측정오차 수준에서 끝난 것이다. 움직인 것은 이념성향(진보가 1.8%p 감소)과 주식투자 경험(4.2%p 감소)뿐이었는데, 둘 다 방향이 이론과 일치한다. 고학력층이 더 진보적이고 주식투자는 소득·교육과 직결되니, 림가중 자체는 정확히 작동했다는 뜻이다.

서울시장 선거 관련 조사 두 건에서도 같은 실험을 반복했다. 주택 점유형태를 사회조사 서울 분포에 맞추고, 주택소유 여부는 벤치마크가 약해서 목표값을 48%에서 59%까지 시나리오로 움직여 봤다. 후보 가상대결 지지율의 변화는 어떤 시나리오에서도 1%p 안팎이었고, 점유형태 기준으로는 오히려 보수 후보가 미세하게 깎이는 역방향이 나왔다. 표본이 자가 거주자를 과대 표집하고 있었기 때문이다. 부동산이 의제인 선거에서조차 주택 변수 가중은 판을 못 움직였다.

왜 안 움직이는가

산수는 단순하다. 가중으로 추정치가 움직이려면 두 조건이 동시에 성립해야 한다. 추가하는 변수에서 표본과 모집단이 어긋나 있어야 하고, 기존 가중을 통제한 뒤에도 그 변수가 종속변수와 상관이 남아 있어야 한다. 사회경제 변수들은 첫째 조건은 충족했지만 둘째에서 무너졌다. 한국 정치 태도의 분산은 연령이 압도적으로 흡수한다. 성과 연령과 지역을 이미 맞춘 표본에서 같은 연령대의 고졸과 대졸은, 유주택자와 무주택자는, 정당 선호가 생각만큼 다르지 않다. 그리고 고학력 쏠림은 진보 응답자와 보수 응답자 양쪽에서 비슷한 비율로 일어난다. 구성을 바꿔도 비율이 안 바뀌는 이유다.

뒤집어 말하면, 여론조사의 당파적 쏠림은 학력이나 자산을 경유해서 생기는 현상이 아니다. 정치적 관여와 당파성 그 자체의 차원에서 생긴다. 지금 국면에서는 정권 지지층이 조사에 더 적극적으로 응한다는 요인까지 겹친다. 인구·사회경제 변수는 이 차원을 비껴간다. 비유하자면 열이 나는 환자에게 체중을 맞추는 옷을 입히는 셈이다.

움직이는 것은 과거 투표뿐이다

같은 데이터에 대선 투표 회상을 가중 차원으로 추가하면 이야기가 달라진다. 표본의 회상 분포를 실제 개표 결과에 맞추는 순간 정당지지는 두 자릿수 %p가 이동했고, 그 이동은 거의 전부 양당 사이에서 일어났다. 무당층과 소수 정당은 거의 흔들리지 않았다. 보정이 표본을 뒤엎는 게 아니라 양당 회상층의 비율만 재조정한다는 뜻이다. 서울 조사에서도 후보 가상대결 격차가 크게 좁혀졌다. 사회경제 변수 다섯 개를 갈아 넣어도 1%p가 안 나오던 자리에서, 회상 변수 하나가 6~13%p를 움직였다.

이게 우연이 아닌 것이, 과거 투표는 두 가지 점에서 특별하다. 첫째, 개표 결과라는 행정 기준값이 존재하는 유일한 정치 변수다. 교육이나 소득의 벤치마크는 결국 다른 조사의 추정치지만 득표율은 추정치가 아니다. 둘째, 당파적 응답 선택이라는 문제의 발생 차원에 직접 닿아 있다. 퓨리서치가 ATP 패널을 정당일체감, 유권자 등록, 자원봉사로 캘리브레이션하는 것, 영국 조사업계가 1992년 총선 참사 이후 과거 투표 가중을 표준 도구로 정착시킨 것 모두 같은 결론의 다른 표현이다.

다만 회상은 거짓말을 한다

물론 공짜는 아니다. 과거 투표 회상에는 잘 알려진 두 가지 오염이 있다. 하나는 투표율 과대보고다. 내 데이터에서 비투표 응답은 9% 수준이었는데 실제 기권율은 20%가 넘었다. 다른 하나는 승자 쏠림 허위 회상이다. 시간이 지나면 패자에게 투표한 사람의 일부가 승자에게 투표했다고, 혹은 투표하지 않았다고 답하게 된다. 영국에서 2017년 직후 41%였던 노동당 투표 회상이 2년 뒤 같은 패널에서 한참 낮아진 것이 유명한 사례다.

그래서 적용 방식이 중요하다. 내가 정착시키려는 원칙은 이렇다. 첫째, 투표율은 건드리지 않는다. 기권을 인정한 소수가 전체 기권자의 대표라는 보장이 없으므로, 비투표·모름 칸은 표본 비율을 그대로 목표값으로 두고 투표층 내부의 후보 구성만 실제 득표율 비례로 맞춘다. 둘째, 회상의 질을 문항에서 끌어올린다. 무기명 투표 프레임, 기억나지 않음 보기, 그리고 "투표하려 했지만 사정이 생겨 못 했다" 같은 체면 유지 보기가 기권 인정률을 올린다는 것은 벨리 연구진 이래 반복 검증된 결과다. 셋째, 반복 조사라면 선거 직후 웨이브에서 받아둔 투표 응답을 패널로 고정해 회상 이동 자체를 차단한다. 유고브와 오피니엄이 쓰는 방식이다. 넷째, 단일 수치를 고집하지 않는다. 기본 가중과 당파 보정 가중을 나란히 제시하면 진실이 들어 있을 구간이 나오고, 그 구간 보고가 어느 한쪽 수치보다 정직하다. 허위 회상이 승자 쪽으로 쏠리는 만큼 당파 보정값은 보수 진영의 하한이 아니라 상한에 가까울 수 있다는 단서도 함께 단다.

마지막으로 제도적 단서 하나. 공표용 선거 여론조사는 성, 연령, 지역 외의 가중이 허용되지 않는다. 과거 투표 가중은 비공표 기획조사와 내부 분석의 도구이지 공표 조사의 도구가 아니다. 그러나 바로 그 비공표 영역에서, 우리가 매일 보는 공표 수치들이 어느 방향으로 얼마나 쏠려 있을 수 있는지를 측정하는 자가 더 정확한 판단을 내린다.

정리하자. 사회경제 변수 가중은 표본의 인구·사회적 대표성을 점검하고 전시하는 데에는 유용하다. 그러나 여론조사의 당파적 쏠림을 교정하는 데에는 무력하다는 것이 내 데이터가 세 번 반복해서 보여준 결과다. 쏠림이 생기는 차원에 보정을 걸어야 하고, 그 차원의 이름은 과거 투표 행태다. 1992년의 영국이 도달했던 결론에 2026년의 우리가 자기 데이터로 다시 도달하고 있는 셈이다.

재미있는 샘플매칭 이야기

재미있는 샘플매칭 이야기 약효를 재던 통계 도구가 어떻게 여론조사 표집 방법이 되었나 여론조사 업계에서 샘플매칭이라고 하면 보통 유고브(YouGov)의 간판 기술로 통한다. 비확률 온라인 패널을 가지고 전화조사 못지않은, 때로는 더 정확한 추정치를 만...