림가중치를 막는 0.7~1.5 캡, 추가 보정을 막는 이중 공표
2025년 12월 18일 개정되어 2026년 1월 1일부터 시행되는 선거여론조사기준은 가중치에 관해 두 개의 조항을 둔다. 제5조의 가중값 배율 한계(성·연령·지역 각각 0.7~1.5)와 제14조의 가중치 산출·적용 방법 등록 의무다. 두 조항 모두 객관성과 신뢰성을 확보하려는 의도로 설계되었지만, 현재 형태로는 한국 폴링이 국제 표준 방법론을 도입하지 못하게 만드는 제도적 장벽으로 작동한다.
0.7~1.5 캡과 림가중치의 충돌
한국 실무에서 0.7~1.5 한계는 보통 성×연령×지역 셀 단위 가중치에 적용된다. 림가중치(raking, IPF)는 각 주변분포(margin)를 모집단에 맞추기 위해 셀 가중치가 자유롭게 변동하는 것을 전제하는 알고리즘이다. 7~10개 차원에서 각각 1.2배, 0.85배 같은 온건한 조정만 곱해져도 셀 가중치가 0.5나 2.0을 쉽게 넘어간다. 셀 단위 캡과 다차원 림가중치는 수학적으로 양립이 어렵다.
Pew Research Center의 American Trends Panel은 보통 성, 연령, 인종/에스니시티, 학력, 지역(census division), 도시/비도시, 정당등록, 자원봉사 참여, 시민참여, 인터넷 이용빈도 등 8~11개 변수에서 raking을 한다. 트림은 보통 0.3~3 또는 0.25~4 수준에서 잡고, DEFF(design effect from weighting)를 사후에 공개한다. 한국 기준의 0.7~1.5는 Pew 트림 폭의 약 1/3~1/4 수준이고, 가중 변수 수도 3개로 못 박혀 있다.
이 캡은 분산과 편의 사이에서 분산 쪽으로 강하게 기운 선택이다. 명목상 이유는 극단 가중치로 인한 분산 폭증 방지와 가중치 조작을 통한 결과 왜곡 방지다. 그 대가로 2016년 이후 미국·영국·호주 폴링이 학습한 내용, 특히 학력 가중치 누락이 체계적 편의를 만든다는 발견을 한국 제도가 흡수할 수 있는 구조가 아니게 됐다. 한국에서도 학력별 지지 패턴 차이가 작지 않은데, 학력 가중치를 추가하려면 캡을 위반하거나 기존 변수 중 하나를 빼야 한다.
제5조 제2항이 마련한 우회 통로(두 조사 결과를 합쳐서 분석하면 캡 적용 안 함)도 있지만, 단일 표본에서의 림가중치 문제를 푸는 도구가 아니다. 합산이 가능한 상황에서만 작동하고, 분석 경위와 방법을 별도 공개해야 해서 실무 부담도 크다.
이중 공표 의무가 추가 보정을 페널티화한다
제14조 제3항과 제18조 제2항의 조합이 두 번째 문제다. 인구학 가중치(성·연령·지역) 외에 과거 투표 보정, 후보자 득표율 보정, 응답유보층 분석 등 추가 보정을 수행한 경우 양쪽 결과를 모두 등록·공표해야 한다.
이 규정은 인구학 가중을 "객관적 기준"으로, 그 외 보정을 "추가 해석"으로 보는 위계를 전제한다. 통계적으로는 성립하지 않는 전제다. 모든 가중치는 모델이다. 성·연령·지역 가중도 "응답자를 모집단 분포에 맞추면 추정 정확도가 올라간다"는 가정에 기댄 모델이고, 학력 가중이나 과거 투표 보정과 통계적 지위가 동일하다. Pew, ANES, BES, YouGov 어디도 "원시 인구학 가중 결과"와 "최종 모델 결과"를 병렬로 공표하지 않는다. 가장 정확하다고 판단하는 단일 추정치를 발표하고, 방법론 디테일은 별도 문서에서 투명하게 공개한다.
규정은 표면상 추가 보정을 허용하는 것처럼 보이지만, 실제로는 추가 보정을 수행한 조사기관에 페널티를 부과한다. 같은 조사에서 후보 A 38% vs B 35%(원시)와 A 36% vs B 38%(보정)이 동시에 발표되면, 매체는 자기 프레임에 맞는 쪽을 골라 헤드라인을 잡는다. 일반 독자는 두 추정치의 방법론적 차이를 분별할 도구가 없다. "같은 조사인데 결과가 다르다, 조사 자체를 못 믿겠다"는 결론으로 가게 된다. 합리적인 조사기관의 균형점은 "추가 보정을 안 하는 게 평판상 안전하다"가 되고, 정확도 향상 노력이 평판 리스크가 되는 구조가 만들어진다.
한국적 함의는 더 크다. 응답유보층 분석과 과거 투표 보정은 한국 ARS·웹 환경에서 추정 정확도에 가장 크게 기여하는 보정 방법이다. 유보율이 20~30%에 달하고 정파별 응답 의향에 체계적 차이가 있는 환경에서, 이 두 보정 없이 발표하는 숫자는 사실상 "원시 응답에 인구학 보정만 입힌 값"이다. 그런데 정확히 이 두 방법이 이중 공표 의무의 대상으로 지정되어 있다. 미국식 likely-voter 모델링이나 영국식 turnout adjustment가 한국에서 자리 잡지 못한 가장 큰 제도적 장벽이 여기에 있다.
TSE 분류에 들어가지 않는 한국 특유의 오차원
이 두 조항이 만들어내는 효과는 Total Survey Error 프레임의 표준 분류에 들어가지 않는다. 표본 추출 오차, 미응답 오차, 측정 오차 같은 표준 분류 외에, 규제로 인해 조사기관이 더 정확한 방법론을 채택하지 못하고 덜 정확한 방법론을 선택하게 되는 오차가 추가로 발생한다. Regulatory-Induced Methodology Distortion이라 부를 만하다.
이 오차원은 미국·유럽 TSE 문헌에 등장하지 않는다. 그 나라들에서는 가중치 방법론이 학회와 조사기관 자율로 발전하기 때문이다. 한국에서는 심의위 고시가 가중치 자유도를 직접 제한하기 때문에, 제도 설계 자체가 추정 정확도의 상한을 결정한다. 한국 표본추출틀 문제(통계청이 표본 조사구 정보를 민간 조사기관에 제공하지 않는 구조)와 함께, 한국 폴링의 정확도 한계를 만드는 두 개의 제도적 요인이다.
제도 설계 대안
캡 조항부터 보면, 셀 단위 0.7~1.5 캡은 두 단계로 분리하는 게 합리적이다. 주변분포 단위 캡(예: 성·연령·지역 각 주변분포에서 조정 비율 0.7~1.5)을 두고, 셀 단위는 트림 한계만 명시(예: 0.3~3)하면서, DEFF를 등록 자료에 의무 공개하도록 한다. 이 구조라면 림가중치도 적용 가능하고, 조작 방지·분산 통제 목표도 유지할 수 있다. AAPOR Best Practices의 투명성 원칙과도 부합한다.
이중 공표 의무는 등록·공개 단계와 공표 단계를 분리하는 게 자연스럽다. 모든 가중·보정 방법은 심의위 홈페이지에 등록·공개하되, 조사기관이 단일 "주 추정치(primary estimate)"를 지정하고, 보조 추정치는 등록 자료에 포함되지만 공표 의무 대상에서는 빼는 구조다. 투명성은 등록·공개 단계에서 확보하고, 공표 단계에서는 의사결정자에게 단일 숫자가 전달된다. 지금 규정은 투명성과 공표 의무를 같은 것으로 취급하고 있는데, 이 둘은 별개의 규제 도구로 다뤄야 한다.
지금 형태로 시행되는 가중치 규정은 1990~2000년대 폴링 방법론을 한국에 고정시킨다. 그 기간 동안 국제 폴링은 다차원 raking, 학력 가중, propensity 보정, likely-voter 모델링 등을 표준으로 흡수했다. 한국 폴링이 그 발전을 따라가지 못하는 첫 번째 이유가 시장이나 기술 부족이 아니라 제도라면, KORA, 한국조사연구학회, WAPOR Asia 채널에서 의제로 다뤄질 만하다. 조사기관이 신뢰성 있는 추정치를 만들 자유가 있어야 신뢰성 있는 결과를 공표할 수 있다. 지금 규정은 자유를 제한하면서 신뢰성을 요구한다.
댓글 없음:
댓글 쓰기