메소드서베이: 정치조사에 제곱근 할당을 쓰면 안 되는 이유

정치조사에 제곱근 할당을 쓰면 안 되는 이유

통계청 승인조사 표본설계서를 보면 시도별 표본 할당이 비례할당이 아니라 제곱근 할당(또는 그 변형)인 경우가 많다. 가계동향, 경활, 사회조사 모두 그렇다. 그래서 가끔 받는 질문이 있다. "그러면 전국 17개 시도 1000명짜리 정치조사도 제곱근 할당이 더 낫지 않나요?"

답은 "아니오"이고, 오히려 정반대다.

통계청 조사가 제곱근 할당을 쓰는 이유

통계청 승인조사의 1차 산출물은 시도별 공표통계다. 각 시도별로 정해진 CV 기준(예: 20% 이내)을 충족해야 한다. 비례할당으로 가면 인구가 적은 세종·제주·강원은 표본이 너무 적어서 이 기준을 못 맞춘다. 반대로 균등할당으로 가면 전국 추정 효율이 깨진다.

제곱근 할당, 즉 시도별 표본을 인구의 제곱근에 비례하게 배정하는 방식은 그 사이의 절충이다. Bankier(1988)의 power allocation에서 지수 p=0.5에 해당하고, Kish(1976)의 compromise allocation 논의에서 전국 분산과 도메인 분산의 가중평균을 동시에 최소화할 때 자연스럽게 도출되는 형태다. 즉 "여러 도메인의 동시 정밀도"가 핵심 제약일 때 쓰는 도구다.

정치조사 1000명에는 이 논리가 안 맞는다

정치조사 1000명은 산출물 정의 자체가 다르다.

첫째, 공표 단위가 다르다. 정치조사 1000명의 1차 산출물은 전국 단일 지지율이지 시도별 추정치가 아니다. 1000명을 17개 시도에 제곱근으로 분산시키면 작은 시도는 30~50명 수준인데, 이 정도 표본으로는 시도별 신뢰구간이 ±10%p를 훌쩍 넘어서 실용적 의미가 없다. 정치조사에서 실제로 의미 있는 분석 단위는 권역(수도권·충청·호남·대경·PK)이고, 권역 단위라면 비례할당으로도 권역당 100~500명이 확보된다.

둘째, DEFF가 깨진다. 정치조사는 거의 100% 시도×성×연령 셀별 사후가중을 적용한다. 제곱근 할당으로 표본을 뽑으면 모집단 비율 대비 작은 시도가 과대표집되어 있고, 사후가중에서 작은 시도의 가중치가 매우 작아지고 큰 시도(경기·서울)의 가중치가 커진다. 가중치 분산이 커지면 Kish의 DEFF 공식 1 + CV²(w)가 1.2~1.4 수준까지 올라가서, 1000명이 유효표본 700~800명으로 깎인다. 비례할당으로 뽑으면 self-weighting에 가까워서 DEFF가 1.05~1.15 정도에 머문다. 결과적으로 전국 추정의 정밀도가 제곱근 할당에서 오히려 떨어진다.

셋째, 관리해야 할 정밀도가 다른 곳에 있다. 통계청 조사는 시도별 CV가 공표 기준이다. 정치조사 1000명은 시도별 CV가 아예 관리 대상이 아니다. 관리 대상이 어디 있는지가 다른데 같은 할당 논리를 쓰면 안 된다.

여심위 규정이 비례할당을 제도적으로 강제한다

한국 정치조사에는 여기에 더해 제도적 제약이 걸린다. 「선거여론조사기준」 제5조(가중값 배율)는, 누구든지 선거여론조사를 실시할 때 조사지역 전체 유권자의 성별·연령대별·지역별 구성 비율을 기준으로 한 가중값 배율을 밝혀야 하며, 가중값 배율이 일정 범위에 있지 않은 결과를 공표·보도해서는 안 된다고 규정하고 있다. 그 범위는 성별 0.7~1.5, 연령대별 0.7~1.5, 지역별 0.7~1.5다.

규정의 적용 단위가 핵심이다. 가중값 배율은 차원별(성별·연령대별·지역별) 주변분포 가중값이지 응답자 ID별 누적 가중치가 아니다. 그러나 표본 할당의 거시적 한도는 차원별 가중값에서 직접 결정된다. 지역 차원 가중값이 0.7 이상이려면 표본비가 인구비의 1.43배(=1/0.7)를 초과할 수 없다. 이게 booster sampling의 상한이다.

1000명 정치조사에서 이 한도가 어느 정도인지 정량적으로 보면 이렇다. 제주는 인구비 1.3%로 비례할당 13명이 최대 19명까지 늘 수 있고(추가 +6명), 강원은 인구비 2.9%로 29명이 41명까지(+12명), 호남 권역은 인구비 9.8%로 98명이 140명까지(+42명) 늘릴 수 있다. 호남이 200명 가까이 갈 거라는 인상이 있지만 실제로는 140명에서 막힌다. 제주는 booster의 의미가 거의 없다. 동시에 ceiling 1.5도 양방향으로 작동해서 큰 시도에서 booster 재원을 빼올 자리도 좁다. 경기(인구비 25%)는 표본비 16.7% 미만으로 못 빼고, 서울(18%)은 12% 미만으로 못 뺀다.

이 정도 운용 폭이라면 "권역별 분석을 살리는 booster"가 아니라 floor 미세조정 수준의 비례할당에 더 가깝다.

RIM 가중이 사실상 강제된다

규정의 적용 단위가 차원별 주변분포라는 점은 또 한 번 결정적이다. 결합 셀 가중(cell weighting)을 쓰면 셀 가중값이 곧 ID 누적 가중치라서 작은 셀(예: 제주 60대 남성)의 응답 부족이 곧장 규정 위반으로 이어진다. RIM 가중은 차원별 주변분포만 맞추니까 차원별 가중값이 0.7~1.5 안에 있으면 되고, ID별 누적 가중치는 그 범위 밖으로 나가도 무방하다. 작은 셀의 변동을 차원별로 흡수할 수 있다.

결국 여심위 규정 안에서 정치조사 1000명의 가중 방식은 RIM에 가까운 형태로 수렴한다. 단순히 "셀별 극단치 방지" 때문이 아니라 규정의 박스를 ID가 아닌 차원에 적용시키는 방식으로서 RIM이 선택되는 것이다.

그러면 booster의 통계적 효익은 무엇인가

위에서 본 한도 안에서 booster를 하면 통계적으로 정확히 무엇이 좋아지는가. 답은 단순하다. 그 소지역 자체에 대한 추정의 분산 감소, 단 그것뿐이다. 그리고 한도 안에서는 그 효익조차 측정 가능한 수준으로 발현되지 않는다.

비율 p가 0.5일 때의 표준오차로 보면, 제주 비례할당 13명의 SE는 13.9%인데 booster 19명까지 가도 SE는 11.5%로 2.4%p 감소에 그친다. 호남도 비례할당 98명의 SE 5.0%가 booster 140명에서 4.2%로 0.8%p 줄어드는 정도다. 신뢰구간이 ±27%에서 ±22%로 좁아지는 수준인데, 보고서 시각화에서 사실상 구분되지 않는다. SE를 절반으로 줄이려면 표본을 4배 늘려야 하는데, 13명을 50명대로 끌어올리는 booster는 규정상 불가능하다.

게다가 booster 단위(소지역)와 분석 단위(권역)가 일치하지 않으면 효익이 분석으로 잘 전달되지 않는다. 호남 booster는 호남 권역 분석 SE를 약간 줄이지만, 제주·강원·세종 booster는 권역 분석에 거의 영향이 없다.

표본 할당의 통계적 최적해인 Neyman allocation은 시도별 표본을 인구와 분산의 곱에 비례하게 배정하는 방식이다. 그런데 정치조사 변수인 지지율의 시도별 분산은 어디서나 0.2~0.25로 비슷하다. 그러면 Neyman optimal이 사실상 비례할당으로 수렴한다. 단일 모수 추정에서는 비례할당 자체가 통계적 최적해이고, 거기서 벗어나는 booster는 전국 추정 측면에서 항상 손해다.

정리

표본 할당 방식은 도구가 아니라 산출물 정의의 함수다. 통계청 조사의 제곱근 할당이 합리적인 이유는 시도별 공표통계라는 산출물 때문이지 제곱근 할당이라는 형식 자체가 우월해서가 아니다. 같은 1000명짜리 조사라도 산출물이 전국 단일 추정인지, 권역별 비교인지, 시도별 추정인지에 따라 답이 완전히 달라진다.

정치조사 1000명은 그 중 첫 번째 케이스(권역별 비교 일부 포함)이고, 거기에 맞는 답은 비례할당이다. 강원·제주·세종 같은 소지역은 비례할당으로 적은 표본 그대로 두고, 권역별 분석에서는 "사례수 부족, 참고용" 주석으로 처리하거나 권역에 통합하는 게 한국 정치조사의 표준 관행이다. 제곱근 할당은 들어올 자리가 없고, booster sampling도 여심위 규정·DEFF·표본 비용 어느 측면에서도 정당화되기 어렵다.

이는 자연 발생적 합의가 아니라 통계학(Neyman optimal, DEFF)과 규제(여심위 가중값 배율)의 합작품이다. 1000명 안에서 권역별 분석을 진짜로 살리려면 booster로 풀려고 하지 말고 시도 단위 셀 가중을 권역 단위로 묶거나, cell weighting 대신 RIM을 적용하거나, 표본 자체를 1500~2000명으로 키우는 게 정공법이다.

메소드서베이

2026년 5월 7일 목요일

정치조사에 제곱근 할당을 쓰면 안 되는 이유

댓글 없음:

댓글 쓰기

정반대의 여론조사: 우리는 왜 믿고 싶은 숫자만 고르게 되었나

블로그 보관함