2026년 5월 7일 목요일

정치조사에 제곱근 할당을 쓰면 안 되는 이유

정치조사에 제곱근 할당을 쓰면 안 되는 이유

통계청 승인조사 표본설계서를 보면 시도별 표본 할당이 비례할당이 아니라 제곱근 할당(또는 그 변형)인 경우가 많다. 가계동향, 경활, 사회조사 모두 그렇다. 그래서 가끔 받는 질문이 있다. "그러면 전국 17개 시도 1000명짜리 정치조사도 제곱근 할당이 더 낫지 않나요?"

답은 "아니오"이고, 오히려 정반대다.

통계청 조사가 제곱근 할당을 쓰는 이유

통계청 승인조사의 1차 산출물은 시도별 공표통계다. 각 시도별로 정해진 CV 기준(예: 20% 이내)을 충족해야 한다. 비례할당으로 가면 인구가 적은 세종·제주·강원은 표본이 너무 적어서 이 기준을 못 맞춘다. 반대로 균등할당으로 가면 전국 추정 효율이 깨진다.

제곱근 할당, 즉 시도별 표본을 인구의 제곱근에 비례하게 배정하는 방식은 그 사이의 절충이다. Bankier(1988)의 power allocation에서 지수 p=0.5에 해당하고, Kish(1976)의 compromise allocation 논의에서 전국 분산과 도메인 분산의 가중평균을 동시에 최소화할 때 자연스럽게 도출되는 형태다. 즉 "여러 도메인의 동시 정밀도"가 핵심 제약일 때 쓰는 도구다.

정치조사 1000명에는 이 논리가 안 맞는다

정치조사 1000명은 산출물 정의 자체가 다르다.

첫째, 공표 단위가 다르다. 정치조사 1000명의 1차 산출물은 전국 단일 지지율이지 시도별 추정치가 아니다. 1000명을 17개 시도에 제곱근으로 분산시키면 작은 시도는 30~50명 수준인데, 이 정도 표본으로는 시도별 신뢰구간이 ±10%p를 훌쩍 넘어서 실용적 의미가 없다. 정치조사에서 실제로 의미 있는 분석 단위는 권역(수도권·충청·호남·대경·PK)이고, 권역 단위라면 비례할당으로도 권역당 100~500명이 확보된다.

둘째, DEFF가 깨진다. 정치조사는 거의 100% 시도×성×연령 셀별 사후가중을 적용한다. 제곱근 할당으로 표본을 뽑으면 모집단 비율 대비 작은 시도가 과대표집되어 있고, 사후가중에서 작은 시도의 가중치가 매우 작아지고 큰 시도(경기·서울)의 가중치가 커진다. 가중치 분산이 커지면 Kish의 DEFF 공식 1 + CV²(w)가 1.2~1.4 수준까지 올라가서, 1000명이 유효표본 700~800명으로 깎인다. 비례할당으로 뽑으면 self-weighting에 가까워서 DEFF가 1.05~1.15 정도에 머문다. 결과적으로 전국 추정의 정밀도가 제곱근 할당에서 오히려 떨어진다.

셋째, 관리해야 할 정밀도가 다른 곳에 있다. 통계청 조사는 시도별 CV가 공표 기준이다. 정치조사 1000명은 시도별 CV가 아예 관리 대상이 아니다. 관리 대상이 어디 있는지가 다른데 같은 할당 논리를 쓰면 안 된다.

여심위 규정이 비례할당을 제도적으로 강제한다

한국 정치조사에는 여기에 더해 제도적 제약이 걸린다. 「선거여론조사기준」 제5조(가중값 배율)는, 누구든지 선거여론조사를 실시할 때 조사지역 전체 유권자의 성별·연령대별·지역별 구성 비율을 기준으로 한 가중값 배율을 밝혀야 하며, 가중값 배율이 일정 범위에 있지 않은 결과를 공표·보도해서는 안 된다고 규정하고 있다. 그 범위는 성별 0.7~1.5, 연령대별 0.7~1.5, 지역별 0.7~1.5다.

규정의 적용 단위가 핵심이다. 가중값 배율은 차원별(성별·연령대별·지역별) 주변분포 가중값이지 응답자 ID별 누적 가중치가 아니다. 그러나 표본 할당의 거시적 한도는 차원별 가중값에서 직접 결정된다. 지역 차원 가중값이 0.7 이상이려면 표본비가 인구비의 1.43배(=1/0.7)를 초과할 수 없다. 이게 booster sampling의 상한이다.

1000명 정치조사에서 이 한도가 어느 정도인지 정량적으로 보면 이렇다. 제주는 인구비 1.3%로 비례할당 13명이 최대 19명까지 늘 수 있고(추가 +6명), 강원은 인구비 2.9%로 29명이 41명까지(+12명), 호남 권역은 인구비 9.8%로 98명이 140명까지(+42명) 늘릴 수 있다. 호남이 200명 가까이 갈 거라는 인상이 있지만 실제로는 140명에서 막힌다. 제주는 booster의 의미가 거의 없다. 동시에 ceiling 1.5도 양방향으로 작동해서 큰 시도에서 booster 재원을 빼올 자리도 좁다. 경기(인구비 25%)는 표본비 16.7% 미만으로 못 빼고, 서울(18%)은 12% 미만으로 못 뺀다.

이 정도 운용 폭이라면 "권역별 분석을 살리는 booster"가 아니라 floor 미세조정 수준의 비례할당에 더 가깝다.

RIM 가중이 사실상 강제된다

규정의 적용 단위가 차원별 주변분포라는 점은 또 한 번 결정적이다. 결합 셀 가중(cell weighting)을 쓰면 셀 가중값이 곧 ID 누적 가중치라서 작은 셀(예: 제주 60대 남성)의 응답 부족이 곧장 규정 위반으로 이어진다. RIM 가중은 차원별 주변분포만 맞추니까 차원별 가중값이 0.7~1.5 안에 있으면 되고, ID별 누적 가중치는 그 범위 밖으로 나가도 무방하다. 작은 셀의 변동을 차원별로 흡수할 수 있다.

결국 여심위 규정 안에서 정치조사 1000명의 가중 방식은 RIM에 가까운 형태로 수렴한다. 단순히 "셀별 극단치 방지" 때문이 아니라 규정의 박스를 ID가 아닌 차원에 적용시키는 방식으로서 RIM이 선택되는 것이다.

그러면 booster의 통계적 효익은 무엇인가

위에서 본 한도 안에서 booster를 하면 통계적으로 정확히 무엇이 좋아지는가. 답은 단순하다. 그 소지역 자체에 대한 추정의 분산 감소, 단 그것뿐이다. 그리고 한도 안에서는 그 효익조차 측정 가능한 수준으로 발현되지 않는다.

비율 p가 0.5일 때의 표준오차로 보면, 제주 비례할당 13명의 SE는 13.9%인데 booster 19명까지 가도 SE는 11.5%로 2.4%p 감소에 그친다. 호남도 비례할당 98명의 SE 5.0%가 booster 140명에서 4.2%로 0.8%p 줄어드는 정도다. 신뢰구간이 ±27%에서 ±22%로 좁아지는 수준인데, 보고서 시각화에서 사실상 구분되지 않는다. SE를 절반으로 줄이려면 표본을 4배 늘려야 하는데, 13명을 50명대로 끌어올리는 booster는 규정상 불가능하다.

게다가 booster 단위(소지역)와 분석 단위(권역)가 일치하지 않으면 효익이 분석으로 잘 전달되지 않는다. 호남 booster는 호남 권역 분석 SE를 약간 줄이지만, 제주·강원·세종 booster는 권역 분석에 거의 영향이 없다.

표본 할당의 통계적 최적해인 Neyman allocation은 시도별 표본을 인구와 분산의 곱에 비례하게 배정하는 방식이다. 그런데 정치조사 변수인 지지율의 시도별 분산은 어디서나 0.2~0.25로 비슷하다. 그러면 Neyman optimal이 사실상 비례할당으로 수렴한다. 단일 모수 추정에서는 비례할당 자체가 통계적 최적해이고, 거기서 벗어나는 booster는 전국 추정 측면에서 항상 손해다.

정리

표본 할당 방식은 도구가 아니라 산출물 정의의 함수다. 통계청 조사의 제곱근 할당이 합리적인 이유는 시도별 공표통계라는 산출물 때문이지 제곱근 할당이라는 형식 자체가 우월해서가 아니다. 같은 1000명짜리 조사라도 산출물이 전국 단일 추정인지, 권역별 비교인지, 시도별 추정인지에 따라 답이 완전히 달라진다.

정치조사 1000명은 그 중 첫 번째 케이스(권역별 비교 일부 포함)이고, 거기에 맞는 답은 비례할당이다. 강원·제주·세종 같은 소지역은 비례할당으로 적은 표본 그대로 두고, 권역별 분석에서는 "사례수 부족, 참고용" 주석으로 처리하거나 권역에 통합하는 게 한국 정치조사의 표준 관행이다. 제곱근 할당은 들어올 자리가 없고, booster sampling도 여심위 규정·DEFF·표본 비용 어느 측면에서도 정당화되기 어렵다.

이는 자연 발생적 합의가 아니라 통계학(Neyman optimal, DEFF)과 규제(여심위 가중값 배율)의 합작품이다. 1000명 안에서 권역별 분석을 진짜로 살리려면 booster로 풀려고 하지 말고 시도 단위 셀 가중을 권역 단위로 묶거나, cell weighting 대신 RIM을 적용하거나, 표본 자체를 1500~2000명으로 키우는 게 정공법이다.

2026년 5월 5일 화요일

ARS가 득표율과 비슷한 것은 정확해서가 아니다

ARS가 득표율과 비슷한 것은 정확해서가 아니다

선거가 다가오면 어김없이 반복되는 논쟁이 있다. ARS 조사가 전화면접보다 실제 득표율에 더 가깝다는 주장이다. 리얼미터 등 19개사가 속한 한국정치조사협회는 "각 당 싱크탱크도 ARS를 선호할 정도로 결과는 ARS가 더 정확하다"고 말하고, 한국갤럽 등 34개사가 가입한 한국조사협회는 정반대로 ARS 퇴출을 결의한다. 같은 데이터를 두고 두 진영이 평행선을 달린다.
학술적 검증은 어땠을까. 2017년 19대 대선 직후 중앙선거여론조사심의위원회가 대한정치학회에 의뢰한 종합 비교 분석은 두 방식 중 어느 쪽이 더 정확하고 신뢰할 만하다는 근거를 찾을 수 없다는 결론으로 마무리되었다. 2022년 20대 대선에서 ARS 일부 조사가 윤석열 우위를 더 빨리 잡아낸 사례가 있었지만, 22대 총선과 2025년 조기 대선에서는 거꾸로 ARS 다수 조사의 부정확성이 도마에 올랐다. 선거별로 결과가 엇갈리고, 같은 선거에서도 어떤 변수를 통제하느냐에 따라 우열이 뒤집힌다.
ARS가 득표율과 비슷해 보이는 데에는 측정 자체와 무관한 구조적 이유가 있다. 분모 효과다.
선거 결과는 무효표와 기권을 제외한 유효투표 100%를 기준으로 후보별 비율이 산출된다. 모름이나 미결정이 들어갈 자리가 없다. 반면 여론조사는 부동층 응답이 분모에 포함된다. 그런데 ARS는 응답자 단계에서 이미 정치 고관여층이 자기선택으로 걸러져 들어오는 방식이다. 부동층 비율이 한 자릿수에 머무르는 일이 흔하다. 2021년 12월 한 달간 진행된 무선 ARS 조사의 부동층은 9.1%였던 반면, 무선 전화면접에서는 21.5%로 두 배 이상이었다. ARS는 사실상 "결심한 사람들끼리의 비율"에 가까운 분포가 만들어지고, 이 값이 결심한 유권자만 집계된 득표율과 같은 자릿수에서 비교되니 비슷해 보이는 것이 당연하다.
전화면접의 부동층 21.5%를 결정 응답자에게 비례배분하거나 확정지지율로 다시 계산해 비교하면 두 방식의 격차는 상당 부분 사라진다. 사후 분석에서 반복적으로 확인되어 온 사실이다.
학술적으로 여론조사 정확도를 평가할 때 Mosteller 측정법, 특히 method 3과 5, 또는 Martin–Traugott–Kennedy의 A 통계 같은 지표를 쓰는 이유가 여기에 있다. 미결정 응답을 제외하고 후보 간 격차의 부호와 크기만 비교한다. 분모를 맞춰서 비교한다는 의미다. 이렇게 보정한 지표로 다시 계산하면 ARS의 우위는 사라지거나 오히려 역전되는 사례가 적지 않다.
ARS가 득표율과 비슷해 보이는 인상은 추정량의 우수성에서 오는 것이 아니다. 무응답 처리 방식과 응답자 자기선택이 결합해 만들어내는 표면적 일치다. 이를 모집단 대표성의 근거로 가져다 쓰는 것은 측정 척도의 차이를 정확도의 차이로 오독하는 일이다. 보수층 샤이 표심을 더 잘 잡는다는 식의 사후 해석도 표본 편향의 방향이 우연히 결과와 맞아떨어진 것을 사후적으로 합리화하는 서사에 가깝다.
분모를 보정하면 사라지는 우위를 두고, 분모를 보정하지 않은 채 "결과가 맞았다"는 사후 평가만 반복되는 한 이 논쟁은 끝나지 않는다.

2026년 4월 29일 수요일

신세틱 공론조사를 한 번 해보면 어떨까

 

신세틱 공론조사를 한 번 해보면 어떨까

며칠째 신세틱 서베이로 이런저런 실험을 하고 있다. 전북도지사 선거 가상 조사 500명을 돌려보고, 같은 방식으로 전국 500명 정치 조사도 돌려봤다. 페르소나를 셀별로 추출하고 룰을 짜서 응답을 생성하는 일. 결과가 실제 여론조사 분포와 꽤 비슷하게 나오는 것까지 확인하니, 이 방법이 어디까지 쓸모 있는지 윤곽이 잡히는 듯하다.

그러다 전북 좌담회 참석자 선정질문지를 보다가 문득 들었다. 이걸로 FGI를 시뮬레이션해도 될까?

답은 명확하게 아니었다. FGI의 핵심은 8명이 한 공간에서 만들어내는 발화의 우연성과 상호작용인데, 합성 페르소나는 평균값으로 끌려가서 "어, 이 발언 의외인데?" 같은 통찰이 안 나온다. 진짜 FGI에서 가장 중요한 부분이 LLM 평균에 묻혀버린다.

그런데 거기서 한 발 더 가면 — 공론조사는 어떨까.

공론조사를 신세틱으로 옮긴다는 발상

피쉬킨(James Fishkin)이 정립한 공론조사(Deliberative Polling)는 단순한 여론조사가 아니다. T1에서 사전 의견을 측정하고, 참여자들에게 균형 잡힌 자료집을 제공하고, 전문가 패널과 소그룹 토론을 거친 뒤, T2에서 다시 측정한다. 정보를 받고 숙의(deliberation)를 거친 뒤 의견이 어떻게 변하는지 보는 방법이다.

한국에서도 신고리 5·6호기 공론화(2017), 대입제도 개편(2018) 같은 굵직한 사안에서 활용됐다. 다만 비용이 수십억대고 시간도 수개월이라 일상적으로 돌리기 어려운 도구다. 그러니 의제 하나당 한 번 정도가 한계다.

신세틱으로 옮기면 어떻게 될까. 일단 명백한 장점들이 있다.

실시간으로 돌릴 수 있다. 자료집 만들고 LLM에 주입하고 응답 받기까지 몇 시간이면 끝난다.

같은 사람을 추적할 수 있다. 실제 공론조사의 큰 골칫거리 중 하나가 패널 중도이탈이다. T1에 응답한 사람이 T2까지 안 남으면 비교가 깨진다. 합성 페르소나는 16번 부르든 1,600번 부르든 같은 사람으로 일관되게 응답한다.

자료집을 변형해서 비교할 수 있다. 같은 사실을 다른 프레이밍으로 제시했을 때 변화 차이는 어떤가. 찬성 측 자료를 먼저 보여줬을 때와 반대 측을 먼저 보여줬을 때 어떻게 다른가. 진짜 공론조사로는 절대 못 하는 A/B 비교가 가능하다.

셀별 민감도를 측정할 수 있다. 어떤 인구학적 셀이 정보에 더 잘 반응하는가. 50대 여성과 20대 남성이 같은 자료를 받았을 때 변화량이 다른가. 이건 정량 비교가 가능한 영역이다.

그런데 그냥 LLM에 자료를 던지면 안 된다 — RAG가 필요하다

여기까지만 보면 그럴듯한데, 막상 구현 단계로 들어가면 큰 함정이 있다. LLM 단독으로 응답을 생성하게 두면 자료집 외부의 사전학습 지식을 끌어와서 응답한다. 공론조사의 본질이 "주어진 자료를 받고 의견이 어떻게 변하는가"를 측정하는 건데, LLM이 자기 학습 데이터의 정보를 섞어버리면 측정 자체가 오염된다.

이걸 풀어주는 게 RAG(검색 증강 생성) 구조다. 페르소나에게 주입할 자료집을 외부 문서 컬렉션으로 따로 두고, 응답할 때 그 컬렉션에서만 검색해 근거로 쓰게 한다. LLM이 사전학습에서 끌어오는 노이즈를 줄이고, 자료집 내용에 정렬된 응답을 생성하게 강제한다.

이렇게 가면 신세틱 공론조사가 비로소 진짜 통제 가능한 실험이 된다.

자료 환경을 명시적으로 통제할 수 있다. 찬성만 든 컬렉션, 반대만 든 컬렉션, 균형 컬렉션을 따로 만들어두고 페르소나별로 다른 컬렉션을 붙인다. 같은 페르소나가 다른 정보 환경을 받았을 때 어떻게 다르게 반응하는지 깨끗하게 비교된다.

근거 추적이 된다. 페르소나가 어떤 응답을 했을 때 검색된 문서 인용이 함께 따라온다. "이 페르소나는 자료집의 어떤 부분에 가장 영향받았는가"를 사후에 분석할 수 있다. 진짜 공론조사 사후 분석에서도 어려운 부분이다.

시점을 고정할 수 있다. 자료 컬렉션의 시점을 고정하면 T1·T2·T3가 같은 정보 환경에서 측정된다. LLM 학습 데이터에 새 정보가 섞일 위험이 줄어든다.

그러면 진짜 deliberation은 모사할 수 있나

여기서 이 아이디어의 가장 어려운 지점에 부딪힌다. 공론조사의 핵심은 단순한 정보 노출이 아니라 숙의 — 다른 입장의 사람을 직접 만나 토론하면서 의견이 변하는 과정 — 이다. 피쉬킨의 연구에서 일관되게 나오는 발견 몇 가지를 떠올려보면:

  • 사람들은 정보를 받으면 정책의 미묘한 차이를 더 잘 인지한다.
  • 토론을 거치면 극단적 입장이 줄어든다.
  • 다른 입장의 사람을 대면하면 상대 진영을 덜 적대적으로 본다.

이 중 LLM이 그럴듯하게 모사할 수 있는 건 첫 번째뿐이다. 두 번째와 세 번째는 인간 간 상호작용의 산물이라 합성으로는 거의 못 만든다. 그래서 신세틱 공론조사는 엄밀히 말하면 공론조사의 일부만 시뮬레이션하는 것이다 — 정보 노출 효과는 잡되, 진짜 deliberation은 못 잡는다.

다만 이 한계를 단점으로만 볼 필요는 없을 것 같다. 오히려 "자료집 효과와 토론 효과를 분리해서 측정할 수 있다"는 장점이 된다. 진짜 공론조사에서는 이 둘이 한 사이클 안에 묶여 있어 분리가 어려운데, 신세틱에서는 자료만 주입한 단계와 가상 토론 요약까지 주입한 단계를 따로 측정할 수 있다.

여기서 RAG가 한 번 더 일을 한다. T2 단계에서 페르소나가 자료집을 받은 뒤, 그룹 내 다른 페르소나의 발언을 요약 문서로 RAG 컬렉션에 추가한다. 그러면 페르소나는 자료집 + 동료 발언을 둘 다 검색해 응답을 생성한다. 한 라운드씩 돌리면서 발언을 누적시키면 일종의 비동기 토론 시뮬레이션이 된다. 물론 이건 진짜 토론이 아니다. 인간이 마주 보고 만드는 인터럽트·동조·감정 폭발은 못 만든다. 다만 "다른 입장의 발언을 정보로서 접한 뒤 의견이 변하는 부분"은 분리해서 측정할 수 있다.

가능한 설계

머릿속에서 그려보면 이런 그림이다.

단계조작 (RAG 컬렉션 구성)측정
T1                  페르소나만 (자료 컬렉션 비움)   사전 의견, 확신도, 찬반 비율
T2a                  찬성 측 균형 자료 컬렉션 주입   자료1 받은 후 의견·확신도 변화량
T2b                  반대 측 자료 추가 (양측 다)   양면 정보 효과, 확신도 변화
T2c                 동일 그룹 내 다른 페르소나 발언 요약을
                 컬렉션에 추가
   동료 발언 노출 효과
T3                 일정 라운드 누적 후    최종 의견, 집단 수렴/양극화

흥미로운 건 측정 변수가 의견 자체만 있는 게 아니라는 점이다. 확신도 변화, 이슈 인지 정확도 변화, 의견은 그대로인데 근거만 바뀌는 패턴, 자료 비대칭에 대한 민감도, 검색-인용된 문서의 셀별 차이 같은 게 다 측정 대상이 된다. RAG 구조이기 때문에 마지막 변수가 새로 가능해진다 — "어떤 셀이 어떤 정보를 더 자주 끌어다 쓰는가"를 추적할 수 있다는 뜻이다.

그래서 뭐가 되나

당장은 아이디어 단계다. 다만 이게 단순한 호기심 이상으로 의미가 있을 것 같은 이유는, 한국에서는 공론조사 사례 자체가 적어서 이 방법론에 대한 누적된 실증 연구가 빈약하다는 점이다. 신세틱으로 같은 의제를 여러 번, 여러 변형으로 돌려보는 게 가능해지면, 적어도 자료 노출 효과의 셀별 차이 같은 건 정량적으로 잡을 수 있다.

물론 진짜 공론조사를 대체하는 게 아니다. 진짜 토론에서 나오는 인간 상호작용의 가치는 합성으로 안 잡히고, 그건 그것대로 인간이 모인 자리에서 해야 한다. 다만 진짜 공론조사를 설계하기 전 단계에서 "어떤 자료집 구성이, 어떤 그룹에게, 어떻게 영향을 줄 가능성이 큰가"를 미리 시뮬레이션해보는 사전 도구로는 의미가 있을 것 같다.

또 흥미로운 건, 이미 진행된 한국의 공론조사 사례(신고리, 대입개편 등)를 동일 자료집으로 신세틱에 돌려보고 결과를 비교하는 작업이다. 어디서 일치하고 어디서 갈라지는지 보면, 합성 데이터의 적용 한계 자체가 정량화된다.

신세틱 서베이가 정량 분포 시뮬레이션에서 어디까지 쓸모 있는지는 이번 주 작업으로 어느 정도 그림이 잡혔다. 그 다음 단계는 시점 간 변화 측정이고, 그 첫 후보가 RAG 기반 신세틱 공론조사일 것 같다.

조만간 한 번 돌려봐야겠다.

2026년 4월 26일 일요일

스마트폰에서 표 문항이 작동하지 않는 이유 — 모바일웹 조사의 그리드 문제

 

스마트폰에서 표 문항이 작동하지 않는 이유 — 모바일웹 조사의 그리드 문제

모바일웹 조사 설문지를 검토하다 보면, 의뢰인이든 연구자든 한 가지 공통된 반응을 보이는 지점이 있다. 그리드(매트릭스) 문항을 개별 문항으로 풀어놓은 설문지를 처음 받았을 때의 반응이다.

"문항이 너무 많아 보이는데, 표로 묶으면 안 되나요?"

이 질문은 자연스럽다. 설문지를 문서로 볼 때는 표가 훨씬 깔끔하다. 10개 항목을 개별로 나열하면 페이지가 길어지고 산만해 보이는 반면, 하나의 표로 묶으면 한눈에 구조가 보인다. 검토하는 사람 입장에서는 당연히 표가 낫다.

문제는 설문지 문서를 읽는 사람과 설문에 실제로 응답하는 사람의 경험이 완전히 다르다는 점이다.


PC 웹조사 시대의 유산

그리드 문항은 PC 웹조사 시대의 산물이다. 1024px 이상의 가로 해상도에서 5열 × 10행 표는 완벽하게 작동한다. 한 화면에 전체 구조가 보이고, 응답자는 행 간 비교를 하면서 자신의 응답이 일관적인지 자연스럽게 점검한다. 연구자가 의도한 대로 "항목 간 상대적 비교"가 이뤄진다.

한국 조사업계에서 여전히 그리드 문항이 기본값(default)처럼 쓰이는 데는 이 시대의 관성이 크다. 여기에 몇 가지 이유가 겹친다.

첫째, 표는 전문적으로 보인다. 설문지를 의뢰인에게 제출할 때, 개별 문항 10개보다 표 1개가 "잘 설계된 조사"처럼 보인다. 솔직히 말하면, 있어 보인다. 연구자들이 이 유혹에서 벗어나기 쉽지 않다.

둘째, 문항 수 착시다. "총 30문항"이라고 적는 것보다 "총 15문항(일부 매트릭스 포함)"이라고 적는 편이 의뢰인의 비용 저항을 줄인다. 같은 분량의 조사를 적은 문항처럼 포장할 수 있다.

셋째, 분석 편의성이다. 같은 척도로 묶인 그리드는 SPSS에서 한 번에 빈도표를 뽑기 쉽다. 연구자 본인의 작업 효율을 응답자의 응답 경험보다 우선시하는 것인데, 대개 무의식적으로 그렇게 한다.

이 세 가지는 모두 조사자 측의 편의다. 응답자 측의 사정이 아니다.


모바일 화면에서 실제로 벌어지는 일

스마트폰 화면 가로폭은 대개 360~400px이다. 여기에 5열짜리 리커트 척도 표를 넣으면 어떻게 되는가.

가장 흔한 구현 방식은 표를 좌우 스크롤 가능하게 만드는 것이다. 응답자는 행 텍스트(항목)를 읽은 뒤, 오른쪽으로 밀어서 보기를 찾아 터치해야 한다. 이 과정에서 "매우 그렇다"와 "그렇다"의 시각적 구분이 모호해진다. 열 헤더가 화면 밖으로 사라지기 때문이다. 결과적으로 응답자는 보기의 의미를 파악하는 것이 아니라, 위치(왼쪽에서 몇 번째)로 응답하게 된다.

더 심각한 문제는 straight-lining이다. 10행짜리 그리드가 화면에 나타나면, 응답자에게는 "10개를 전부 채워야 다음으로 넘어간다"는 시각적 압박이 온다. 자연스러운 대응은 같은 열을 연속으로 찍는 것이다. 이건 불성실 응답이라기보다, 인터페이스가 유도하는 합리적 행동에 가깝다. Pew Research Center가 2019년에 수행한 모바일 vs PC 비교 실험에서, 그리드 문항의 모바일 straight-lining 비율이 PC 대비 유의하게 높았고, 같은 문항을 개별로 분리했을 때는 이 차이가 사라졌다.

항목 수가 많을수록 문제는 가속된다. 10행짜리 그리드의 마지막 3~4행에서 응답 분산이 급격히 줄어드는 현상은, 모바일웹 조사를 해본 사람이라면 데이터에서 반복적으로 목격했을 것이다. 이건 응답자의 태도가 변한 것이 아니라, 피로가 인터페이스에 의해 증폭된 것이다.


"문항이 적어 보인다"는 착각의 구조

여기서 흥미로운 역설이 있다. 설문지 문서에서는 표 1개(10행)가 개별 문항 10개보다 "적어" 보인다. 그런데 응답자의 체감에서는 정반대다.

개별 문항 10개는 화면 10개로 나뉜다. 한 화면에 질문 1개와 보기 4~5개만 보인다. 터치 한 번이면 다음으로 넘어간다. 진행 바(progress bar)가 한 칸씩 차오르는 것이 보인다. "빨리 끝나고 있다"는 느낌이 든다.

표 문항 1개는 화면 1개에 10행이 들어간다. 스크롤을 여러 번 해야 하고, 한 행을 채울 때마다 나머지 9행이 남아 있는 것이 보인다. 진행 바는 움직이지 않는다. "이게 언제 끝나나" 하는 심리적 부담이 누적된다.

문서 가독성과 응답 경험은 별개의 차원이다. 설문지를 검토하는 의뢰인이 "깔끔하다"고 느끼는 것과, 응답자가 "빨리 끝난다"고 느끼는 것은 다른 문제다. 설문 설계자는 후자를 기준으로 판단해야 한다.


그러면 표 문항은 언제 쓰는가

모바일웹에서도 표가 적절한 경우가 드물지만 존재한다. 핵심 기준은 "항목 간 상대적 비교가 응답의 본질인가"이다.

예를 들어, "다음 후보들에 대한 호감도를 각각 평가해 주십시오"는 개별로 분리해도 응답 품질에 차이가 없다. 응답자는 각 후보를 독립적으로 평가하는 것이지, A 후보와 B 후보의 호감도를 나란히 비교하면서 점수를 매기는 것이 아니다. 이런 문항은 분리하는 것이 맞다.

반면, "다음 두 브랜드의 속성별 우위를 비교해 주십시오"처럼 A와 B를 나란히 놓고 상대적 위치를 판단하는 것이 문항의 본질인 경우에는 표가 필요하다. 이때에도 행 수를 3~4개 이하로 제한하고, 좌우 스크롤이 발생하지 않도록 열 수를 줄여야 한다.

실무적 기준을 정리하면 이렇다.

  • 모바일웹 조사에서 그리드를 쓸 때는 행 4개 이하, 열 3개 이하를 기준으로 삼는다.
  • 이를 초과하면 개별 문항으로 분리한다.
  • 분리할 때는 문항 간 Random 제시를 적용하여 순서 효과를 통제한다.

대부분의 그리드 문항은 이 기준을 초과한다. 즉, 대부분의 그리드는 분리해야 한다.


설문지 문서와 구현의 분리

결론적으로, "설문지 문서에서의 표 정리"와 "실제 모바일웹 구현에서의 표 제시"를 분리해서 생각해야 한다.

설문지 문서에서는 동일한 척도를 공유하는 항목들을 표로 묶어서 정리하는 것이 맞다. 내부 검토 가독성이 좋아지고, 문항 간 구조적 관계가 한눈에 보이기 때문이다. 이건 작성자와 검토자를 위한 포맷이다.

그러나 실제 모바일웹 구현에서는 그 표를 한 항목씩 개별 화면으로 쪼개서 제시해야 한다. 서베이박스, 서베이몽키 같은 모바일 대응 플랫폼에서도 그리드를 개별 화면으로 쪼개는 옵션이 기본 제공되는 이유가 여기에 있다.

설문지를 쓰는 사람이 설문에 답하는 사람이 아니다. 응답자는 우리가 만든 A4 문서를 보지 않는다. 응답자가 보는 것은 380px짜리 스마트폰 화면이다. 그 화면에서 "있어 보이는 것"과 "답하기 편한 것"은 다르다. 우리가 설계해야 하는 것은 후자다.

한국에 잠든 ABS 프레임 — 선거인명부, 풀리면 이렇게 쓸 수 있다

 

한국에 잠든 ABS 프레임 — 선거인명부, 풀리면 이렇게 쓸 수 있다

KGSS 방법론 보고서를 들추다 보면 한 가지 풍경이 매번 반복된다. 통계청 인구주택총조사 조사구를 1차 추출 단위로 삼고, 추출된 조사구에 면접원이 직접 들어가 가구를 접촉하고, 그 안에서 다시 한 명을 골라낸다. 다단계 지역확률표집의 정석이다. 동시에 면접원 인건비, 접촉 실패, 부재중 재방문, 그리고 해마다 떨어지는 응답률이라는 익숙한 부담을 함께 짊어지는 설계이기도 하다.

미국이 같은 자리에서 빠져나간 길이 ABS, 즉 Address-Based Sampling이다. USPS의 Delivery Sequence File을 베이스로 가구 단위 주소 프레임을 만들고, 거기에 등기 발송 invitation을 띄워 웹조사로 끌어들인다. 면접원을 거치지 않고도 확률표본을 유지하는 방식. Pew, GSS의 web push, AmeriSpeak의 충원까지 — 지난 십여 년 간 미국 사회조사가 비용 폭증과 응답률 추락 사이에서 찾아낸 절충점이다.

문제는 한국에 USPS 같은 통합 주소 파일이 없다는 게 아니다. 더 좋은 게 있다. 다만 잠겨 있을 뿐이다.

선거인명부라는 잠든 프레임

선거인명부는 만 18세 이상 대한민국 국민 전수를 담는다. 가구가 아니라 개인 단위다. 이름, 도로명주소, 생년월일이 갖춰져 있고, 행정안전부 주민등록 데이터를 모집단으로 삼아 선거 시기마다 갱신된다. 형식적 요건만 보면 사회조사용 표집틀로서 거의 흠잡을 데가 없다.

물론 한계도 분명하다. 층화에 쓸 만한 변수는 지역·성·연령 셋뿐이다. 학력도, 직업도, 소득도 없다. 미국 Voter File이 상업적 augmentation을 거쳐 정당지지·소비행태·인종 추정치까지 붙이며 풍부한 층화 변수를 갖게 된 것과는 정반대 방향이다. 하지만 사회조사의 표준 가중 셀이 결국 지역×성×연령으로 떨어지는 현실을 생각하면, 이 정도면 ABS의 출발점으로 충분하다. 모자라는 변수는 응답 단계에서 회수하면 된다.

풀리면 이렇게 쓸 수 있다

설계는 어렵지 않다. 선거인명부에서 지역×성×연령 셀별로 무작위 추출한다. 추출된 표본에게 등기우편으로 invitation letter를 발송한다. "○○○님께"로 시작하는 개인화된 편지, 조사 목적과 소요 시간을 분명히 적은 한 페이지짜리 안내문, QR코드와 짧은 URL, 모바일 웹서베이 링크. 응답 인센티브로 편의점 모바일 상품권을 걸고, 2주 뒤 미응답자에게 reminder를 보낸다. 필요하다면 SMS나 전화로 후속 접촉 단계를 추가하는 mixed-mode 설계도 가능하다.

숫자로 가늠해 보자. 등기우편 한 통은 인쇄·봉투·발송까지 합쳐 통당 4천 원 안팎이다. 1만 명에게 발송한다고 해도 우편 비용은 4천만 원 수준. 면접원이 가구를 직접 방문해 1,000명 표본을 채우는 KGSS급 조사의 인건비와 비교하면 자릿수가 다르다. 응답률은 미국 ABS-to-web 조사 사례를 참고하면 인센티브 설계와 reminder 횟수에 따라 10~25% 사이에서 형성된다. 한국 수신자의 등기 개봉률과 모바일 친화도를 감안하면 그 상단 — 20% 전후 — 을 기대해 볼 만하다. 1만 명 발송으로 2,000명 표본을 확보하는 셈이다. 같은 표본을 면접조사로 채우려면 들여야 할 자원과 시간을 떠올리면, 이 비교는 더 노골적으로 갈린다.

이 설계가 한국에서 작동할 조건은 이미 갖춰져 있다. 도로명주소 시스템은 성숙했고, 스마트폰 보급률은 사실상 천장에 닿았으며, 모바일 웹서베이 인프라는 통신사 기반으로 충분히 검증됐다. 등기우편에 대한 신뢰는 여전히 높고, "님께"라는 호명이 가지는 무게도 한국 수신자에게는 결코 가볍지 않다. 면접원 한 명이 가구 한 곳을 두세 번 방문하는 비용과, 등기 한 통의 비용을 비교하면 셈은 더 분명해진다.

장기적으로는 이 프레임이 가지는 또 다른 가치가 있다. 표본을 무작위로 뽑되 invitation을 받은 사람들 중 일부를 패널로 충원하는 설계 — 미국 NORC가 AmeriSpeak에서 쓰는 방식 — 도 같은 토대 위에 얹을 수 있다. 확률표본 기반의 온라인 패널을 한국에서도 마침내 만들 수 있다는 뜻이다. 지금까지 한국의 온라인 패널이 모두 비확률 옵트인이었다는 사실을, 우리는 너무 오래 자연스럽게 받아들여 왔다. 학술조사뿐 아니라 정부 통계, 정책 평가, 그리고 더 정직한 여론조사가 모두 이 토대 위에서 다시 그려질 수 있다.

물론 ABS-to-web 단일 모드만으로 모든 조사를 대체하자는 이야기는 아니다. 노년층, 디지털 접근성이 낮은 응답자, 긴 설문이 필요한 심층조사는 여전히 면접 모드가 더 적합하다. 핵심은 한국 사회조사가 지금 사실상 면접조사 외에는 확률표본 옵션을 못 가진 상태라는 점이다. 도구상자에 도구가 하나뿐이면 모든 못이 같은 망치를 부른다. 선거인명부 기반 ABS는 그 도구상자에 한 자리를 추가하는 일이다.

잠겨 있는 이유, 그리고 풀릴 수 있는 길

문제는 법이다. 공직선거법은 선거인명부를 선거 목적으로만 작성·이용하도록 한정한다. 학술 사회조사가 받아쓰는 경로는 열려 있지 않고, 출구조사 기관이 협조받는 것조차 매번 법적 근거를 따져야 한다. KGSS, 한국복지패널, 청소년패널이 다들 조사구 기반 설계를 고집하는 건 더 좋은 프레임이 없어서가 아니다. 있어도 못 쓰기 때문이다.

풀릴 수 있는 길이 아주 막혀 있는 것은 아니다. 통계법상 통계작성지정기관에 한해 익명화된 셀 단위로 표본추출 협조를 받는 방식, 행정안전부가 주민등록 데이터를 통계 목적 표집틀로 별도 가공해 제공하는 방식, 혹은 선관위가 학술 IRB 승인 조건 하에 제한적으로 표본을 추출해 우편 발송만 대행하는 방식 — 외국에서 작동하는 모델은 여럿 있다. 응답자 본인은 자신의 정보가 어떻게 표집에 쓰였는지 invitation letter를 통해 명시적으로 고지받고, 참여 여부를 선택할 수 있다. 사생활 보호와 사회조사의 공익성 사이에서 균형점을 찾는 일은 이미 다른 나라들이 한 세대에 걸쳐 다듬어 온 의제다. 한국이 새로 발명해야 할 문제가 아니다.

미국이 ABS로 넘어간 것 자체가 USPS와의 협력, 그리고 인구센서스 프레임 정비라는 행정 인프라의 결과였다는 점을 떠올리면, 한국이 가진 토대는 오히려 더 단단하다. 다만 그 토대를 사회조사가 사용할 수 있도록 허용하는 합의가 아직 만들어지지 않았을 뿐이다.

잠든 자원을 깨우는 일

표본조사를 오래 하다 보면, 좋은 프레임이 얼마나 귀한 것인지 매번 실감하게 된다. 우리는 지금 그 귀한 자원을 가진 채로, 면접원을 조사구에 들여보내고 있다. 미국이 부러워할 만한 인프라를 손에 쥔 채 미국식 다단계 표집의 비용을 치르고 있는 셈이다.

언젠가 이 자물쇠가 풀리는 날이 온다면, 한국 사회조사는 한 세대 만에 한 번 있을 도약을 맞을 것이다. 그날을 기다리며 설계도만이라도 미리 그려두는 것은, 방법론 하는 사람의 작은 의무가 아닐까 싶다.

2026년 4월 23일 목요일

오차범위 ±3.1%p 뒤에 숨은 또 하나의 얼굴

 

오차범위 ±3.1%p 뒤에 숨은 또 하나의 얼굴

— 지지율 3%인 정당의 진짜 오차범위는 얼마일까

앞선 글에서 오차범위 ±3.1%p가 상황에 따라 세 가지 얼굴을 가진다는 이야기를 했다. 한 후보 지지율을 볼 때와, 두 후보의 격차를 볼 때, 그리고 지난주와 이번주를 비교할 때가 모두 다르다는 내용이었다.

그런데 사실, 그 첫 번째 얼굴 안에도 또 하나의 얼굴이 숨어 있다. 같은 조사에서 뽑힌 숫자인데도, 지지율이 얼마냐에 따라 오차범위가 다르게 적용되어야 한다는 사실이다. 이건 교과서에는 한 줄로 지나가는데, 실제 기사에는 거의 반영되지 않는다.


기사에 적힌 ±3.1%p는 "최악의 경우"다

결론부터 말하면, 기사 하단에 적혀 있는 ±3.1%p는 지지율이 50%일 때의 값이다. 그리고 이건 모든 경우를 통틀어 가장 큰 오차범위다.

50%에서 멀어질수록, 다시 말해 아주 낮거나 아주 높은 지지율일수록 실제 오차범위는 작아진다. 숫자로 보면 이렇다.

지지율실제 오차범위 (1,000명 조사 기준)
50%±3.10%p
40% / 60%±3.04%p
30% / 70%±2.84%p
20% / 80%±2.48%p
10% / 90%±1.86%p
5% / 95%±1.35%p
3% / 97%±1.06%p
1% / 99%±0.62%p

50%일 때 ±3.10%p던 것이, 지지율 3%짜리 군소 후보에게는 ±1.06%p까지 줄어든다. 거의 3분의 1 수준이다.


왜 50%가 가장 불안한 숫자일까

직관적으로 생각해 보자. 상자 안에 빨간 공과 파란 공이 섞여 있다. 안을 들여다보지 않고 한 개씩 꺼내서 색깔을 맞혀 본다고 하자.

상자 안이 반반(50:50)일 때 다음에 꺼낼 공의 색깔이 뭘지 가장 예측하기 어렵다. 반반이라는 건 가장 애매한 상태니까.

빨간 공이 10%밖에 없다면 다음에 꺼낼 공은 거의 확실히 파란색이다. 예측하기 쉽다. 어쩌다 빨간 공이 나와도 전체 결과의 변동은 크지 않다.

빨간 공이 1%라면 거의 안 나온다. 100번 꺼내도 1개 정도. 변동할 여지 자체가 작다.

여론조사도 똑같다. 50% 지지율은 반반 상태라 1,000명을 뽑을 때마다 480명이 될지 520명이 될지 상대적으로 많이 흔들린다. 반면 지지율 3%는 거의 정해진 상태라 30명 근처에서 크게 벗어나기 어렵다. 그래서 낮은 지지율일수록 오차범위가 좁아지는 것이다.


이게 왜 중요한가

예를 들어 보자.

C 후보 지지율이 지난주 6% → 이번주 8%로 나왔다고 하자. 기사에는 "오차범위 ±3.1%p 안에서 변동"이라고 적힐 것이다. 많은 독자가 "그래봤자 오차 범위 내니까 의미 없네" 하고 넘어간다.

그런데 실제로 지지율 6~8% 수준에서 오차범위는 ±1.5%p 정도밖에 안 된다. 2%p 상승은 의미 있는 신호일 가능성이 높다는 뜻이다.

정의당이나 조국혁신당 같은 소수 정당도 마찬가지다. 지지율 3%인 정당이 4%가 됐다고 하자. ±3.1%p 기준으로 보면 "노이즈"다. 하지만 3% 수준의 진짜 오차범위는 약 ±1.06%p다. 1%p 변화도 의미 있게 볼 수 있는 상태라는 뜻이다.

그런데 관행적으로 모든 숫자에 ±3.1%p가 일괄 적용되다 보니, 군소 후보나 소수 정당의 유의미한 변동이 늘 "오차범위 내 변동"으로 묻혀 버린다. 이 때문에 일부 군소 후보 캠프에서는 "우리 지지율 올랐는데 기사에서 무시당한다"는 불만이 종종 나오기도 한다. 숫자로 보면 그 불만이 근거가 아예 없는 건 아니다.


그럼 왜 기사에는 ±3.1%p 하나만 적을까

가장 큰 이유는 관행과 편의성이다.

모든 문항에 대해 실제 오차범위를 하나하나 계산해서 적는 건 번거롭다. 게다가 하나의 조사에서도 문항이 수십 개면, 각 문항의 각 선택지마다 오차범위가 다 달라진다. 이걸 전부 표기하면 기사가 읽히지 않는다.

그래서 "최악의 경우를 가정한 상한선"을 쓰는 것이다. 실제 오차범위가 아무리 커도 이 값은 넘지 않으니, 안전한 기준이 된다. 여심위 공표 기준도 이 값으로 통일되어 있다.

문제는 이 관행이 모든 숫자에 대해 실제보다 과도하게 큰 오차범위를 부여한다는 점이다. 결과적으로 작은 숫자의 유의미한 변동이 묻히고, 독자에게는 "대부분 오차범위 안이라 아무 의미 없다"는 인상이 강화된다. 정보 손실이 의외로 크다.


그럼 어떻게 읽어야 할까

일반 독자가 매번 공식을 계산하며 기사를 읽을 수는 없다. 대신 대략의 감만 잡고 있어도 충분하다.

지지율이 50% 근처일수록 — 기사의 ±3.1%p를 그대로 적용.

지지율이 20~30% 수준 — 실제로는 ±2.5~2.9%p 정도. 기사 오차범위보다 약간 좁다.

지지율이 10% 이하 — 실제 오차범위는 ±1~2%p 수준. 기사에 적힌 값의 절반 이하다. 작은 변동도 그냥 무시하지 말 것.

지지율이 3% 이하 — 실제 오차범위 ±1%p 이하. 1%p 수준의 변화도 유의미한 신호일 수 있음.

특히 군소 후보나 소수 정당의 지지율을 볼 때는, 기사 하단의 ±3.1%p를 그대로 적용하지 말고 실제 오차범위는 그보다 훨씬 좁다는 걸 기억해야 한다. 숫자가 작을수록 작은 변화도 중요해진다는 말이다.


정리

구분기사에 적힌 오차범위실제 오차범위
양대 정당 지지율 (40~50%)±3.1%p거의 동일
중소 정당 지지율 (10~20%)±3.1%p약 ±1.9~2.5%p
군소 후보 지지율 (3~5%)±3.1%p약 ±1.0~1.4%p

같은 조사, 같은 표본, 같은 1,000명인데도 어느 숫자를 보느냐에 따라 오차범위는 달라진다. 이것이 ±3.1%p라는 숫자 뒤에 숨어 있는, 좀처럼 드러나지 않는 얼굴이다.


오차범위는 하나의 숫자가 아니다. 장면에 따라(앞선 글의 세 가지 얼굴), 그리고 보고 있는 지지율의 크기에 따라 모습을 바꾼다.

이걸 알고 있으면, 같은 여론조사 기사를 읽어도 훨씬 많은 것을 볼 수 있다. 특히 군소 후보·소수 정당·소수 응답의 변화를 읽을 때 그렇다. 거대 양당 지지율만 보면 ±3.1%p가 맞지만, 시선을 가장자리로 옮기면 그 숫자는 과도하게 크다.

여론조사에서 "작은 숫자"는 실제로는 더 단단한 숫자일 수 있다. 이 점만 기억해 둬도, 기사에 담긴 숫자 중 적지 않은 정보를 구해낼 수 있다.

오차범위 ±3.1%p의 세 가지 얼굴

 

오차범위 ±3.1%p의 세 가지 얼굴

여론조사 기사를 읽다 보면 "A 후보, 오차범위 내에서 B 후보에 앞서" 같은 표현을 자주 본다. 기사 하단에는 어김없이 "표본오차는 95% 신뢰수준에서 ±3.1%p"라는 문구가 붙는다.

그런데 이 ±3.1%p라는 숫자는, 사실 상황에 따라 전혀 다른 의미로 쓰인다. 어떤 때는 그대로 써도 되고, 어떤 때는 두 배로 늘려 봐야 하며, 어떤 때는 아예 다시 계산해야 한다. 같은 숫자인데도 읽는 장면에 따라 얼굴이 바뀌는 셈이다.

이 차이를 알면 여론조사 기사를 훨씬 정확하게 읽을 수 있다. 오차범위가 등장하는 세 가지 서로 다른 장면을 하나씩 살펴보자.


첫 번째 얼굴 — 한 후보의 지지율을 볼 때

"A 후보 지지율 42%, 오차범위 ±3.1%p."

이 문장은 이렇게 읽으면 된다. "A 후보의 실제 지지율은 대략 38.9%에서 45.1% 사이 어딘가에 있다."

왜 구간으로 말할까. 전체 유권자가 아니라 1,000명만 조사했기 때문이다. 1,000명에서 뽑힌 숫자는 누구를 만나느냐에 따라 조금 높게, 조금 낮게 나올 수 있다. 그래서 "대략 이 정도 범위 안에 진짜 값이 있다"고 구간으로 말하는 것이다.

여기까지는 기사에 적힌 ±3.1%p를 그대로 써도 된다. 가장 단순한 얼굴이다.


두 번째 얼굴 — 두 후보의 격차를 볼 때

문제는 여기서부터다.

"A 42%, B 39%, 격차 3%p, 오차범위 ±3.1%p."

이 기사를 많은 사람들이 이렇게 읽는다. "격차 3%p가 오차범위 3.1%p보다 작으니까, 결국 차이 없는 거네."

반만 맞다.

두 후보의 격차를 볼 때는 오차범위가 거의 두 배로 늘어난다. 왜 그럴까.

A의 지지율에도 불확실성이 있고, B의 지지율에도 불확실성이 있다. 각각 위아래로 흔들릴 수 있는 숫자인데, 그 둘의 차이를 말하려면 양쪽의 흔들림이 합쳐져서 더 커진다. 마치 저울 두 개로 무게를 재는데, 저울 A도 ±3g 오차, 저울 B도 ±3g 오차라면, "두 물건의 무게 차이"는 ±3g이 아니라 훨씬 더 큰 오차를 갖게 되는 것과 같다.

계산해 보면, 1,000명 조사에서 두 후보 격차의 오차범위는 약 ±6%p 정도가 된다. 즉 격차가 6%p를 넘어야 "통계적으로 A가 앞선다"고 말할 수 있고, 그보다 작으면 "누가 앞서는지 확신할 수 없다"가 정답이다.

사실 한국 언론에서 자주 쓰는 "오차범위 내 우세"라는 표현은 논리적으로 이상한 말이다. 오차범위 안쪽이라는 건 우세를 단정할 수 없다는 뜻인데, 거기에 "우세"를 갖다 붙이니까 말이 안 된다.


세 번째 얼굴 — 지난주와 이번주를 비교할 때

세 번째 장면은 추이 보도다.

"대통령 국정지지율, 지난주 45% → 이번주 48%, 3%p 상승."

이 헤드라인도 많은 독자가 "3%p 올랐다"를 그대로 받아들인다. 하지만 여기서도 오차범위를 다시 계산해야 한다.

지난주 조사와 이번주 조사는 완전히 다른 사람들에게 물어본 결과다. 지난주 1,000명, 이번주 또 다른 1,000명. 각각의 조사에 모두 불확실성이 있고, 그 두 불확실성이 합쳐진다. 두 번째 얼굴과 원리는 비슷하다.

계산해 보면 두 조사 사이 변화의 오차범위는 약 ±4.4%p. 즉 최소 4.4%p 이상 움직여야 "통계적으로 의미 있는 변화"라고 말할 수 있다. 3%p 정도의 상승은 대부분 조사할 때마다 나타나는 자연스러운 흔들림에 가깝다.

게다가 현실에서는 이보다 더 보수적으로 봐야 한다. 같은 조사 기관이라도 주마다 응답자 구성이 조금씩 달라지고, 그 주의 뉴스나 사회 분위기도 다르다. 전화 받은 시간대, 요일, 거절한 사람들의 특성까지 매번 다르다. 이런 요인들까지 고려하면 사실상 5~6%p 이상은 움직여야 "진짜 변화"라고 부를 수 있다.

그래서 여론조사 실무자들이 자주 쓰는 격언이 있다.

"한 번 변한 건 우연, 두 번이면 관심, 세 번 같은 방향이면 신호."

전주 대비 1~2%p 변동을 "지지율 회복세" "하락 전환" 같은 말로 보도하는 건, 대부분의 경우 노이즈를 시그널로 읽는 것이다.


"차이 없음"과 "우열 단정 불가"는 다르다

여기까지 세 가지 얼굴을 알았다면, 마지막으로 가장 중요한 구분을 하나 짚고 싶다.

격차 3%p가 오차범위 안쪽이면 많은 기사가 이렇게 쓴다. "A와 B, 사실상 동률" 또는 "차이 없음."

이건 틀린 표현이다.

정확한 표현은 "A와 B 중 누가 앞서는지 단정할 수 없다"이다. "차이 없다"와는 완전히 다른 말이다.

법정에서 무죄 판결을 떠올려 보자. 무죄 판결은 "이 사람이 결백하다"는 뜻이 아니다. "유죄라는 증거가 부족하다"는 뜻이다. 실제로 저질렀을 수도 있지만, 증거가 모자라 유죄라고 선언할 수 없을 뿐이다.

여론조사도 똑같다. 격차 3%p가 오차범위 안이라는 건 "A와 B가 똑같다"는 뜻이 아니라 "지금 우리가 가진 데이터로는 누가 앞서는지 확실히 말할 수 없다"는 뜻이다. 실제로는 누군가 조금이라도 앞서고 있다. 다만 우리가 확신할 수 없을 뿐.

더 구체적으로 말하면, A 42% vs B 39%일 때 A가 실제로 앞서고 있을 확률은 약 70% 정도 된다. 동전 던지기(50%)보다 훨씬 높은 숫자다. 완전히 동률이라고 보기 어려운 상태다.

그런데 현실에서는 이 정보가 이렇게 소실된다.

조사자 → "격차 3%p, 오차범위 내" 의뢰자 → "오차범위 내 접전" 기자 → "사실상 동률" 독자 → "차이 없대" 일상 대화 → "A랑 B랑 똑같더라"

원래 숫자에는 "A가 앞설 가능성이 70% 정도"라는 쓸모 있는 정보가 담겨 있었는데, 전달 과정에서 몽땅 사라져 버리는 것이다.


정리

장면오차범위주의할 점
한 후보 지지율  ±3.1%p   기사에 적힌 그대로 쓰면 됨
두 후보 격차  약 ±6%p   거의 두 배로 커짐
주간 추이 비교  약 ±5~6%p   사건 없이 생긴 작은 변동은 대부분 우연

그리고 오차범위 안의 격차는 "차이 없음"이 아니라 "우열 단정 불가"다.


여론조사의 숫자는 점(point)이 아니라 구간이다. 그리고 그 구간의 넓이는 무엇을 보느냐에 따라 달라진다. 한 후보를 볼 때와, 두 후보를 비교할 때와, 지난주와 이번주를 비교할 때가 모두 다르다.

이 구분만 머릿속에 두고 기사를 읽어도, 평균적인 여론조사 보도보다 훨씬 정확하게 숫자를 이해할 수 있다. 역으로 말하면, 많은 기자와 독자가 이 세 가지 얼굴을 하나로 뭉뚱그려 소비하기 때문에 선거 때마다 과장되거나 반대로 과소평가된 해석이 쏟아지는 것이기도 하다.

오차범위는 하나의 숫자지만, 얼굴은 셋이다. 어떤 얼굴을 마주하고 있는지 먼저 가늠해 보는 것, 그것이 여론조사를 읽는 가장 기본적인 리터러시다.

푸시투웹을 둘러싼 오해와 한국 통계조사의 진짜 장벽

  푸시투웹을 둘러싼 오해와 한국 통계조사의 진짜 장벽 나는 오랫동안 한 가지를 잘못 알고 있었다. 미국이 우편으로 웹조사 초대장을 보내는 push-to-web을 할 수 있는 건, 표본으로 뽑은 사람의 이름과 연락처를 알기 때문이라고 생각했다. 주소...