2026년 5월 12일 화요일

표집오차한계와 총오차한계 사이의 거리

 표집오차한계와 총오차한계 사이의 거리


여론조사 보고서 끝에는 늘 같은 문장이 붙는다. "표본오차는 95% 신뢰수준에서 ±3.1%p". n=1000, 단순임의표집을 가정했을 때 1.96·√[0.5·0.5/1000]을 계산해 나오는 수치다. 이 숫자가 조사 정확도에 대한 모든 정보를 담고 있는 것처럼 읽히지만, 실제로 ±3.1%p가 무엇을 의미하는지 다시 생각해보면 이야기가 달라진다.


표집오차는 모집단에서 표본을 추출하는 과정에서 발생하는 변동만 반영한다. 같은 설계로 표본을 다시 뽑으면 다른 응답자가 선택되고 그래서 추정치가 달라지는 부분이다. 표집오차한계(margin of sampling error, MOSE)는 이 변동의 95% 구간을 표시한 값이다. 응답자가 누구든 정확하게 응답한다는 가정, 응답하지 않은 사람이 응답한 사람과 같은 의견을 갖는다는 가정, 모집단 전체가 표집틀에 포함된다는 가정이 모두 성립해야 MOSE가 추정치의 불확실성을 온전히 표현한다.



총조사오차라는 틀


총조사오차(total survey error, TSE)는 이 가정들이 어디서 깨지는지 정리한 틀이다. Groves와 Lyberg의 분류를 따르면 오차는 두 부분으로 갈라진다. 표상(representation) 쪽에는 포함오차(특정 인구집단이 표집틀에서 빠지는 문제), 표집오차, 무응답오차(특정 집단이 더 잘 또는 덜 응답하는 문제), 보정오차(가중으로 보정한 뒤에도 남는 편향)가 있다. 측정(measurement) 쪽에는 측정오차(질문이 잘못 이해되거나 사회적 바람직성에 의해 응답이 왜곡되는 문제)와 처리오차(코딩이나 자료 입력 단계 오류)가 있다. 표집오차는 이 여섯 성분 중 하나일 뿐이다.


응답률이 95%를 넘던 Deming(1944)의 시대에는 무응답오차가 작아 표집오차 중심 보고가 큰 문제가 아니었다. 2025년 현재는 사정이 다르다. 미국 일부 확률조사 응답률은 1% 미만이고, 인터넷 광고로 모집되는 옵트인 조사는 응답률 개념 자체가 성립하지 않는 편의표본이다. Mercer et al.(2018)이 대규모 옵트인 조사 3건을 검토한 결과, 가장 효과적인 무응답 보정도 편향의 약 30%만 제거할 수 있었다. 무응답 보정 이후 70%의 편향이 점추정치에 남는다는 의미다. MOSE는 이 편향에 대해 아무것도 알려주지 않는다.



실증: 명목 95%가 실제로 얼마였나


Lohr, Mercer, Kennedy, Brick(2026)의 최근 JSSAM 논문은 이 격차를 경험적으로 측정한다. Shirani-Mehr et al.(2018)이 정리한 1998–2014년 미국 주 단위 선거조사 4,221건을 보면, 표집분산으로 계산한 95% 신뢰구간이 실제 선거 결과를 포함한 비율은 77.6%였다. 주지사 선거에서는 73.3%, 상원의원 선거에서는 71.7%까지 떨어졌다. 명목상 95%였던 구간이 실제로는 74% 수준의 포함률을 가졌다는 뜻이다.


비선거 조사에서는 격차가 더 컸다. Pew Research Center가 동일 질문을 확률표본 3건과 비확률 옵트인 표본 3건에 동시에 던지고 행정자료 벤치마크와 비교한 자료에서, MOSE 기반 95% 신뢰구간이 벤치마크를 포함한 비율은 25%에 불과했다. 확률표본 37%, 비확률표본 13%. 95% 포함률을 회복하려면 비확률표본의 표준오차에 약 10배를 곱해야 했고, 푸드스탬프 수급 같은 정부 지원 관련 문항에서는 14.5배까지 필요했다.


흔히 인용되는 "표준오차에 2를 곱하라"는 Rothschild와 Goel(2016)의 권고는 선거조사 자료에서는 대체로 작동했지만 비선거 조사에서는 한참 부족했다. Pew 자료에서 표준오차에 2를 곱한 구간이 벤치마크를 포함한 비율은 비확률표본 25.7%, 정부 지원 수급 항목에서는 6.7%였다. 이 권고는 특정 시기 특정 주제 자료에서 도출된 것이며, 다른 주제로 그대로 옮길 수 있는 보편 규칙이 아니다.



한국 조사 환경의 함의


한국 조사 환경에서는 이 격차가 더 클 가능성이 있다. 통신사 가상번호 ARS 조사의 실제 응답률, 마케팅 수신 동의 고객 대상 SMS 기반 모바일웹 조사의 자기선택 편향, 1주일 단위로 압축되는 선거조사 일정, 클라이언트가 요구하는 결과 방향 같은 한국 특이 오차원들이 모두 비표집오차에 누적된다. Frame Procurement Error(틀조달오차), Client Intervention Error(클라이언트 개입오차), Timeline Compression Error(일정 압축오차) 같은 한국형 TSE 확장 항목들도 MOSE 한 줄로는 전혀 포착되지 않는다. 그럼에도 한국 조사 보고서에는 표집오차한계 한 줄만 적힌다.



무엇을 할 것인가


대안은 두 갈래다. 하나는 표상이다. Lohr et al.이 제안하는 총오차한계(margin of total error, MOTE)는 벤치마크 추정치가 있는 과거 조사 자료에 모형을 적합해 표준오차에 어느 정도의 비표집오차 성분을 더해야 명목 포함률을 회복하는지 추정한다. 조사 유형, 표본 유형, 질문 주제별로 보정값을 데이터베이스화하면 미래 조사에서도 유사 조건에 맞는 MOTE를 보고할 수 있다. 다른 하나는 분해다. TSE 각 성분에 대한 별도 진단치를 보고하는 방식이다. 응답률뿐 아니라 무응답 보정 전후의 추정치 차이, 가중 변수와 결과 변수의 상관, 측정 실험을 통한 문항 효과 추정치 등을 함께 제시해 추정치의 신뢰도를 여러 층위에서 표시한다.


표집오차한계가 부정확하다는 말이 아니다. MOSE는 가정 안에서 정확히 계산된 값이다. 다만 그 가정이 더 이상 성립하지 않는 시대에 MOSE만 보고하는 관행은 조사 추정치의 정밀도를 실제보다 부풀려 전달한다. 보고된 ±3.1%p가 실제로는 ±6%p 또는 ±10%p에 해당한다는 사실을 사용자에게 알리지 않은 채 조사 결과를 유통하는 것은, 결국 조사 빗나감이 발생할 때마다 업계 전체에 대한 신뢰 손실로 돌아온다.


표집오차는 총조사오차의 한 성분이다. 보고도 거기에 맞추어 가야 한다.

댓글 없음:

댓글 쓰기

층화와 할당은 어떻게 다른가

층화와 할당은 어떻게 다른가 앞 글에서 층화와 집락의 차이를 다뤘다. 그런데 실무에서 더 자주 헷갈리는 짝이 따로 있다. 층화와 할당이다. 두 방식은 보고서 표로 찍어놓으면 거의 똑같이 생겼다. 시도×성별×연령 칸을 만들고 칸마다 인원을 정해서 채운다...