표집오차와 통계적 추론: 25개 질문과 대답

Q53. 표집오차 ±3.1%p는 어디서 나오는가? n=1,000, 신뢰수준 95%, 응답 비율 p=0.5일 때 공식 1.96×√(0.5×0.5/1000)을 계산하면 약 ±3.1%p가 나온다. 여기서 p=0.5를 쓰는 이유는 이때 분산이 최대가 되기 때문이다. 즉 가능한 모든 응답 비율 중 가장 큰 오차를 보수적으로 제시하는 것이다. n=1,000이라는 관행도 이 숫자를 목표로 역산한 결과다.

Q54. 왜 최대 표집오차를 제시하는가? 실제 조사에서는 문항마다 응답 비율이 다르다. 60%가 찬성하면 표집오차는 ±3.1%p보다 작아진다. 하지만 조사 결과를 발표할 때 문항별로 다른 오차를 제시하면 복잡하다. 그래서 모든 비율에 적용 가능한 최대값, 즉 p=0.5 기준의 오차를 단일 대표값으로 쓴다. 보수적이지만 간명한 선택이다.

Q55. 95% 신뢰수준이란 무엇을 의미하는가? 같은 방식으로 100번 반복 조사하면 그 중 95번은 신뢰구간 안에 모집단 참값이 포함된다는 의미다. 이번 조사 결과가 95% 확률로 맞다는 뜻이 아니다. 이 구분은 중요하다. 현재 손에 든 조사 결과가 그 95번 안에 드는지, 아닌 5번 안에 드는지는 알 수 없다. 신뢰수준은 방법에 대한 장기적 보장이다.

Q56. 표집오차가 없어도 조사가 틀릴 수 있는가? 얼마든지 가능하다. 표집오차는 TSE의 일부일 뿐이다. 표집 과정이 완벽해도 편향된 질문, 낮은 응답률, 특정 집단의 과소 대표, 가중치 오류가 있으면 결과는 왜곡된다. 표집오차를 줄이는 데 집중하면서 다른 오차를 방치하는 것은 문을 잠갔는데 창문을 열어두는 것과 같다.

Q57. 비확률표집에서 표집오차를 제시해도 되는가? 엄밀히는 안 된다. 표집오차는 확률표집을 전제로 하는 개념이다. 무작위 선정이 없으면 표본 분포 이론이 성립하지 않고, 그 토대 위에서 계산되는 표집오차도 의미를 잃는다. 그러나 현실에서 온라인 패널 조사에 ±3.1%p를 붙이는 관행이 광범위하다. 수치는 있지만 의미는 없는 숫자다.

Q58. 온라인 패널 조사에 ±3.1%p를 붙이는 것은 맞는가? 맞지 않다. 온라인 패널은 자발적 가입자 집단으로 확률표집의 전제를 충족하지 않는다. 이론적으로 표집오차를 계산할 수 없다. 그럼에도 관행적으로 오차를 제시하는 것은 과학적 권위를 빌리는 행위다. 공직선거법이 이를 요구하는 구조도 문제지만, 방법론 공개 없이 숫자만 내세우는 것은 더 큰 문제다.

Q59. 유의수준 5%는 왜 관행이 됐는가? 1920년대 통계학자 피셔(Fisher)가 편의상 제안한 기준이 그대로 굳어진 것이다. 과학적 근거가 있는 절대 기준이 아니다. 분야에 따라 물리학은 0.00003%, 심리학은 5%를 쓰기도 한다. 5%라는 숫자는 '틀릴 위험을 얼마나 감수할 것인가'에 대한 판단이지, 자연이 정해준 경계선이 아니다.

Q60. p-value 0.049와 0.051은 실질적으로 다른가? 통계적으로는 다르다. 하나는 유의하고 하나는 그렇지 않다. 하지만 실질적으로는 거의 같다. 두 값의 차이는 표집의 우연적 변동 수준이다. 0.05라는 경계를 넘었는지 여부로 결과를 이분화하는 것은 연속적인 불확실성을 인위적으로 단절시킨다. p-value는 이분 판단의 도구가 아니라 불확실성의 크기를 보여주는 연속값이다.

Q61. 통계적 유의성과 실질적 중요성은 어떻게 다른가? 표본이 크면 아주 작은 차이도 통계적으로 유의해진다. n=100,000이면 1%p 차이도 유의할 수 있다. 하지만 1%p 차이가 정책적, 상업적으로 의미 있는지는 별개 문제다. 반대로 표본이 작으면 실질적으로 큰 차이도 유의하지 않게 나올 수 있다. 유의성 검정 결과만 보고 중요성을 판단하면 안 된다.

Q62. 서브그룹 분석에서 표집오차는 어떻게 달라지는가? 서브그룹의 n이 줄어들면 표집오차는 급격히 커진다. 전체 n=1,000이어도 20대 남성만 보면 n=80 수준일 수 있고, 이때 표집오차는 ±11%p에 가까워진다. 서브그룹 분석 결과를 전체 결과처럼 단정적으로 해석하는 것은 위험하다. 서브그룹 분석을 계획했다면 처음부터 충분한 n을 확보해야 한다.

Q63. 교차분석에서 셀 빈도가 작으면 어떤 문제가 생기는가? 카이제곱 검정의 전제가 흔들린다. 일반적으로 각 셀의 기대빈도가 5 미만이면 검정 결과를 신뢰하기 어렵다. 실제 빈도가 0인 셀이 있으면 더 심각하다. 이때는 범주를 통합하거나 피셔의 정확검정을 쓰는 것이 적절하다. 셀 빈도를 확인하지 않고 p-value만 보고하는 것은 기초를 건너뛰는 것이다.

Q64. 선거 여론조사에서 오차범위 내 접전이란 무슨 의미인가? 두 후보의 지지율 차이가 표집오차 이내에 있다는 뜻이다. 예를 들어 A 45%, B 43%이고 오차가 ±3.1%p라면, 실제로는 B가 앞설 가능성도 통계적으로 배제할 수 없다. 그러나 이것은 확률의 문제이지 동률을 의미하지 않는다. 오차범위 내라도 A가 앞설 가능성이 더 높다. 미디어는 이 뉘앙스를 자주 놓친다.

Q65. 여론조사 집계(aggregation)는 왜 개별 조사보다 정확한가? 여러 조사를 평균하면 각 조사의 무작위 오차가 상쇄되기 때문이다. 개별 조사는 표본 추출의 우연에 따라 실제보다 높거나 낮게 나올 수 있지만, 여러 조사를 모으면 그 우연들이 평균으로 수렴한다. 미국 대선 예측에서 FiveThirtyEight 같은 집계 사이트가 개별 조사보다 정확한 이유다. 단, 편향이 모든 조사에 공통이면 집계도 편향된다.

Q66. 베이지안 접근법은 서베이에서 어떻게 쓰이는가? 사전 정보(prior)를 활용해 추정을 개선한다. 예를 들어 과거 선거 결과나 인구통계 정보를 사전분포로 넣으면, 작은 표본에서도 안정적인 추정값을 얻을 수 있다. 소지역 추정, 다층 회귀 및 사후층화(MrP) 등에 활용된다. 빈도주의 접근이 데이터만 보는 것이라면, 베이지안은 우리가 이미 아는 것에서 출발한다.

Q67. 작은 지역 단위 추정(small area estimation)이란 무엇인가? 전체 표본에서 특정 소지역의 n이 너무 작아 직접 추정이 불안정할 때, 다른 지역 정보나 보조 데이터를 빌려와 추정 정밀도를 높이는 방법이다. 다층 회귀와 사후층화(MrP)가 대표적이다. 전국 1,000명 조사로 시군구 단위 추정을 하거나, 소수집단의 의견을 추정할 때 유용하다. 모델 의존성이 높다는 것이 한계다.

Q68. 반복조사에서 변화량의 오차는 어떻게 계산하는가? 두 시점의 추정값 차이에는 각 시점의 오차가 누적된다. 1차 조사 오차와 2차 조사 오차가 독립적이라면 변화량의 표준오차는 각각의 표준오차를 제곱합 후 제곱근으로 계산한다. 이 때문에 변화량의 오차는 단일 시점보다 항상 크다. 작은 변화를 의미 있는 트렌드로 해석하기 전에 변화량의 오차를 반드시 확인해야 한다.

Q69. 분할표본실험(split-ballot)은 왜 유용한가? 동일 조사에서 서로 다른 버전의 질문을 무작위로 배분해 응답 차이를 실험적으로 검증할 수 있기 때문이다. 질문 프레이밍, 척도 형식, 선택지 순서 등이 응답에 미치는 영향을 측정하는 데 최적의 방법이다. 무작위 배분 덕분에 집단 간 비교가 인과적으로 해석될 수 있다. 설문지 설계 연구의 핵심 도구다.

Q70. 신뢰구간이 겹쳐도 통계적으로 유의한 차이가 있을 수 있는가? 그렇다. 두 집단의 신뢰구간이 겹친다고 해서 반드시 차이가 유의하지 않은 것이 아니다. 신뢰구간 겹침은 유의성 검정보다 보수적인 기준이다. 차이의 신뢰구간이 0을 포함하는지 여부가 정확한 판단 기준이다. 신뢰구간 시각화를 보고 '겹치니까 차이 없다'고 결론 내리는 것은 흔한 오류다.

Q71. 표본오차와 비표본오차 중 어느 것이 더 큰 문제인가? 실무에서는 비표본오차가 더 큰 문제인 경우가 많다. 표본오차는 수식으로 계산되고 n으로 통제할 수 있다. 비표본오차(측정 오차, 무응답 오차, 커버리지 오차 등)는 측정 자체가 어렵고, n을 늘려도 해결되지 않는다. 그러나 보고서에는 표본오차만 명시되고 비표본오차는 언급조차 없는 경우가 대부분이다.

Q72. 효과크기(effect size)를 왜 같이 보고해야 하는가? 통계적 유의성은 차이가 존재하는지를 말해주지만, 그 차이가 얼마나 큰지는 말해주지 않는다. 효과크기(Cohen's d, η², Cramér's V 등)는 차이의 실질적 크기를 표준화된 방식으로 표현한다. n이 크면 작은 효과도 유의해지므로, 유의성만 보고하면 작은 차이를 과장하게 된다. 유의성과 효과크기를 함께 봐야 완전한 그림이 나온다.

Q73. n이 클수록 표집오차는 무한히 줄어드는가? 수학적으로는 그렇지만 실용적으로는 한계가 있다. n=1,000과 n=10,000의 표집오차 차이는 크지만, n=10,000과 n=100,000의 차이는 이미 무시할 만한 수준이다. 표집오차는 n의 제곱근에 반비례하므로 감소 폭이 점점 작아진다. 그 수준을 넘어서면 비용만 늘고 정밀도 개선은 미미하다. 수익체감의 법칙이 적용된다.

Q74. 오차범위를 줄이는 방법은 n을 늘리는 것뿐인가? 아니다. 층화표집을 잘 설계하면 같은 n으로도 더 작은 오차를 얻을 수 있다. 관심 변수와 강하게 관련된 변수로 층화하면 층 내 분산이 줄어들어 추정 효율이 높아진다. 또한 보조 정보를 활용하는 비율 추정이나 회귀 추정도 효율을 높이는 방법이다. n만이 답이 아니라 설계가 답이다.

Q75. 표집오차와 측정오차 중 어느 쪽이 더 통제하기 어려운가? 측정오차다. 표집오차는 확률 이론에 따라 계산되고 n으로 통제 가능하다. 하지만 측정오차는 질문 문구, 응답자 인지, 사회적 바람직성, 맥락 효과 등 수많은 요인이 얽혀 있고, 크기를 수식으로 계산할 수도 없다. 그런데 대부분의 조사는 측정오차는 방치하고 표집오차만 관리한다. 관리하기 쉬운 것만 관리하는 것이다.

Q76. 신뢰수준 99%와 95%는 어떤 차이를 만드는가? 신뢰수준을 높이면 신뢰구간이 넓어진다. 95%에서 99%로 바꾸면 z값이 1.96에서 2.576으로 커지고, 표집오차는 약 31% 늘어난다. n=1,000이면 ±3.1%p가 ±4.1%p로 커진다. 더 확실하게 보장받으려면 더 큰 불확실성 범위를 감수해야 한다. 신뢰수준은 공짜로 높일 수 없다.

Q77. 표집오차는 왜 표본 크기의 제곱근에 반비례하는가? 표본 평균의 분산이 모분산을 n으로 나눈 값이기 때문이다. 표준오차는 그것의 제곱근이므로 √n에 반비례한다. 이것이 의미하는 바는 오차를 절반으로 줄이려면 n을 4배로 늘려야 한다는 것이다. 정밀도를 높이는 비용이 선형이 아니라 기하급수적으로 증가한다. 이것이 표본 크기 결정에서 트레이드오프가 생기는 이유다.

댓글

이 블로그의 인기 게시물

5점 척도 분석 시 (환산) 평균값이 최상일까?

이중차분법(DID)과 평행추세가정: 횡단 데이터로 정책 효과 측정하기

선거 여론조사 가중치 분석: 셀 가중 vs 림 가중, 무엇이 더 나은가?