오차범위 ±3.1%p의 세 가지 얼굴

 

오차범위 ±3.1%p의 세 가지 얼굴

여론조사 기사를 읽다 보면 "A 후보, 오차범위 내에서 B 후보에 앞서" 같은 표현을 자주 본다. 기사 하단에는 어김없이 "표본오차는 95% 신뢰수준에서 ±3.1%p"라는 문구가 붙는다.

그런데 이 ±3.1%p라는 숫자는, 사실 상황에 따라 전혀 다른 의미로 쓰인다. 어떤 때는 그대로 써도 되고, 어떤 때는 두 배로 늘려 봐야 하며, 어떤 때는 아예 다시 계산해야 한다. 같은 숫자인데도 읽는 장면에 따라 얼굴이 바뀌는 셈이다.

이 차이를 알면 여론조사 기사를 훨씬 정확하게 읽을 수 있다. 오차범위가 등장하는 세 가지 서로 다른 장면을 하나씩 살펴보자.


첫 번째 얼굴 — 한 후보의 지지율을 볼 때

"A 후보 지지율 42%, 오차범위 ±3.1%p."

이 문장은 이렇게 읽으면 된다. "A 후보의 실제 지지율은 대략 38.9%에서 45.1% 사이 어딘가에 있다."

왜 구간으로 말할까. 전체 유권자가 아니라 1,000명만 조사했기 때문이다. 1,000명에서 뽑힌 숫자는 누구를 만나느냐에 따라 조금 높게, 조금 낮게 나올 수 있다. 그래서 "대략 이 정도 범위 안에 진짜 값이 있다"고 구간으로 말하는 것이다.

여기까지는 기사에 적힌 ±3.1%p를 그대로 써도 된다. 가장 단순한 얼굴이다.


두 번째 얼굴 — 두 후보의 격차를 볼 때

문제는 여기서부터다.

"A 42%, B 39%, 격차 3%p, 오차범위 ±3.1%p."

이 기사를 많은 사람들이 이렇게 읽는다. "격차 3%p가 오차범위 3.1%p보다 작으니까, 결국 차이 없는 거네."

반만 맞다.

두 후보의 격차를 볼 때는 오차범위가 거의 두 배로 늘어난다. 왜 그럴까.

A의 지지율에도 불확실성이 있고, B의 지지율에도 불확실성이 있다. 각각 위아래로 흔들릴 수 있는 숫자인데, 그 둘의 차이를 말하려면 양쪽의 흔들림이 합쳐져서 더 커진다. 마치 저울 두 개로 무게를 재는데, 저울 A도 ±3g 오차, 저울 B도 ±3g 오차라면, "두 물건의 무게 차이"는 ±3g이 아니라 훨씬 더 큰 오차를 갖게 되는 것과 같다.

계산해 보면, 1,000명 조사에서 두 후보 격차의 오차범위는 약 ±6%p 정도가 된다. 즉 격차가 6%p를 넘어야 "통계적으로 A가 앞선다"고 말할 수 있고, 그보다 작으면 "누가 앞서는지 확신할 수 없다"가 정답이다.

사실 한국 언론에서 자주 쓰는 "오차범위 내 우세"라는 표현은 논리적으로 이상한 말이다. 오차범위 안쪽이라는 건 우세를 단정할 수 없다는 뜻인데, 거기에 "우세"를 갖다 붙이니까 말이 안 된다.


세 번째 얼굴 — 지난주와 이번주를 비교할 때

세 번째 장면은 추이 보도다.

"대통령 국정지지율, 지난주 45% → 이번주 48%, 3%p 상승."

이 헤드라인도 많은 독자가 "3%p 올랐다"를 그대로 받아들인다. 하지만 여기서도 오차범위를 다시 계산해야 한다.

지난주 조사와 이번주 조사는 완전히 다른 사람들에게 물어본 결과다. 지난주 1,000명, 이번주 또 다른 1,000명. 각각의 조사에 모두 불확실성이 있고, 그 두 불확실성이 합쳐진다. 두 번째 얼굴과 원리는 비슷하다.

계산해 보면 두 조사 사이 변화의 오차범위는 약 ±4.4%p. 즉 최소 4.4%p 이상 움직여야 "통계적으로 의미 있는 변화"라고 말할 수 있다. 3%p 정도의 상승은 대부분 조사할 때마다 나타나는 자연스러운 흔들림에 가깝다.

게다가 현실에서는 이보다 더 보수적으로 봐야 한다. 같은 조사 기관이라도 주마다 응답자 구성이 조금씩 달라지고, 그 주의 뉴스나 사회 분위기도 다르다. 전화 받은 시간대, 요일, 거절한 사람들의 특성까지 매번 다르다. 이런 요인들까지 고려하면 사실상 5~6%p 이상은 움직여야 "진짜 변화"라고 부를 수 있다.

그래서 여론조사 실무자들이 자주 쓰는 격언이 있다.

"한 번 변한 건 우연, 두 번이면 관심, 세 번 같은 방향이면 신호."

전주 대비 1~2%p 변동을 "지지율 회복세" "하락 전환" 같은 말로 보도하는 건, 대부분의 경우 노이즈를 시그널로 읽는 것이다.


"차이 없음"과 "우열 단정 불가"는 다르다

여기까지 세 가지 얼굴을 알았다면, 마지막으로 가장 중요한 구분을 하나 짚고 싶다.

격차 3%p가 오차범위 안쪽이면 많은 기사가 이렇게 쓴다. "A와 B, 사실상 동률" 또는 "차이 없음."

이건 틀린 표현이다.

정확한 표현은 "A와 B 중 누가 앞서는지 단정할 수 없다"이다. "차이 없다"와는 완전히 다른 말이다.

법정에서 무죄 판결을 떠올려 보자. 무죄 판결은 "이 사람이 결백하다"는 뜻이 아니다. "유죄라는 증거가 부족하다"는 뜻이다. 실제로 저질렀을 수도 있지만, 증거가 모자라 유죄라고 선언할 수 없을 뿐이다.

여론조사도 똑같다. 격차 3%p가 오차범위 안이라는 건 "A와 B가 똑같다"는 뜻이 아니라 "지금 우리가 가진 데이터로는 누가 앞서는지 확실히 말할 수 없다"는 뜻이다. 실제로는 누군가 조금이라도 앞서고 있다. 다만 우리가 확신할 수 없을 뿐.

더 구체적으로 말하면, A 42% vs B 39%일 때 A가 실제로 앞서고 있을 확률은 약 70% 정도 된다. 동전 던지기(50%)보다 훨씬 높은 숫자다. 완전히 동률이라고 보기 어려운 상태다.

그런데 현실에서는 이 정보가 이렇게 소실된다.

조사자 → "격차 3%p, 오차범위 내" 의뢰자 → "오차범위 내 접전" 기자 → "사실상 동률" 독자 → "차이 없대" 일상 대화 → "A랑 B랑 똑같더라"

원래 숫자에는 "A가 앞설 가능성이 70% 정도"라는 쓸모 있는 정보가 담겨 있었는데, 전달 과정에서 몽땅 사라져 버리는 것이다.


정리

장면오차범위주의할 점
한 후보 지지율  ±3.1%p   기사에 적힌 그대로 쓰면 됨
두 후보 격차  약 ±6%p   거의 두 배로 커짐
주간 추이 비교  약 ±5~6%p   사건 없이 생긴 작은 변동은 대부분 우연

그리고 오차범위 안의 격차는 "차이 없음"이 아니라 "우열 단정 불가"다.


여론조사의 숫자는 점(point)이 아니라 구간이다. 그리고 그 구간의 넓이는 무엇을 보느냐에 따라 달라진다. 한 후보를 볼 때와, 두 후보를 비교할 때와, 지난주와 이번주를 비교할 때가 모두 다르다.

이 구분만 머릿속에 두고 기사를 읽어도, 평균적인 여론조사 보도보다 훨씬 정확하게 숫자를 이해할 수 있다. 역으로 말하면, 많은 기자와 독자가 이 세 가지 얼굴을 하나로 뭉뚱그려 소비하기 때문에 선거 때마다 과장되거나 반대로 과소평가된 해석이 쏟아지는 것이기도 하다.

오차범위는 하나의 숫자지만, 얼굴은 셋이다. 어떤 얼굴을 마주하고 있는지 먼저 가늠해 보는 것, 그것이 여론조사를 읽는 가장 기본적인 리터러시다.

댓글

이 블로그의 인기 게시물

5점 척도 분석 시 (환산) 평균값이 최상일까?

이중차분법(DID)과 평행추세가정: 횡단 데이터로 정책 효과 측정하기

선거 여론조사 가중치 분석: 셀 가중 vs 림 가중, 무엇이 더 나은가?