오차범위 ±3.1%p 뒤에 숨은 또 하나의 얼굴

  오차범위 ±3.1%p 뒤에 숨은 또 하나의 얼굴 — 지지율 3%인 정당의 진짜 오차범위는 얼마일까 앞선 글에서 오차범위 ±3.1%p가 상황에 따라 세 가지 얼굴을 가진다는 이야기를 했다. 한 후보 지지율을 볼 때와, 두 후보의 격차를 볼 때, 그리고 지난주와 이번주를 비교할 때가 모두 다르다는 내용이었다. 그런데 사실, 그 첫 번째 얼굴 안에도 또 하나의 얼굴이 숨어 있다. 같은 조사에서 뽑힌 숫자인데도, 지지율이 얼마냐에 따라 오차범위가 다르게 적용되어야 한다는 사실이다. 이건 교과서에는 한 줄로 지나가는데, 실제 기사에는 거의 반영되지 않는다. 기사에 적힌 ±3.1%p는 "최악의 경우"다 결론부터 말하면, 기사 하단에 적혀 있는 ±3.1%p는 지지율이 50%일 때의 값 이다. 그리고 이건 모든 경우를 통틀어 가장 큰 오차범위 다. 50%에서 멀어질수록, 다시 말해 아주 낮거나 아주 높은 지지율일수록 실제 오차범위는 작아진다. 숫자로 보면 이렇다. 지지율 실제 오차범위 (1,000명 조사 기준) 50% ±3.10%p 40% / 60% ±3.04%p 30% / 70% ±2.84%p 20% / 80% ±2.48%p 10% / 90% ±1.86%p 5% / 95% ±1.35%p 3% / 97% ±1.06%p 1% / 99% ±0.62%p 50%일 때 ±3.10%p던 것이, 지지율 3%짜리 군소 후보에게는 ±1.06%p 까지 줄어든다. 거의 3분의 1 수준이다. 왜 50%가 가장 불안한 숫자일까 직관적으로 생각해 보자. 상자 안에 빨간 공과 파란 공이 섞여 있다. 안을 들여다보지 않고 한 개씩 꺼내서 색깔을 맞혀 본다고 하자. 상자 안이 반반(50:50)일 때 다음에 꺼낼 공의 색깔이 뭘지 가장 예측하기 어렵다. 반반이라는 건 가장 애매한 상태니까. 빨간 공이 10%밖에 없다면 다음에 꺼낼 공은 거의 확실히 파란색이다. 예측하기 쉽다. 어쩌다 빨간 공이 나와도 전체 결과의 변동은 크지 않다. 빨간 공이 1%라면 ...

오차범위 ±3.1%p의 세 가지 얼굴

  오차범위 ±3.1%p의 세 가지 얼굴 여론조사 기사를 읽다 보면 "A 후보, 오차범위 내에서 B 후보에 앞서" 같은 표현을 자주 본다. 기사 하단에는 어김없이 "표본오차는 95% 신뢰수준에서 ±3.1%p"라는 문구가 붙는다. 그런데 이 ±3.1%p라는 숫자는, 사실 상황에 따라 전혀 다른 의미로 쓰인다 . 어떤 때는 그대로 써도 되고, 어떤 때는 두 배로 늘려 봐야 하며, 어떤 때는 아예 다시 계산해야 한다. 같은 숫자인데도 읽는 장면에 따라 얼굴이 바뀌는 셈이다. 이 차이를 알면 여론조사 기사를 훨씬 정확하게 읽을 수 있다. 오차범위가 등장하는 세 가지 서로 다른 장면을 하나씩 살펴보자. 첫 번째 얼굴 — 한 후보의 지지율을 볼 때 "A 후보 지지율 42%, 오차범위 ±3.1%p." 이 문장은 이렇게 읽으면 된다. "A 후보의 실제 지지율은 대략 38.9%에서 45.1% 사이 어딘가에 있다." 왜 구간으로 말할까. 전체 유권자가 아니라 1,000명만 조사했기 때문이다. 1,000명에서 뽑힌 숫자는 누구를 만나느냐에 따라 조금 높게, 조금 낮게 나올 수 있다. 그래서 "대략 이 정도 범위 안에 진짜 값이 있다"고 구간으로 말하는 것이다. 여기까지는 기사에 적힌 ±3.1%p를 그대로 써도 된다. 가장 단순한 얼굴이다. 두 번째 얼굴 — 두 후보의 격차를 볼 때 문제는 여기서부터다. "A 42%, B 39%, 격차 3%p, 오차범위 ±3.1%p." 이 기사를 많은 사람들이 이렇게 읽는다. "격차 3%p가 오차범위 3.1%p보다 작으니까, 결국 차이 없는 거네." 반만 맞다. 두 후보의 격차를 볼 때는 오차범위가 거의 두 배로 늘어난다 . 왜 그럴까. A의 지지율에도 불확실성이 있고, B의 지지율에도 불확실성이 있다. 각각 위아래로 흔들릴 수 있는 숫자인데, 그 둘의 차이 를 말하려면 양쪽의 흔들림이 합쳐져서...

단기 종단 웹조사의 방법론: 왜 옵트인 패널이 최선인가

  단기 종단 웹조사의 방법론: 왜 옵트인 패널이 최선인가 들어가며 최근 학술 연구에서 2주, 1개월, 3개월 간격의 단기 종단(short-term longitudinal) 웹조사 요청이 늘고 있다. 태도 변화의 측정, 정책 개입의 효과 평가, 특정 사건 전후의 인식 비교, 실험적 처치의 지속성 검증 등이 대표적 연구 질문이다. 이런 연구를 기획하는 연구자가 가장 먼저 부딪히는 문제는 **"어떤 패널, 어떤 프레임으로 종단 표본을 구성할 것인가"**이다. 이 질문에 대한 한국 조사 방법론 담론의 관행적 답은 "가능하면 확률표집, 어쩔 수 없으면 옵트인 패널"이다. 대표성의 위계가 자명한 전제로 깔려 있고, 옵트인 패널은 차선 으로 위치한다. 이 글은 이 위계가 단기 종단 설계에서는 성립하지 않는다는 점을 논증한다. 결론부터 말하면 이렇다. 단기 종단 웹조사에서 옵트인 패널은 차선이 아니라 설계 목적에 가장 부합하는 최선의 프레임이다. 이 주장은 단순히 "한국에는 확률표집 기반 종단 인프라가 없으니 어쩔 수 없다"는 체념적 논거가 아니다. 종단 분석의 통계적 성격, 패널 mortality의 구조, 한국 조사 인프라의 특수성이 맞물려 만들어지는 적극적 근거 가 있다. 1. 한국에서 단기 종단 웹조사의 선택지 한국에서 단기 종단 웹조사를 기획하는 연구자에게 실제로 열려 있는 선택지를 정직하게 나열하면 다음과 같다. 확률표집 기반 전화조사의 종단 적용 (CATI·ARS) : 원리상 가능하지만, 실무적으로 단기 종단 설계에 적합하지 않다. 전화조사는 설문 길이가 10분 내외로 제약되어 연구자가 원하는 구성개념 배터리를 담기 어렵고, 2주 뒤 동일 응답자 재접촉의 성공률은 재접촉 동의를 T1에서 따로 받은 경우에도 50%를 넘기기 어렵다. 학술 연구에서 이 방식을 쓰는 사례가 거의 없는 이유다. 통신사 번호 기반 SMS 웹조사 : 한국 확률표집 웹조사 프레임에 가장 가까운 방식이다. 그러나 구조적으로 ...

긴 웹설문이 '다른 종류의 연구'인 이유 — 장시간 설문 설계자를 위한 방법론 노트

  긴 웹설문이 '다른 종류의 연구'인 이유 — 장시간 설문 설계자를 위한 방법론 노트 들어가며 최근 학술 연구에서 60분을 넘나드는 긴 웹설문 요청이 부쩍 늘었다. Conjoint 배터리, vignette experiment, AI interviewer를 활용한 대화형 모듈, 종단적 구성개념 측정 등 복잡한 연구설계가 확산되면서 나타나는 자연스러운 흐름이다. 그런데 이런 긴 설문을 "짧은 여론조사의 늘어난 버전"으로 접근하는 순간, 연구 전체의 타당성이 흔들리기 시작한다. 이 글은 긴 웹설문을 설계하는 연구자가 반드시 이해해야 할 여섯 가지 방법론적 원리를 정리한 것이다. 핵심 주장은 단순하다. 긴 설문은 짧은 설문의 양적 연장이 아니라, 인식론적으로 다른 종류의 연구다. 이 점을 받아들이지 않으면 설계상의 모든 선택이 상호 충돌하는 논리 위에 놓인다. 1. 프레임 선택의 구조적 딜레마 한국의 주요 확률표집 프레임은 사실상 통신사 기반 문자조사다. 이 프레임은 5~10분 남짓의 짧은 조사에서 probability sampling의 장점이 극대화되도록 설계되어 있다. 콜드 리크루팅으로 접촉해 그 자리에서 완료하도록 하는 구조다. 60분짜리 설문에서는 이 구조가 역으로 작동한다. 완주율이 급락하면서 유효표본을 확보하기 위한 문자 발송량이 비현실적으로 커지고, 그나마 완주한 응답자들도 후반부 응답 품질이 전반부와 질적으로 달라진다. 결과적으로 '확률표집 프레임을 썼지만, 최종 데이터의 품질은 확률표집의 장점을 상당 부분 상실한' 기묘한 상태가 된다. 반대편 선택지는 조사회사 액세스 패널이다. 프로파일링이 완료된 패널에서 선별 리크루팅을 하고, 설문 길이와 주제를 사전 고지한 상태에서 자발적 참여를 받는다. 이 방식은 옵트인(opt-in) 기반 할당표집이므로, 엄밀한 의미의 확률표집이 아니다. 모집단 모수 추정의 통계적 근거는 약화된다. 여기서 연구자는 딜레마에 직면한다. 표본 프레임의 확률성을 유지하면...

사라진 것은 전화가 아니라 동시성이다 — 전화조사 응답률 하락의 기저에 대하여

  사라진 것은 전화가 아니라 동시성이다 — 전화조사 응답률 하락의 기저에 대하여 전화조사 응답률은 왜 계속 떨어지는가. 업계에서는 익숙한 설명들이 있다. 과잉조사, 스팸 전화, 보이스피싱에 대한 경계, 선거철 여론조사의 피로. 모두 일리가 있다. 그러나 이것들은 표면의 설명이다. 만약 전화조사 응답률 하락이 정말 이 수준의 원인들로만 설명된다면, 메시지 기반 조사는 지금보다 훨씬 높은 응답률을 유지해야 할 것이다. 현실은 그렇지 않다. 모든 동기적 접촉 방식의 응답률이 장기 추세로 하락하고 있다. 그래서 이 글은 응답률 하락을 한 단계 깊은 층위에서 다시 읽어 보려 한다. 전화조사 응답률의 하락은 조사 방법론 내부의 문제라기보다, 커뮤니케이션의 구조적 재편이라는 거대한 흐름의 특수한 한 단면이다. 1. 무엇이 실제로 변하고 있는가 "요즘 사람들은 대화보다 문자를 좋아한다"는 진단은 반쯤만 맞다. 음성 커뮤니케이션이 전반적으로 쇠퇴했다고 보기는 어렵다. 팟캐스트, 유튜브, 음성 메시지, 영상 통화는 모두 양적으로 팽창했다. 정확히 쇠퇴한 것은 '음성' 자체가 아니라 실시간으로 상호가 시간을 맞춰야 하는 커뮤니케이션 이다. 즉 우리가 목격하고 있는 것은 '대화에서 문자로'의 이동이 아니라, 동기식에서 비동기식으로 의 이동이다. 이 재정의가 가져다주는 설명력의 차이는 결정적이다. 그리고 수치적으로도 뒷받침된다. 영국 Ofcom은 2011년 모바일 음성통화 총량이 처음으로 감소했음을 보고했다. 이후 추세는 지속되고 있다. 미국 성인의 평균 주간 텍스팅 시간은 약 23시간에 달하는 반면, 하루 음성통화 시간은 15분 미만이다. 국내 자료에서도 방향은 같다. 알바천국 조사 기준으로 MZ세대의 약 30%, Z세대의 약 40%가 이른바 '콜포비아'를 스스로 보고한다. 대학내일20대연구소 조사에서 X세대는 과반(58%)이 통화를 주된 소통 수단으로 쓰는 반면, MZ세대는 SNS 선호가 평균 65.5%로...

서베이, 300번 묻다 : 총조사오차의 눈으로 본 서베이 방법론 문답집

서베이, 300번 묻다 총조사오차의 눈으로 본 서베이 방법론 문답집 ________________________________________ 서문 서베이는 쉬운 일처럼 보인다. 질문을 만들고, 사람을 모으고, 숫자를 낸다. 그런데 그 각각의 단계가 얼마나 복잡하고 민감한 작업인지를 아는 사람은 많지 않다. 누구에게 물을 것인가, 어떻게 물을 것인가, 결과를 어떻게 읽을 것인가 — 이 세 질문 중 하나라도 허술하면 서베이는 현실이 아니라 왜곡을 생산한다. 이 글은 서베이에 관한 300개의 질문으로 이루어져 있다. 입문자가 던지는 질문도 있고, 20년 경력의 조사자가 여전히 고민하는 질문도 있다. 정답이 명확한 것도 있고, 트레이드오프만 있을 뿐 정답이 없는 것도 있다. 공통점은 하나다. 모두 서베이를 제대로 이해하려면 반드시 통과해야 하는 질문들이다. 총조사오차(Total Survey Error) 프레임이 이 책의 뼈대다. 커버리지, 표집, 무응답, 측정, 처리, 가중, 분석 — 서베이의 모든 단계에서 오차가 생기고, 그 오차들은 서로 얽혀 있다. 좋은 서베이란 오차를 0으로 만드는 것이 아니라, 오차의 존재를 알고 관리하는 것이다. 300번의 질문 끝에 남는 것은 하나다. 서베이는 어렵고, 그 어려움을 아는 사람이 더 좋은 서베이를 만든다. ________________________________________ 1부. 서베이의 정의와 경계 Q1. 서베이는 정량조사인가? 일반적으로 그렇게 여겨지지만, 정확하지 않다. 서베이는 '체계적 수집'의 방법론이지 '정량'이라는 형식이 본질이 아니다. IDI나 FGD도 체계적으로 설계되면 서베이의 범주에 들어올 수 있다. 정량과 정성의 구분은 서베이를 이해하는 출발점이지, 서베이의 정의가 아니다. Q2. IDI(심층인터뷰)는 서베이인가? 넓은 의미에서는 서베이다. 표본을 선정하고, 구조화된 질문을 통해 태도·경험·인식을 수집하는 행위는 서베이의 본질과 다르지 않다. 다만 표준화 수준이 낮고 통...