메소드서베이: 2026

2026년 6월 12일 금요일

결국 과거 투표였다: 사회경제 변수 가중의 실패기

요즘 여론조사를 보는 사람들이 공통으로 품는 의심이 있다. 여당 지지가 실제보다 높게, 제1야당 지지가 실제보다 낮게 나오는 것 아니냐는 것이다. 조사하는 사람 입장에서 이 의심은 불쾌하지만 근거가 없지 않다. 응답이라는 행위 자체가 선택이고, 누가 응답을 선택하는지가 표본의 정치적 구성을 결정하기 때문이다. 문제는 처방이다. 성, 연령, 지역이야 할당과 가중으로 맞춘다 치고, 그다음에 무엇을 더 맞춰야 이 쏠림이 잡히는가.

직관적인 답은 사회경제적 배경이다. 학력이 높은 사람, 사무직, 자가 보유자가 과대 표집된다면 교육수준이나 직업이나 주택 변수를 가중에 추가하면 되지 않겠는가. 나도 그렇게 생각했고, 그래서 자체 조사 데이터로 하나씩 확인해 봤다. 결론을 먼저 말하면, 쏠림은 실재했고 보정은 작동했는데 정치 지표는 꿈쩍도 하지 않았다.

쏠림은 분명히 있다

벤치마크는 통계청 2025년 사회조사를 썼다. 만 18세 이상 가구원 3만 2천여 명에 가구원가중값을 적용하면 국내에서 구할 수 있는 가장 믿을 만한 인구·사회 분포가 나온다. 여기에 자체 휴대전화 웹조사(전국 만 18세 이상 2,530명, 성·연령·지역 가중)를 비교했다. 비교 변수는 일부러 할당에 쓰지 않은 것들로만 골랐다. 할당 변수의 일치는 설계의 결과일 뿐 대표성의 증거가 아니기 때문이다.

결과는 교과서적이었다. 경제활동 비율은 벤치마크와 0.4%p 차이로 사실상 일치했고, 가구소득 분포도 저소득층이 5.8%p 덜 잡힌 것 외에는 구간별로 잘 붙었다. 자영업 비중은 0.2%p 차이로 거의 정확했다. 반면 교육수준은 고졸 이하가 벤치마크보다 12.8%p 적었고, 직업에서는 사무·관리·전문직이 8.8%p 많고 생산·기능·노무직이 8.1%p 적었다. 고학력 화이트칼라 쏠림이다. 서울 지역 조사에서는 자가 거주자가 사회조사 서울 기준(48.4%)보다 7%p 가까이 많이 잡힌 표본도 있었다. 자기선택형 웹조사에서 늘 보고되는 패턴이고, 전화조사라고 다르지 않다.

그런데 보정해도 아무 일도 일어나지 않는다

여기까지 보면 처방은 자명해 보인다. 교육, 소득, 직업을 림가중 차원에 추가하면 된다. 실제로 했다. 성×연령 12셀과 지역 7권역은 기존 목표를 유지하고 교육 3구간, 가구소득 4구간, 직업 7구분을 사회조사 분포에 맞춰 레이킹을 돌렸다. 수렴은 깔끔했고 가중 효율 손실도 유효표본 90%에서 78%로 감당할 만했다.

그리고 국정평가는 0.2%p, 정당지지는 0.3%p 움직였다. 대선 투표 회상도 0.3%p 안에서 멈췄다. 12.8%p짜리 교육 쏠림을 전부 걷어냈는데 정치 지표는 측정오차 수준에서 끝난 것이다. 움직인 것은 이념성향(진보가 1.8%p 감소)과 주식투자 경험(4.2%p 감소)뿐이었는데, 둘 다 방향이 이론과 일치한다. 고학력층이 더 진보적이고 주식투자는 소득·교육과 직결되니, 림가중 자체는 정확히 작동했다는 뜻이다.

서울시장 선거 관련 조사 두 건에서도 같은 실험을 반복했다. 주택 점유형태를 사회조사 서울 분포에 맞추고, 주택소유 여부는 벤치마크가 약해서 목표값을 48%에서 59%까지 시나리오로 움직여 봤다. 후보 가상대결 지지율의 변화는 어떤 시나리오에서도 1%p 안팎이었고, 점유형태 기준으로는 오히려 보수 후보가 미세하게 깎이는 역방향이 나왔다. 표본이 자가 거주자를 과대 표집하고 있었기 때문이다. 부동산이 의제인 선거에서조차 주택 변수 가중은 판을 못 움직였다.

왜 안 움직이는가

산수는 단순하다. 가중으로 추정치가 움직이려면 두 조건이 동시에 성립해야 한다. 추가하는 변수에서 표본과 모집단이 어긋나 있어야 하고, 기존 가중을 통제한 뒤에도 그 변수가 종속변수와 상관이 남아 있어야 한다. 사회경제 변수들은 첫째 조건은 충족했지만 둘째에서 무너졌다. 한국 정치 태도의 분산은 연령이 압도적으로 흡수한다. 성과 연령과 지역을 이미 맞춘 표본에서 같은 연령대의 고졸과 대졸은, 유주택자와 무주택자는, 정당 선호가 생각만큼 다르지 않다. 그리고 고학력 쏠림은 진보 응답자와 보수 응답자 양쪽에서 비슷한 비율로 일어난다. 구성을 바꿔도 비율이 안 바뀌는 이유다.

뒤집어 말하면, 여론조사의 당파적 쏠림은 학력이나 자산을 경유해서 생기는 현상이 아니다. 정치적 관여와 당파성 그 자체의 차원에서 생긴다. 지금 국면에서는 정권 지지층이 조사에 더 적극적으로 응한다는 요인까지 겹친다. 인구·사회경제 변수는 이 차원을 비껴간다. 비유하자면 열이 나는 환자에게 체중을 맞추는 옷을 입히는 셈이다.

움직이는 것은 과거 투표뿐이다

같은 데이터에 대선 투표 회상을 가중 차원으로 추가하면 이야기가 달라진다. 표본의 회상 분포를 실제 개표 결과에 맞추는 순간 정당지지는 두 자릿수 %p가 이동했고, 그 이동은 거의 전부 양당 사이에서 일어났다. 무당층과 소수 정당은 거의 흔들리지 않았다. 보정이 표본을 뒤엎는 게 아니라 양당 회상층의 비율만 재조정한다는 뜻이다. 서울 조사에서도 후보 가상대결 격차가 크게 좁혀졌다. 사회경제 변수 다섯 개를 갈아 넣어도 1%p가 안 나오던 자리에서, 회상 변수 하나가 6~13%p를 움직였다.

이게 우연이 아닌 것이, 과거 투표는 두 가지 점에서 특별하다. 첫째, 개표 결과라는 행정 기준값이 존재하는 유일한 정치 변수다. 교육이나 소득의 벤치마크는 결국 다른 조사의 추정치지만 득표율은 추정치가 아니다. 둘째, 당파적 응답 선택이라는 문제의 발생 차원에 직접 닿아 있다. 퓨리서치가 ATP 패널을 정당일체감, 유권자 등록, 자원봉사로 캘리브레이션하는 것, 영국 조사업계가 1992년 총선 참사 이후 과거 투표 가중을 표준 도구로 정착시킨 것 모두 같은 결론의 다른 표현이다.

다만 회상은 거짓말을 한다

물론 공짜는 아니다. 과거 투표 회상에는 잘 알려진 두 가지 오염이 있다. 하나는 투표율 과대보고다. 내 데이터에서 비투표 응답은 9% 수준이었는데 실제 기권율은 20%가 넘었다. 다른 하나는 승자 쏠림 허위 회상이다. 시간이 지나면 패자에게 투표한 사람의 일부가 승자에게 투표했다고, 혹은 투표하지 않았다고 답하게 된다. 영국에서 2017년 직후 41%였던 노동당 투표 회상이 2년 뒤 같은 패널에서 한참 낮아진 것이 유명한 사례다.

그래서 적용 방식이 중요하다. 내가 정착시키려는 원칙은 이렇다. 첫째, 투표율은 건드리지 않는다. 기권을 인정한 소수가 전체 기권자의 대표라는 보장이 없으므로, 비투표·모름 칸은 표본 비율을 그대로 목표값으로 두고 투표층 내부의 후보 구성만 실제 득표율 비례로 맞춘다. 둘째, 회상의 질을 문항에서 끌어올린다. 무기명 투표 프레임, 기억나지 않음 보기, 그리고 "투표하려 했지만 사정이 생겨 못 했다" 같은 체면 유지 보기가 기권 인정률을 올린다는 것은 벨리 연구진 이래 반복 검증된 결과다. 셋째, 반복 조사라면 선거 직후 웨이브에서 받아둔 투표 응답을 패널로 고정해 회상 이동 자체를 차단한다. 유고브와 오피니엄이 쓰는 방식이다. 넷째, 단일 수치를 고집하지 않는다. 기본 가중과 당파 보정 가중을 나란히 제시하면 진실이 들어 있을 구간이 나오고, 그 구간 보고가 어느 한쪽 수치보다 정직하다. 허위 회상이 승자 쪽으로 쏠리는 만큼 당파 보정값은 보수 진영의 하한이 아니라 상한에 가까울 수 있다는 단서도 함께 단다.

마지막으로 제도적 단서 하나. 공표용 선거 여론조사는 성, 연령, 지역 외의 가중이 허용되지 않는다. 과거 투표 가중은 비공표 기획조사와 내부 분석의 도구이지 공표 조사의 도구가 아니다. 그러나 바로 그 비공표 영역에서, 우리가 매일 보는 공표 수치들이 어느 방향으로 얼마나 쏠려 있을 수 있는지를 측정하는 자가 더 정확한 판단을 내린다.

정리하자. 사회경제 변수 가중은 표본의 인구·사회적 대표성을 점검하고 전시하는 데에는 유용하다. 그러나 여론조사의 당파적 쏠림을 교정하는 데에는 무력하다는 것이 내 데이터가 세 번 반복해서 보여준 결과다. 쏠림이 생기는 차원에 보정을 걸어야 하고, 그 차원의 이름은 과거 투표 행태다. 1992년의 영국이 도달했던 결론에 2026년의 우리가 자기 데이터로 다시 도달하고 있는 셈이다.

2026년 5월 30일 토요일

푸시투웹을 둘러싼 오해와 한국 통계조사의 진짜 장벽

나는 오랫동안 한 가지를 잘못 알고 있었다. 미국이 우편으로 웹조사 초대장을 보내는 push-to-web을 할 수 있는 건, 표본으로 뽑은 사람의 이름과 연락처를 알기 때문이라고 생각했다. 주소에 이름이 붙어 있으니 "○○○님께"로 편지를 보내고, 응답이 없으면 전화를 걸어 독촉하는 그림을 떠올렸다.

틀렸다. 미국 push-to-web의 출발점에는 이름도 전화번호도 없다. 주소뿐이다.

이 사실 하나를 바로잡고 나니, 한국 통계조사가 왜 아직 조사원의 발품에 묶여 있는가에 대한 내 진단도 통째로 다시 그려야 했다. 오늘 정리하는 글은 그 다시 그리기의 기록이다.

미국은 주소로만 보낸다

미국 ABS(Address-Based Sampling)의 표집틀은 USPS(미국우정청)의 배달순서파일(DSF)을 상업적으로 복제한 주소 목록이다. 연구자는 이 목록을 USPS에서 직접 받지 못하고 MSG(Marketing Systems Group) 같은 민간 벤더에게서 산다. 거기 담긴 것은 거주지 주소와 지오코드다. 이름도 전화번호도 소득도 없다.

그러면 가구 안에서 누구를 응답자로 삼는가. 생일이다. Pew Research Center가 SSRS에 의뢰해 수행한 2025년 NPORS(National Public Opinion Reference Survey) 방법론 문서를 보면 이 설계가 그대로 드러난다. MSG가 USPS 전산 배달순서파일에서 뽑아 제공한 약 1만 8,800가구의 주소로, 일반우편(first-class mail)으로 초대장을 보낸다. 편지는 특정 개인이 아니라 그 가구의 한 사람에게 응답을 요청하고, 성인이 둘 이상이면 다음 생일을 맞는 성인이 응답하도록 안내한다. 전화도 우리가 흔히 떠올리는 추적 전화가 아니다. 편지에 무료 전화번호를 적어두고 원하는 응답자가 직접 걸어 면접원과 응답하는 inbound 방식이다. 최종 응답률(AAPOR RR1)은 29%였다.

여기서 두 가지가 분명해진다. 등기가 아니라 일반우편이라는 것, 그리고 이름으로 개인화하지 않는다는 것이다. 가구 앞으로 보내고, 가구 안에서는 생일로 한 명을 고른다.

연방정부의 ACS(American Community Survey)도 다르지 않다. 표본 주소로 먼저 인터넷 응답을 요청하는 우편물을 보내고, 응답이 없으면 종이 설문지를 보내고, 그래도 안 되면 조사원이 직접 방문한다. 한때 있던 전화(CATI) 단계는 2017년 9월에 폐지됐다. ACS의 우편물 역시 개인 이름이 아니라 그 주소의 거주자 앞으로 간다. 정부 조사인 ACS는 상업적으로 이름·전화를 매칭한 표본을 쓰지 않는다.

"이름이 있다"는 절반만 맞다

그렇다면 내가 알던 "미국엔 이름이 있다"는 완전한 착각이었나. 그렇지는 않다. 다만 그 이름은 다른 데서 온다.

MSG 같은 벤더는 ABS 주소 표본에 옵션으로 이름, 전화번호, 세대주의 연령·성별 같은 정보를 매칭해 붙여 판다. 그러나 이 매칭은 완전하지 않다. 변수에 따라 평균 매칭률이 65~75% 수준이라 표본 전체가 아니라 일부에만 이름·전화가 붙는다. 그리고 무엇보다 이건 사면 받는 선택 옵션이지 모든 조사가 쓰는 기본값이 아니다. 앞서 본 Pew NPORS는 이 옵션을 쓰지 않고 순수하게 주소와 생일법으로 갔다.

이름과 연락처가 풍부하게 붙는 건 오히려 선거 쪽이다. 미국의 voter file은 주 단위 선거인 등록자료를 L2, Catalist, TargetSmart 같은 업체가 모아 이름·주소·정당등록·투표이력에 전화번호와 인구통계 추정치까지 붙여 판매한다. 미국 정치 여론조사가 RDD에서 voter file 기반으로 옮겨간 까닭이다.

정리하면 이렇다. 미국의 기본 통계 인프라(Census MAF, USPS DSF)는 주소만 담는다. 이름·전화는 민간 벤더가 파는 선택적 강화이거나 voter file이라는 별도 자료에서 온다. "미국엔 이름이 있다"와 "미국엔 이름이 없다"가 둘 다 부분적으로 맞는 건, 어느 자료를 말하느냐가 다르기 때문이다.

미국도 지역확률을 버리지 않았다

한 걸음 더 들어가면 흥미로운 사실을 만난다. 미국이 ABS로 다 갈아탔다는 인상과 달리, 가장 정교한 확률 패널은 여전히 지역확률표집의 골격을 안고 있다.

NORC의 AmeriSpeak 패널이 그렇다. 이 패널의 표집틀인 NORC National Frame은 단순한 주소 목록이 아니다. 1차로 대도시권·카운티 규모의 추출단위를 뽑고, 2차로 센서스 트랙·블록그룹에서 정의한 세그먼트를 확률비례로 뽑은 뒤, 그 세그먼트 안의 가구를 USPS DSF로 목록화한다. 그리고 DSF 커버리지가 부족한 세그먼트는 현장 listing으로 보완한다. 2019년 모집에서는 1,514개 세그먼트 가운데 123개를 현장 listing으로 메웠고, 이렇게 8만 가구가량의 농촌 가구를 직접 명부에 더했다. 그 결과 순수 ABS면 92% 수준인 커버리지가 97%까지 올라간다.

접촉도 우편 하나가 아니다. 우편과 전화, 현장 면접원까지 동원하고, 초기 무응답 가구의 일부를 다시 뽑아 면접원이 직접 찾아가는 2단계 설계다. 청년층을 더 뽑기 위해 MSG나 TargetSmart가 "이 가구에 18~24세가 있다"고 표시한 정보를 활용하기도 한다. 앞서 말한 voter file·소비자 데이터 강화가 여기서 실제로 작동하는 것이다.

이 National Frame이 바로 GSS(General Social Survey) 같은 대표적 조사에 쓰여 온 지역확률표본이다. 다단계로 지역을 뽑고, 세그먼트 안에서 가구를 목록화하고, 일부는 현장에서 명부를 만든다. 한국의 조사구 방식과 같은 계보다. NORC는 조사구식 골격을 버린 게 아니라, 세그먼트 안 가구 목록을 현장 listing 대신 DSF로 현대화하고 그것을 재사용 가능한 패널로 만들었을 뿐이다.

그렇다면 한국은

이쯤 되면 "한국은 조사구를 쓰니 대면조사를 할 수밖에 없다"는 익숙한 명제가 흔들린다.

먼저 표집틀이 데이터 수집 모드를 결정하지 않는다. AmeriSpeak가 산 증거다. 조사구식 지역확률 프레임을 쓰면서도 응답은 대부분 웹으로 받는다. 프레임이 조사구냐 주소 목록이냐와, 응답을 대면으로 받느냐 웹으로 받느냐는 별개 문제다. "조사구라서 대면"은 인과를 잘못 잡은 진술이다.

여기에 더 결정적인 사실이 있다. 지금 한국의 조사구는 이미 가구 주소를 갖고 있다. 2015년부터 한국의 인구주택총조사는 등록센서스 방식으로 바뀌었다. 전국 가구를 일일이 방문하지 않고 주민등록부와 건축물대장 같은 행정자료를 연계해 인구·가구·주택을 파악한다. 통계청은 누가 어느 주소에 사는지를 행정자료로 이미 알고 있고, 그 인구주택총조사 결과가 각종 경상조사 표본틀의 기초자료가 된다. 그러니 "조사구는 경계선일 뿐 주소는 조사원이 가야 안다"는 말은 현장 listing 시대의 이야기지 지금 맞는 설명이 아니다.

실무는 더 분명하다. 통계청 승인통계의 경우 신청 기관에 목표 표본의 2배수에 해당하는 조사구를 제공한다. 발송할 주소가 부족하기는커녕 넉넉하다. 미국식 push-to-web을 시도할 재료가 이미 손에 있다는 뜻이다.

그러니 질문은 바뀌어야 한다. 주소가 있는데 왜 아직 방문면접인가.

진짜 장벽은 조사표다

답은 표집틀이 아니다. 조사표다.

한국의 승인통계 조사표는 조사원 면접을 전제로 최적화되어 있다. 자기기입으로 옮기는 순간, 조사원이 보이지 않게 처리하던 일들이 전부 응답자에게 넘어간다. 복잡한 분기를 대신 따라가 주고, 모르는 용어를 설명해 주고, 짧은 답에 한 번 더 캐묻고, 긴 보기 목록을 카드로 제시하던 그 모든 보조가 사라진다. 게다가 면접은 조사원이 응답자를 끝까지 끌고 가지만 자기기입에는 동기를 붙들어 줄 사람이 없다. 설문이 길수록, 특히 응답자 다수가 모바일을 쓰는 환경에서 중도이탈이 급증한다. 미국 ACS가 자기기입용으로 짧고 단순한 양식을 따로 둔 것은 우연이 아니다.

조사표가 가장 큰 장벽이라는 진단에는 역설이 하나 숨어 있다. 이것이 동시에 가장 손댈 수 있는 변수라는 점이다. 표집틀을 행정자료로 새로 짜거나 자료 접근의 법적 근거를 마련하는 일은 통계법 개정과 부처 간 협상을 요구한다. 그러나 조사표를 자기기입용으로 다시 쓰는 일은 통계청 자신의 권한 안에 있다. 입법 없이 내일이라도 착수할 수 있는, 거의 유일한 변수다.

다만 거기에는 청구서가 따라온다. 조사표를 자기기입용으로 다시 쓰면 모드효과로 응답 분포가 바뀐다. 그 순간 과거 시계열과의 비교가 흔들린다. 국가승인통계에서 시계열 단절은 작은 문제가 아니다. 미국도 ACS에 인터넷 응답을 도입할 때 수년간 병행조사로 모드효과를 측정하고 흡수했다. 자기기입용 재설계의 난도는 새 문항을 만드는 데 있는 게 아니라, 그 전환을 하면서 과거와의 비교 가능성을 어떻게 지키느냐에 있다.

다시 그린 결론

처음으로 돌아가자. 나는 미국이 이름과 연락처를 쥐고 있어서 push-to-web을 한다고 믿었다. 실제로는 주소만으로, 생일법으로 한 명을 골라 보내고 있었다. 그리고 한국은 등록센서스 덕분에 이미 그 주소를 갖고 있다. 승인조사라면 2배수 조사구로 충분한 주소를 받는다.

그래서 한국형 MAF를 새로 만들자던 예전의 내 결론은 과녁이 살짝 빗나가 있었다. 문제는 "인프라가 없다"가 아니다. 인프라는 거의 다 있다. 남은 것은 조사표를 자기기입에 맞게 다시 쓰는 일, 그리고 그 과정에서 생기는 모드효과와 시계열 단절을 관리하는 일이다.

표집틀 탓을 멈추고 조사표를 다시 보는 순간, 한국 통계조사의 웹 전환은 먼 제도 개혁의 이야기에서 당장 시작할 수 있는 설계의 이야기로 옮겨온다. 적어도 그 첫 페이지는 오늘 우리가 쥐고 있는 재료만으로도 넘길 수 있다.

2026년 5월 12일 화요일

층화와 할당은 어떻게 다른가

앞 글에서 층화와 집락의 차이를 다뤘다. 그런데 실무에서 더 자주 헷갈리는 짝이 따로 있다. 층화와 할당이다. 두 방식은 보고서 표로 찍어놓으면 거의 똑같이 생겼다. 시도×성별×연령 칸을 만들고 칸마다 인원을 정해서 채운다는 것이 둘 다 똑같다. 그런데 통계적 성격은 완전히 다르다.

외형이 같아서 헷갈린다

층화추출 결과표와 할당추출 결과표를 나란히 놓으면 구분이 안 된다. 둘 다 이런 식이다.

서울 20대 남자 30명

서울 20대 여자 30명

서울 30대 남자 35명

…

표본 구성, 분포, 칸별 인원 모두 비슷하게 보인다. 그래서 "할당이지만 층화처럼 보이는 표"가 한국 여론조사 보고서에 흔하다. 보고서 본문에 "층화추출법을 적용했다"는 문장이 들어가 있어도 실제 동작은 할당인 경우가 많다.

두 방식이 어디서 갈리는지 보려면 표가 아니라 표본을 만드는 과정을 봐야 한다.

층화는 확률추출

층화는 모집단 명부에서 출발한다. 모집단을 시도×성별×연령 같은 기준으로 칸으로 나누고, 각 칸 안에서 단순임의추출이나 계통추출로 표본을 뽑는다. 추출확률이 사전에 정해져 있고, 누가 뽑힐지가 그 확률에 따라 결정된다.

이게 가능하려면 두 가지 조건이 필요하다.

첫째, 모집단 명부(표집틀)가 있어야 한다. 둘째, 그 명부에서 각 사람의 칸 정보(어느 시도, 어느 연령대인지)를 알 수 있어야 한다.

전형적인 예가 통계청 가구조사다. 인구주택총조사 결과로 만든 조사구 명부와 그 안의 가구 정보가 있기 때문에 시도×동읍면으로 층화하고 각 층에서 확률적으로 뽑는 작업이 가능하다. 학생 조사에서 학교명부와 학년·반 정보가 있으면 학교를 층화한 다음 학급·학생을 확률적으로 뽑을 수 있다.

층화의 장점은 표본 추출확률을 알기 때문에 표준오차를 계산할 수 있고, 칸 안이 동질적일수록 분산이 줄어든다는 점이다(deff < 1). 통계적 추론의 정당성이 확보된다.

할당은 비확률추출

할당은 칸별 인원만 정해놓고 그 인원을 채울 때까지 모집하는 방식이다. 누가 들어오는지는 통제되지 않는다. 조사원의 접근 가능성, 응답자의 자발적 응답 의사, 패널의 가입 동기 같은 요인이 표본 구성을 결정한다.

길거리 조사를 떠올리면 이해가 쉽다. "30대 여성 20명만 채우면 끝"이라는 지시를 받은 조사원은 30대 여성처럼 보이는 사람에게 다가가서 응답을 부탁한다. 같은 30대 여성이어도 길거리 시간대, 위치, 조사원의 성향에 따라 누가 표본에 들어갈지가 달라진다. 추출확률은 정의되지 않는다.

온라인 패널 조사도 구조적으로 할당이다. 패널 자체가 자발적 가입자 집단이고, 그 안에서 칸을 채우는 작업은 모집단의 확률표본이 아니다. 패널에 가입한 사람과 안 한 사람의 차이가 이미 표본에 들어가 있다.

할당의 약점은 응답자 자기선택 편의(self-selection bias)가 통제되지 않는다는 점이다. 표준오차도 엄밀하게는 계산할 수 없다. 표본추출확률이 정의되지 않기 때문이다. 실무에서는 단순임의추출 가정으로 표준오차를 보고하지만, 그것이 통계적 정당성을 가진다고 보기는 어렵다.

한국 여론조사에서 둘이 섞이는 이유

한국 정치·사회 여론조사에서 가장 흐릿해지는 곳이 여기다. 보고서에는 "층화추출"이라고 적혀 있지만 실제 작업은 할당에 더 가까운 경우가 많다.

ARS·CATI 조사를 보자. 통신사 가상번호 명부를 받아서 시도×성별×연령으로 층화한 다음 발신한다. 여기까지만 보면 층화처럼 보인다. 그런데 응답률이 3~7% 수준인 환경에서는 사전 추출확률이 사실상 의미를 잃는다. 같은 칸에서 발신된 번호 100건 중 응답한 5명이 누구냐를 결정하는 건 추출 단계의 확률이 아니라 응답자의 자기선택이다. 외형은 층화고 실질은 할당이다.

웹조사도 마찬가지다. 사전 동의 패널이든, 통신사 마케팅 수신동의 SMS 발송이든, 응답자 모집 단계에서 자발성이 강하게 작용한다. 칸별 인원이 다 차면 할당 완료. 이건 명백한 할당이다.

그래서 한국 여론조사 보고서를 읽을 때는 "층화추출"이라는 표현이 두 가지 의미로 쓰인다는 점을 알아야 한다.

명부에서 확률적으로 뽑는 진짜 층화

칸을 미리 정해놓고 응답자가 들어올 때까지 발신·모집하는 할당(외형만 층화)

가구조사처럼 명부 기반 확률추출이 가능한 영역에서는 진짜 층화가 작동한다. 정치 여론조사 영역에서는 사실상 할당이 작동한다.

가중치만 봐서는 구분이 안 된다

층화든 할당이든 가중치를 셀(region × gender × age) 단위로 거는 작업은 똑같이 한다. 셀 안 표본 비율과 모집단 비율의 비로 가중치를 만들고, 이걸 곱해서 분포를 모집단에 맞춘다.

그래서 가중치 적용 방식만 보면 두 방식이 구분되지 않는다. 가중치는 사후 보정 도구일 뿐, 표본추출 자체의 통계적 성격을 바꾸지 못한다. 비확률표본에 가중치를 걸어도 비확률표본이다. 다만 분포만 모집단과 비슷해진다.

이 부분이 자주 오해된다. "셀별 가중치를 적용했으니 추출확률이 보정된 것 아니냐"는 식의 진술은 정확하지 않다. 가중치는 분포를 맞출 뿐, 응답자 자기선택을 무효화하지 않는다.

구분 기준

둘을 구분하려면 한 가지만 보면 된다. 칸 안에서 누가 뽑힐지가 어떻게 결정되는가.

칸 안에서 누구를 뽑을지가 사전 추출확률로 결정되면 → 층화

칸 안에서 누구를 뽑을지가 응답자 자기선택이나 조사원 선택으로 결정되면 → 할당

표본 설계서나 보고서를 읽을 때 이 질문을 던지면 된다. 명부 기반 확률추출이 작동했는가, 아니면 칸 채우기로 작동했는가. 답이 후자라면 그 조사는 표현이 어떻게 되어 있든 할당이다.

층화추출과 할당추출은 외형만 같고 통계적 정당성이 다르다. 한국 여론조사 실무를 분석할 때 이 구분이 잡혀 있어야 보고서 문구와 실제 작업 사이의 간극이 보인다.

층화와 집락은 어떻게 다른가

표본조사 실무를 하다 보면 "이건 집락이에요, 층화예요?"라는 질문을 자주 받는다. 두 개념이 헷갈리는 데는 이유가 있다. 둘 다 모집단을 부분집단으로 쪼개는 작업이고, 실제 조사에서는 거의 항상 같이 쓰이기 때문이다. 그런데 역할은 정반대다. 작동 방식이 다르고, 표본 효율에 미치는 영향도 반대 방향이다.

층화는 "모든 칸에서 다 뽑기"

층화(stratification)는 모집단을 나누는 변수다. 전국 성인 1,000명 조사를 한다고 하자. 시도·성별·연령대로 모집단을 칸으로 쪼개고, 각 칸에 표본을 배분한다. 서울 20대 남자 30명, 서울 20대 여자 30명, 서울 30대 남자 35명…. 이런 식이다. 어떤 칸도 빠지지 않는다. 모든 칸에서 정해진 인원을 뽑는다.

같은 칸 안에 들어가는 사람들이 비슷할수록(층 내 동질성↑) 표본의 분산이 줄어든다. 그 결과 단순임의추출보다 더 정확한 추정이 가능하다. 설계효과(deff)로 표현하면 deff < 1, 즉 표본 효율이 올라간다.

공무원 조사 예를 들어보자.

부처별로 인원에 비례해 표본 배분

직급(5급 이상 / 6~7급 / 8~9급)별로 다시 배분

부처×직급 칸마다 정해진 인원을 뽑음

이게 층화다. 칸을 빠뜨리지 않고 모든 칸에서 뽑는다는 것이 중요하다.

집락은 "일부 묶음만 뽑아서 그 안만 조사"

집락(cluster)은 모집단을 묶는 단위다. 가구조사를 생각해보자. 전국 모든 가구의 명부가 있다면 거기서 1,000가구를 임의로 뽑으면 된다. 그런데 그런 명부는 외부 조사기관이 통상 확보할 수 없다. 그래서 조사원이 현장에서 접근할 수 있는 지리적 단위, 곧 조사구를 먼저 뽑는다. 전국 조사구 중 200개를 뽑고, 뽑힌 조사구 각각에서 5가구씩 조사한다. 안 뽑힌 조사구의 가구들은 통째로 빠진다.

이게 집락이다. 묶음 중 일부만 뽑아서 그 안만 들여다본다. 한 조사구 안의 가구들은 같은 동네에 살기 때문에 소득 수준이나 생활양식이 유사한 경향이 있다(집락내 상관, ICC). 응답이 유사할수록 표본의 분산은 커진다. 같은 표본 크기여도 단순임의추출보다 추정치가 덜 정확하다. deff > 1, 즉 표본 효율이 떨어진다.

공무원 조사 예로 옮겨오면 이렇다.

100개 본부 중 20개 본부를 뽑음

뽑힌 20개 본부에서 각각 10명씩 조사

안 뽑힌 80개 본부 사람들은 조사 대상에서 빠짐

이게 집락추출이다. 같은 본부 사람들은 업무·상사·조직문화를 공유하기 때문에 응답이 비슷해질 가능성이 크다.

효율이 반대 방향으로 가는 이유

층화와 집락이 표본 분산에 미치는 영향은 정반대다.

층화는 칸 안이 동질적일수록 좋다. 칸 안이 비슷하면 적은 표본으로도 그 칸을 잘 대표할 수 있기 때문이다. 그래서 deff < 1.

집락은 묶음 안이 이질적일수록 좋다. 묶음 안이 다양하면 그 묶음만으로도 모집단의 다양성이 반영되기 때문이다. 그런데 현실의 집락은 대부분 동질적이다. 같은 조사구의 가구들은 비슷한 동네 가구들이고, 같은 본부 직원들은 비슷한 일을 한다. 그래서 deff > 1.

층화는 표본 분산을 줄이려고 쓰는 장치고, 집락은 비용 문제(현장 접근, 표집틀 확보) 때문에 분산 손해를 감수하고 쓰는 장치다. 목적 자체가 다르다.

같은 변수가 다르게 쓰일 수 있다

부처라는 변수를 보자. 부처를 어떻게 활용하느냐에 따라 역할이 갈린다.

모든 부처에서 인원에 맞춰 다 뽑으면: 층화 변수

일부 부처만 뽑아서 그 안에서 조사하면: 집락 단위

조사구도 마찬가지다. 통상 조사구는 집락으로 쓰이지만, 만약 모든 조사구에서 한두 가구씩 뽑는 설계라면(현실적으로는 거의 하지 않지만) 층화에 가까운 성격을 갖게 된다.

같은 변수도 "모든 칸에서 다 뽑느냐"와 "일부 묶음만 뽑느냐"에 따라 층화로도, 집락으로도 작동할 수 있다.

실무에서는 같이 쓴다

한국 가구조사 설계서를 보면 "층화 2단계 집락추출"이라는 표현이 흔히 등장한다. 한 설계 안에서 둘 다 쓰인다는 뜻이다.

층화: 시도 × 동읍면 구분으로 모집단을 칸으로 나눔

1차 추출(집락): 각 층 안에서 조사구를 PPS로 뽑음

2차 추출: 뽑힌 조사구 안에서 가구를 계통추출

층화로 표본 대표성을 확보하고, 집락으로 현장 비용을 절감한다. 두 장치는 경쟁 관계가 아니라 보완 관계다.

자주 하는 오해

"층화는 눈에 안 보이고 집락은 지리적이라 눈에 보인다"는 식의 구분은 정확하지 않다. 층화에 쓰이는 변수도 모두 관찰 가능한 정보다. 시도, 성별, 연령, 직급은 다 명부에 있는 값이다.

더 안전한 구분은 이거다.

층화: 모집단을 칸으로 나누고, 모든 칸에서 다 뽑는다

집락: 모집단을 묶음으로 만들고, 일부 묶음만 뽑아서 그 안만 조사한다

표본설계 문서를 읽을 때 "층화 변수"라고 적혀 있으면 칸을 만든 기준이고, "추출단위"나 "집락"이라고 적혀 있으면 묶어서 일부만 뽑은 단위다. 이 구분이 잡혀 있으면 어떤 조사 설계서를 봐도 구조가 보인다.

표집오차한계와 총오차한계 사이의 거리

여론조사 보고서 끝에는 늘 같은 문장이 붙는다. "표본오차는 95% 신뢰수준에서 ±3.1%p". n=1000, 단순임의표집을 가정했을 때 1.96·√[0.5·0.5/1000]을 계산해 나오는 수치다. 이 숫자가 조사 정확도에 대한 모든 정보를 담고 있는 것처럼 읽히지만, 실제로 ±3.1%p가 무엇을 의미하는지 다시 생각해보면 이야기가 달라진다.

표집오차는 모집단에서 표본을 추출하는 과정에서 발생하는 변동만 반영한다. 같은 설계로 표본을 다시 뽑으면 다른 응답자가 선택되고 그래서 추정치가 달라지는 부분이다. 표집오차한계(margin of sampling error, MOSE)는 이 변동의 95% 구간을 표시한 값이다. 응답자가 누구든 정확하게 응답한다는 가정, 응답하지 않은 사람이 응답한 사람과 같은 의견을 갖는다는 가정, 모집단 전체가 표집틀에 포함된다는 가정이 모두 성립해야 MOSE가 추정치의 불확실성을 온전히 표현한다.

총조사오차라는 틀

총조사오차(total survey error, TSE)는 이 가정들이 어디서 깨지는지 정리한 틀이다. Groves와 Lyberg의 분류를 따르면 오차는 두 부분으로 갈라진다. 표상(representation) 쪽에는 포함오차(특정 인구집단이 표집틀에서 빠지는 문제), 표집오차, 무응답오차(특정 집단이 더 잘 또는 덜 응답하는 문제), 보정오차(가중으로 보정한 뒤에도 남는 편향)가 있다. 측정(measurement) 쪽에는 측정오차(질문이 잘못 이해되거나 사회적 바람직성에 의해 응답이 왜곡되는 문제)와 처리오차(코딩이나 자료 입력 단계 오류)가 있다. 표집오차는 이 여섯 성분 중 하나일 뿐이다.

응답률이 95%를 넘던 Deming(1944)의 시대에는 무응답오차가 작아 표집오차 중심 보고가 큰 문제가 아니었다. 2025년 현재는 사정이 다르다. 미국 일부 확률조사 응답률은 1% 미만이고, 인터넷 광고로 모집되는 옵트인 조사는 응답률 개념 자체가 성립하지 않는 편의표본이다. Mercer et al.(2018)이 대규모 옵트인 조사 3건을 검토한 결과, 가장 효과적인 무응답 보정도 편향의 약 30%만 제거할 수 있었다. 무응답 보정 이후 70%의 편향이 점추정치에 남는다는 의미다. MOSE는 이 편향에 대해 아무것도 알려주지 않는다.

실증: 명목 95%가 실제로 얼마였나

Lohr, Mercer, Kennedy, Brick(2026)의 최근 JSSAM 논문은 이 격차를 경험적으로 측정한다. Shirani-Mehr et al.(2018)이 정리한 1998–2014년 미국 주 단위 선거조사 4,221건을 보면, 표집분산으로 계산한 95% 신뢰구간이 실제 선거 결과를 포함한 비율은 77.6%였다. 주지사 선거에서는 73.3%, 상원의원 선거에서는 71.7%까지 떨어졌다. 명목상 95%였던 구간이 실제로는 74% 수준의 포함률을 가졌다는 뜻이다.

비선거 조사에서는 격차가 더 컸다. Pew Research Center가 동일 질문을 확률표본 3건과 비확률 옵트인 표본 3건에 동시에 던지고 행정자료 벤치마크와 비교한 자료에서, MOSE 기반 95% 신뢰구간이 벤치마크를 포함한 비율은 25%에 불과했다. 확률표본 37%, 비확률표본 13%. 95% 포함률을 회복하려면 비확률표본의 표준오차에 약 10배를 곱해야 했고, 푸드스탬프 수급 같은 정부 지원 관련 문항에서는 14.5배까지 필요했다.

흔히 인용되는 "표준오차에 2를 곱하라"는 Rothschild와 Goel(2016)의 권고는 선거조사 자료에서는 대체로 작동했지만 비선거 조사에서는 한참 부족했다. Pew 자료에서 표준오차에 2를 곱한 구간이 벤치마크를 포함한 비율은 비확률표본 25.7%, 정부 지원 수급 항목에서는 6.7%였다. 이 권고는 특정 시기 특정 주제 자료에서 도출된 것이며, 다른 주제로 그대로 옮길 수 있는 보편 규칙이 아니다.

한국 조사 환경의 함의

한국 조사 환경에서는 이 격차가 더 클 가능성이 있다. 통신사 가상번호 ARS 조사의 실제 응답률, 마케팅 수신 동의 고객 대상 SMS 기반 모바일웹 조사의 자기선택 편향, 1주일 단위로 압축되는 선거조사 일정, 클라이언트가 요구하는 결과 방향 같은 한국 특이 오차원들이 모두 비표집오차에 누적된다. Frame Procurement Error(틀조달오차), Client Intervention Error(클라이언트 개입오차), Timeline Compression Error(일정 압축오차) 같은 한국형 TSE 확장 항목들도 MOSE 한 줄로는 전혀 포착되지 않는다. 그럼에도 한국 조사 보고서에는 표집오차한계 한 줄만 적힌다.

무엇을 할 것인가

대안은 두 갈래다. 하나는 표상이다. Lohr et al.이 제안하는 총오차한계(margin of total error, MOTE)는 벤치마크 추정치가 있는 과거 조사 자료에 모형을 적합해 표준오차에 어느 정도의 비표집오차 성분을 더해야 명목 포함률을 회복하는지 추정한다. 조사 유형, 표본 유형, 질문 주제별로 보정값을 데이터베이스화하면 미래 조사에서도 유사 조건에 맞는 MOTE를 보고할 수 있다. 다른 하나는 분해다. TSE 각 성분에 대한 별도 진단치를 보고하는 방식이다. 응답률뿐 아니라 무응답 보정 전후의 추정치 차이, 가중 변수와 결과 변수의 상관, 측정 실험을 통한 문항 효과 추정치 등을 함께 제시해 추정치의 신뢰도를 여러 층위에서 표시한다.

표집오차한계가 부정확하다는 말이 아니다. MOSE는 가정 안에서 정확히 계산된 값이다. 다만 그 가정이 더 이상 성립하지 않는 시대에 MOSE만 보고하는 관행은 조사 추정치의 정밀도를 실제보다 부풀려 전달한다. 보고된 ±3.1%p가 실제로는 ±6%p 또는 ±10%p에 해당한다는 사실을 사용자에게 알리지 않은 채 조사 결과를 유통하는 것은, 결국 조사 빗나감이 발생할 때마다 업계 전체에 대한 신뢰 손실로 돌아온다.

표집오차는 총조사오차의 한 성분이다. 보고도 거기에 맞추어 가야 한다.

2026년 5월 9일 토요일

후보지지도 재계산, 다섯 갈래

한국 공표 선거여론조사는 후보지지율을 거의 원자료 그대로 발표한다. 모름·없다 응답자도 분모에 그대로 두고 백분율을 산출. 미국이나 유럽 조사에서 흔한 "지지후보 응답자 기준" 재백분율조차 한국 공표 본표에는 잘 등장하지 않는다. 여심위 규정이 무응답 사후처리에 대해 명확한 허용 기준을 제시하지 않는 점, 임의 배분이나 모델 추정으로 수치를 조정하면 조작 시비가 붙을 위험이 있어 안전하게 원자료를 내보내는 쪽으로 굳어진 점, 그리고 단순 백분율 공표가 갤럽·한국리서치·리얼미터 시기부터 업계 관행으로 자리잡은 점이 함께 작용한 결과다.

이 관행에는 방법론적 정당성도 있다. 한국 조사업계가 오랫동안 견지해온 입장은 여론조사가 투표 행동을 예측하는 도구가 아니라 특정 시점의 여론 분포를 측정하는 도구라는 것이다. 모름·없다 응답자도 그 시점의 여론을 구성하는 일부이니 분모에 두는 것이 측정 대상에 충실한 처리. 재계산은 측정값에 분석가의 가정을 얹는 작업이고, 여론을 있는 그대로 보여주는 본래 목적에서 한 발 멀어지는 일이다. 적중도 시비에 대해 조사회사들이 "여론과 투표는 다르다"고 항변해온 것도 이 입장의 연장선이고, AAPOR이나 WAPOR 차원에서도 public opinion과 vote intention, voting behavior는 별개 개념으로 다뤄진다.

다만 이 입장이 선거여론조사 영역에서 그대로 통용되기는 어렵다. 선거여론조사라는 명칭 자체가 선거, 그러니까 투표를 대상으로 한다는 뜻이고, "다음 대선에서 누구를 지지하시겠습니까"라는 질문은 응답자에게 시점 여론을 묻는 게 아니라 표심을 묻는 것으로 읽힌다. 응답자도 자기 표심을 답하고 있다고 인식하지 시점 여론의 한 점을 답하고 있다고 생각하지 않는다. 그렇게 모인 응답의 합은 사실상 표심 분포 추정치로 작동한다.

조사회사들이 평소 적중도를 마케팅 자산으로 활용해온 점도 같이 봐야 한다. 특정 선거를 정확히 맞췄다는 사실을 회사 신뢰도의 근거로 내세우면서, 결과가 빗나갔을 때만 "여론과 투표는 다르다"고 항변하는 것은 비대칭이다. 미국이나 유럽 주요 조사기관(Gallup, NYT/Siena, Pew, AAPOR election polling task force)이 적중도 평가를 정면으로 받고 자체 검증 보고서를 발간하는 흐름과도 거리가 있다. 시점 효과나 캠페인 충격으로 설명되는 영역이 분명 있지만, 그것을 적중도 시비 전반에 대한 방패로 일반화하면 정확성 책임에서 빠져나가려는 회피 논리로 기능하기 쉽다.

그래서 비공표 영역(캠프 분석, 학술 검증, 적중도 사후 평가, 컨설팅 보고서)뿐 아니라 공표 영역에서도 표심 추정 책임을 어느 정도 받아들이는 처리가 검토되어야 한다. 실무에서 쓰이거나 거론되는 재계산 방식은 다섯 갈래로 정리된다.

1. 단순 제외 후 재백분율

가장 기본적인 분석 처리. 모름·없다·무응답을 분모에서 빼고 후보 응답자만으로 100%를 다시 산출한다. 보고서에서 "유효응답 기준" 또는 "지지후보 응답자 기준"으로 각주 처리.

장점은 단순함과 투명함이다. 응답값만 가지고 처리하니 추가 가정이 들어가지 않고, 표기와 검증이 쉽다. 단점은 부동층의 정치성향 정보를 통째로 버린다는 것. 모름·없다 응답자가 한쪽 진영에 쏠려 있을 경우 재백분율 결과가 실제 표심과 어긋날 수 있다.

2. 적극투표층 한정 후 재백분율

"반드시 투표하겠다"고 답한 적극투표 의향층만 베이스로 잡고, 그 안에서 모름·없다를 다시 빼고 백분율을 계산한다. 미국식 likely voter 모델의 단순화 버전이고, 한국에서는 보통 투표의향 1단계(반드시) 또는 1·2단계(반드시+가능하면)를 떼어 쓰는 형태로 운용된다.

투표 가능성이 낮은 응답자를 미리 제외하니 실제 투표 결과와의 정합성이 1번보다 올라간다. 다만 적극투표층 자체가 정파성에 따라 편향될 수 있어, 적극·소극 구분 기준이 적절한지는 따로 검증해야 한다.

3. 정당지지도 또는 과거 투표 기반 비례배분

모름·없다 응답자를 지지정당, 이전 선거 투표 후보, 이념성향 같은 사전 정보에 따라 비율로 배분하는 방식이다. 모름 응답자 중 민주당 지지자는 민주당 후보 지지층 분포에, 국민의힘 지지자는 국민의힘 후보 지지층 분포에 비례해 분배.

미국 NYT/Siena, AP-NORC가 부분적으로 쓰고, 한국에서도 캠프 내부 추정에서는 종종 활용된다. 추가 문항 부담이 거의 없다는 게 강점이다. 정당지지도는 정치조사에서 거의 항상 같이 묻기 때문에 사후처리만으로 적용 가능하다.

운용 방식은 두 단계로 잡는 게 무난하다. 지지정당이 있는 응답자에 한해 배분하고, 정당 응답도 모름인 사람은 분모에서 그대로 제외. 셀이 너무 잘게 쪼개지면 셀당 N이 작아져 추정이 불안정해지니 정당지지 단변량으로 충분하다.

4. 강제선택 후속질문(leaners) 합산

설문 단계에서 한 번 더 묻는 방식이다. 1차에서 모름·없다를 고른 사람에게 "굳이 한 명 고른다면 누구를 지지하시겠습니까" 식의 후속 질문을 던지고, leaner 응답을 본 응답에 합산해 재백분율을 산출한다. AP-NORC, Pew 등이 표준으로 쓰는 형태.

설계 단계에서 분기 문항 한 줄만 추가하면 되고, 모델 추정이 아니라 직접 응답이라 정당성 시비가 적다. 단점은 문항수가 한 줄 늘어난다는 점. 모바일 웹서베이처럼 응답 부담이 응답률에 직결되는 환경에서는 비용 부담이 따른다.

웹서베이 UI 차원에서 변형도 가능하다. 모름·없다 선택 시 부드러운 경고창(soft prompt)을 띄우고 "조금이라도 마음이 가는 후보가 있다면 선택해 주세요. 정말 없으시면 그대로 진행하셔도 됩니다" 정도의 문구로 한 번만 환기. 진행은 허용하되 응답을 바꾼 사람은 leaner 플래그로 따로 기록한다. 문항수를 늘리지 않고 후속질문 효과를 UI 단에서 흡수하는 방법이다.

이때 강한 경고창(forced response)으로 응답을 강제하는 방식은 권하지 않는다. 무응답률은 낮아지지만 짜증 응답이 늘고 중도이탈도 증가해 응답품질이 오히려 떨어진다는 게 웹서베이 실증연구의 일관된 결과다.

5. 모델 기반 추정(다중대체 등)

인구통계, 정당지지, 이념성향, 정권평가, 투표의향 같은 변수를 독립변수로 두고 모름·없다 응답자의 후보 선택을 회귀 또는 다중대체(multiple imputation)로 추정해 채워 넣은 뒤 재계산하는 방식이다. 학술 분석이나 정밀 시뮬레이션에서 주로 사용된다.

가장 정교하지만 추정 모형의 설계 선택에 따라 결과가 달라질 수 있고, 응답자가 직접 답한 값이 아니라는 점이 신뢰성 측면의 약점이다. 한국 공표 본표에 반영하기는 사실상 불가능에 가깝고, 보조 분석이나 사후 시뮬레이션 트랙으로 분리해 운용된다.

어느 방법을 선택할 것인가

한국 공표 선거여론조사의 표준은 모름·없다를 분모에 둔 채 그대로 공개하는 원자료 방식이다. 여심위 환경, 업계 관행, 여론과 투표를 구분하는 방법론적 입장이 함께 작용한 결과. 본표 자체를 갑자기 손대는 건 권하지 않지만, 적어도 부속 분석 트랙은 별도로 운용해 표심 추정에 가까운 처리도 같이 보여주는 것이 정확성 시비에 대한 정공법이다.

분석 트랙에서는 1번이 가장 무난하다. 캠프 보고나 내부 검토에서 부동층을 분리하고 후보 간 격차를 또렷이 보고 싶을 때 적합. 부동층 처리를 한 단계 더 손보고 싶다면 3번을 추가로 적용. 추가 문항 없이 가능하고, 정당지지 정보로 부동층의 일부를 살릴 수 있다.

설문 설계 단계에서 손쓸 수 있다면 4번의 변형, soft prompt 방식이 균형 있다. 문항수를 늘리지 않으면서 leaner 정보를 데이터에 남기고, 강제 응답이 아니라 응답품질 저하나 중도이탈 위험도 낮다.

5번은 별도 분석 트랙으로 분리해 부동층 시나리오 분석이나 적중도 사후 검증에 활용하는 정도가 적절하다.

방법론적으로 한 가지 덧붙이자면, 어떤 방식을 쓰든 보고서에는 처리 방식을 명확히 기재해야 한다. 공표 본표는 여론 측정의 원자료, 부속 분석은 표심 예측을 위한 재계산이라는 두 트랙을 명시적으로 분리해서 보여주는 것이 결과 해석의 혼선을 막는 방법이다. 그리고 이 분리가 표심 예측 책임을 회피하는 도구로 쓰이지 않으려면, 적중도 사후 평가는 어떤 식으로든 정면으로 받는 자세가 같이 가야 한다.

2026년 5월 8일 금요일

림가중치를 막는 0.7~1.5 캡, 추가 보정을 막는 이중 공표

2025년 12월 18일 개정되어 2026년 1월 1일부터 시행되는 선거여론조사기준은 가중치에 관해 두 개의 조항을 둔다. 제5조의 가중값 배율 한계(성·연령·지역 각각 0.7~1.5)와 제14조의 가중치 산출·적용 방법 등록 의무다. 두 조항 모두 객관성과 신뢰성을 확보하려는 의도로 설계되었지만, 현재 형태로는 한국 폴링이 국제 표준 방법론을 도입하지 못하게 만드는 제도적 장벽으로 작동한다.

0.7~1.5 캡과 림가중치의 충돌

한국 실무에서 0.7~1.5 한계는 보통 성×연령×지역 셀 단위 가중치에 적용된다. 림가중치(raking, IPF)는 각 주변분포(margin)를 모집단에 맞추기 위해 셀 가중치가 자유롭게 변동하는 것을 전제하는 알고리즘이다. 7~10개 차원에서 각각 1.2배, 0.85배 같은 온건한 조정만 곱해져도 셀 가중치가 0.5나 2.0을 쉽게 넘어간다. 셀 단위 캡과 다차원 림가중치는 수학적으로 양립이 어렵다.

Pew Research Center의 American Trends Panel은 보통 성, 연령, 인종/에스니시티, 학력, 지역(census division), 도시/비도시, 정당등록, 자원봉사 참여, 시민참여, 인터넷 이용빈도 등 8~11개 변수에서 raking을 한다. 트림은 보통 0.3~3 또는 0.25~4 수준에서 잡고, DEFF(design effect from weighting)를 사후에 공개한다. 한국 기준의 0.7~1.5는 Pew 트림 폭의 약 1/3~1/4 수준이고, 가중 변수 수도 3개로 못 박혀 있다.

이 캡은 분산과 편의 사이에서 분산 쪽으로 강하게 기운 선택이다. 명목상 이유는 극단 가중치로 인한 분산 폭증 방지와 가중치 조작을 통한 결과 왜곡 방지다. 그 대가로 2016년 이후 미국·영국·호주 폴링이 학습한 내용, 특히 학력 가중치 누락이 체계적 편의를 만든다는 발견을 한국 제도가 흡수할 수 있는 구조가 아니게 됐다. 한국에서도 학력별 지지 패턴 차이가 작지 않은데, 학력 가중치를 추가하려면 캡을 위반하거나 기존 변수 중 하나를 빼야 한다.

제5조 제2항이 마련한 우회 통로(두 조사 결과를 합쳐서 분석하면 캡 적용 안 함)도 있지만, 단일 표본에서의 림가중치 문제를 푸는 도구가 아니다. 합산이 가능한 상황에서만 작동하고, 분석 경위와 방법을 별도 공개해야 해서 실무 부담도 크다.

이중 공표 의무가 추가 보정을 페널티화한다

제14조 제3항과 제18조 제2항의 조합이 두 번째 문제다. 인구학 가중치(성·연령·지역) 외에 과거 투표 보정, 후보자 득표율 보정, 응답유보층 분석 등 추가 보정을 수행한 경우 양쪽 결과를 모두 등록·공표해야 한다.

이 규정은 인구학 가중을 "객관적 기준"으로, 그 외 보정을 "추가 해석"으로 보는 위계를 전제한다. 통계적으로는 성립하지 않는 전제다. 모든 가중치는 모델이다. 성·연령·지역 가중도 "응답자를 모집단 분포에 맞추면 추정 정확도가 올라간다"는 가정에 기댄 모델이고, 학력 가중이나 과거 투표 보정과 통계적 지위가 동일하다. Pew, ANES, BES, YouGov 어디도 "원시 인구학 가중 결과"와 "최종 모델 결과"를 병렬로 공표하지 않는다. 가장 정확하다고 판단하는 단일 추정치를 발표하고, 방법론 디테일은 별도 문서에서 투명하게 공개한다.

규정은 표면상 추가 보정을 허용하는 것처럼 보이지만, 실제로는 추가 보정을 수행한 조사기관에 페널티를 부과한다. 같은 조사에서 후보 A 38% vs B 35%(원시)와 A 36% vs B 38%(보정)이 동시에 발표되면, 매체는 자기 프레임에 맞는 쪽을 골라 헤드라인을 잡는다. 일반 독자는 두 추정치의 방법론적 차이를 분별할 도구가 없다. "같은 조사인데 결과가 다르다, 조사 자체를 못 믿겠다"는 결론으로 가게 된다. 합리적인 조사기관의 균형점은 "추가 보정을 안 하는 게 평판상 안전하다"가 되고, 정확도 향상 노력이 평판 리스크가 되는 구조가 만들어진다.

한국적 함의는 더 크다. 응답유보층 분석과 과거 투표 보정은 한국 ARS·웹 환경에서 추정 정확도에 가장 크게 기여하는 보정 방법이다. 유보율이 20~30%에 달하고 정파별 응답 의향에 체계적 차이가 있는 환경에서, 이 두 보정 없이 발표하는 숫자는 사실상 "원시 응답에 인구학 보정만 입힌 값"이다. 그런데 정확히 이 두 방법이 이중 공표 의무의 대상으로 지정되어 있다. 미국식 likely-voter 모델링이나 영국식 turnout adjustment가 한국에서 자리 잡지 못한 가장 큰 제도적 장벽이 여기에 있다.

TSE 분류에 들어가지 않는 한국 특유의 오차원

이 두 조항이 만들어내는 효과는 Total Survey Error 프레임의 표준 분류에 들어가지 않는다. 표본 추출 오차, 미응답 오차, 측정 오차 같은 표준 분류 외에, 규제로 인해 조사기관이 더 정확한 방법론을 채택하지 못하고 덜 정확한 방법론을 선택하게 되는 오차가 추가로 발생한다. Regulatory-Induced Methodology Distortion이라 부를 만하다.

이 오차원은 미국·유럽 TSE 문헌에 등장하지 않는다. 그 나라들에서는 가중치 방법론이 학회와 조사기관 자율로 발전하기 때문이다. 한국에서는 심의위 고시가 가중치 자유도를 직접 제한하기 때문에, 제도 설계 자체가 추정 정확도의 상한을 결정한다. 한국 표본추출틀 문제(통계청이 표본 조사구 정보를 민간 조사기관에 제공하지 않는 구조)와 함께, 한국 폴링의 정확도 한계를 만드는 두 개의 제도적 요인이다.

제도 설계 대안

캡 조항부터 보면, 셀 단위 0.7~1.5 캡은 두 단계로 분리하는 게 합리적이다. 주변분포 단위 캡(예: 성·연령·지역 각 주변분포에서 조정 비율 0.7~1.5)을 두고, 셀 단위는 트림 한계만 명시(예: 0.3~3)하면서, DEFF를 등록 자료에 의무 공개하도록 한다. 이 구조라면 림가중치도 적용 가능하고, 조작 방지·분산 통제 목표도 유지할 수 있다. AAPOR Best Practices의 투명성 원칙과도 부합한다.

이중 공표 의무는 등록·공개 단계와 공표 단계를 분리하는 게 자연스럽다. 모든 가중·보정 방법은 심의위 홈페이지에 등록·공개하되, 조사기관이 단일 "주 추정치(primary estimate)"를 지정하고, 보조 추정치는 등록 자료에 포함되지만 공표 의무 대상에서는 빼는 구조다. 투명성은 등록·공개 단계에서 확보하고, 공표 단계에서는 의사결정자에게 단일 숫자가 전달된다. 지금 규정은 투명성과 공표 의무를 같은 것으로 취급하고 있는데, 이 둘은 별개의 규제 도구로 다뤄야 한다.

지금 형태로 시행되는 가중치 규정은 1990~2000년대 폴링 방법론을 한국에 고정시킨다. 그 기간 동안 국제 폴링은 다차원 raking, 학력 가중, propensity 보정, likely-voter 모델링 등을 표준으로 흡수했다. 한국 폴링이 그 발전을 따라가지 못하는 첫 번째 이유가 시장이나 기술 부족이 아니라 제도라면, KORA, 한국조사연구학회, WAPOR Asia 채널에서 의제로 다뤄질 만하다. 조사기관이 신뢰성 있는 추정치를 만들 자유가 있어야 신뢰성 있는 결과를 공표할 수 있다. 지금 규정은 자유를 제한하면서 신뢰성을 요구한다.

2026년 5월 7일 목요일

채팅창에서 만든 응답은 신세틱 서베이가 아니다

며칠 동안 신세틱 서베이로 이런저런 실험을 돌리면서 한 가지 중요한 구분을 놓치고 있었다. 정확히는, 놓치고 있다는 걸 늦게 알아챘다.

전북도지사 가상 조사 500명, 전국 정치사회 조사 500명. 두 데이터를 다 만들고 나서 워딩 효과 실험으로 넘어가려는 시점에야 깨달았다. 내가 받아온 그 두 엑셀은 엄밀히 말하면 신세틱 서베이가 아니다. 신세틱 서베이의 모양을 빌려온 룰 기반 시뮬레이션에 가깝다.

이 차이가 별것 아닌 것 같지만 실제로는 매우 크다. 정리해 둘 가치가 있다.

두 가지 처리 방식

처음 받은 두 엑셀의 응답이 어떻게 만들어졌는지 거슬러 올라가 보면 이런 구조였다.

for 응답자 in 패널_500명:
    for 문항 in [Q1, Q2, ..., Q15]:
        응답[문항] = 룰_적용(페르소나_점수, 문항별_확률분포)

겉보기엔 응답자별로 도는 것처럼 보이지만, 각 문항이 페르소나 점수에서 독립적으로 확률 추출된다. 한 응답자의 Q1 응답이 Q2 응답에 영향을 주지 않는다. 룰만 보고 매번 새로 뽑는다.

반면 진짜 신세틱 서베이는 이렇게 돌아간다.

for 응답자 in 패널_500명:
    시스템프롬프트 = 페르소나_정보(응답자)
    대화_히스토리 = []
    
    for 문항 in [Q1, Q2, ..., Q15]:
        대화_히스토리에 문항 추가
        응답 = LLM_호출(시스템프롬프트, 대화_히스토리)
        대화_히스토리에 응답 추가
        저장(응답자, 문항, 응답)

핵심은 응답자 1명당 LLM 호출이 문항 수만큼 일어난다는 점이다. 그리고 매 호출마다 이전 응답이 컨텍스트로 들어간다. 응답자가 자기 답변을 기억하면서 다음 문항을 답하는 구조다.

같은 데이터셋을 만들어도 이 두 방식은 완전히 다른 산물을 낸다.

무엇이 다른가

분포만 보면 두 방식의 결과가 비슷할 수 있다. 룰을 잘 짜면 실제 여론조사 분포와 근사하게 만들 수 있고, 진짜 LLM 호출도 결국은 비슷한 인구학적 패턴을 만든다. 그러나 응답자 단위로 들어가면 차이가 드러난다.

응답자 내 상관(within-respondent correlation)이 다르다. 진짜 조사 데이터는 한 응답자의 정치 문항 5개에 강한 상관이 있다. 같은 사람이 답하니까. 룰 기반은 페르소나 점수를 공유하는 한에서만 약한 상관이 만들어진다. SPSS에서 응답자 내 신뢰도 분석 같은 걸 돌리면 부자연스럽게 깔끔한 결과가 나온다.

문항 간 점화·일관성 동학이 없다. 진짜 응답자는 Q1에 "정부 잘함"이라고 답한 뒤 Q5에서 "정부 정책 부정"이라고 답하기 어렵다. 인지적 일관성이 작동한다. 룰 기반은 이 동학을 못 잡는다. 코드에 그게 들어있지 않으니까.

문항 순서가 응답에 영향을 못 준다. Q1을 먼저 묻든 Q5를 먼저 묻든 결과가 똑같다. 순서 효과 측정 자체가 불가능하다.

워딩 효과 측정도 무력하다. 표현 A와 B에 LLM이 다르게 반응하는지가 워딩 효과의 정의인데, 룰에는 워딩이 변수로 안 들어가 있다. 어떤 표현으로 던지든 같은 룰이 같은 분포를 뽑는다.

조사 방법론에서 다루는 거의 모든 측정 동학이 룰 기반 처리에서는 사라진다. 남는 건 "분포가 그럴듯하다"는 것뿐이다.

그럼 룰 기반은 무가치한가

그건 아니다. 다만 위치가 다르다.

룰 기반 합성 응답은 분포 시뮬레이션으로서 의미가 있다. 표본 설계 검증, 셀 할당이 합리적인지 점검, 셀별 응답 분포의 큰 그림 가늠. 이런 용도에는 충분하다. 빠르고 비용이 없는 게 장점이다.

다만 그걸 "신세틱 서베이"라고 부르는 건 약하다. 차라리 "룰 기반 합성 분포"라고 정직하게 부르는 게 맞다. 신세틱 서베이의 본질은 LLM이 페르소나의 입장에 정렬된 응답을 생성하는 것이고, 그건 응답자 단위 LLM 호출 없이는 일어나지 않는다.

미국 시장조사 업계에서 합성소비자(synthetic consumer)를 상업화한 인텔리시아 같은 곳도, 글로벌 빅3 중 가장 적극적인 입소스도, 다 응답자 단위 LLM 호출 구조다. 그게 신세틱 서베이의 정의에 가깝다.

채팅창에서 만든 응답이 더 약한 이유

여기서 한 단계 더 들어가면 또 다른 구분이 있다. AI 챗봇과 한 채팅창에서 나누면서 만든 응답은, 사실 진짜 신세틱 서베이의 또 다른 약화 버전이다.

한 채팅 인스턴스가 페르소나 30명이든 500명이든 차례로 머릿속에 그려서 응답을 만들어주는 방식. 이건 한 사람이 30명 인터뷰 답을 대신 써준 거랑 비슷하다. 30명 각자 인터뷰한 게 아니다.

같은 채팅 안에서는 앞 페르소나 응답이 뒤 페르소나에 영향을 주는 컨텍스트 오염이 일어난다. 의식적으로 차단하려 해도 같은 머리에서 나오는 응답이라 평균값으로 수렴한다.

진짜 신세틱 서베이는 페르소나 1명당 별개의 LLM 호출을 거쳐야 한다. 시스템 프롬프트가 매번 새로 세팅되고, 그 페르소나의 컨텍스트만 갖고 응답을 생성한다. 다른 페르소나가 어떻게 답했는지 모른다.

이게 API 호출 방식의 본질이다. 채팅창은 한 인스턴스 안에서 다 처리되지만, API는 호출마다 별개의 인스턴스다. 페르소나 500명이면 500개의 독립적 응답 생성이 일어나는 것이다.

비용과 시간이 자릿수가 다르다

이 정통 방식으로 가면 자원이 많이 든다.

전국 500명 × 15문항 본 실험을 가정하면 LLM 호출이 7,500회 일어난다. 컨텍스트가 누적되니까 후반 호출은 토큰이 많아지고, prompt caching을 적용해도 입력 토큰 약 50M, 출력 약 1M이 쌓인다. Haiku 같은 저비용 모델로도 5~15달러, 30분에서 한 시간 정도가 걸린다.

룰 기반은 같은 데이터셋을 30초에 만든다. 비용은 0이다. 자릿수가 다르다.

그러나 결과의 방법론적 무게도 자릿수가 다르다. 콘텐츠로 발행하든 클라이언트에 들고 가든, "응답자 단위 LLM 호출로 만든 신세틱 서베이"와 "룰 기반 합성 분포"는 다른 무게로 받아들여진다.

정직한 자리 잡기

그래서 다음에 합성 응답 데이터를 만들거나 받을 때는 이 두 가지를 구분해 두는 게 좋겠다.

룰 기반 합성 분포: 빠르고 싸다. 분포 시뮬레이션, 표본 설계 검증, 셀 할당 점검에 적합하다. "신세틱 서베이"라고 이름 붙이지 않는 게 안전하다.

진짜 신세틱 서베이: 응답자 단위 LLM 호출. 비싸고 느리다. 응답자 내 동학·문항 간 상관·순서 효과·워딩 효과 모두 측정 가능하다. 콘텐츠나 자문의 근거로 가져갈 수 있다.

두 개를 섞어 쓰면 결과의 신뢰도가 약해진다. 처음에는 룰 기반으로 빠르게 분포 점검을 하고, 정작 의미 있는 측정은 응답자 단위 호출로 넘어가는 게 합리적인 순서다.

이번 며칠은 그 순서를 거꾸로 잡고 시작했다가 워딩 실험 단계에서 막혀서 다시 출발점으로 돌아왔다. 시간이 좀 돌아간 셈이다. 다만 돌아오면서 두 방식의 차이를 명확히 봤다는 건 남는다.

신세틱 서베이를 본격적으로 다룰 거라면, 처음부터 응답자 단위 API 호출 구조를 잡고 시작하는 게 맞다. 그게 조사 방법론자가 인정할 수 있는 시작점이다.

정치조사에 제곱근 할당을 쓰면 안 되는 이유

통계청 승인조사 표본설계서를 보면 시도별 표본 할당이 비례할당이 아니라 제곱근 할당(또는 그 변형)인 경우가 많다. 가계동향, 경활, 사회조사 모두 그렇다. 그래서 가끔 받는 질문이 있다. "그러면 전국 17개 시도 1000명짜리 정치조사도 제곱근 할당이 더 낫지 않나요?"

답은 "아니오"이고, 오히려 정반대다.

통계청 조사가 제곱근 할당을 쓰는 이유

통계청 승인조사의 1차 산출물은 시도별 공표통계다. 각 시도별로 정해진 CV 기준(예: 20% 이내)을 충족해야 한다. 비례할당으로 가면 인구가 적은 세종·제주·강원은 표본이 너무 적어서 이 기준을 못 맞춘다. 반대로 균등할당으로 가면 전국 추정 효율이 깨진다.

제곱근 할당, 즉 시도별 표본을 인구의 제곱근에 비례하게 배정하는 방식은 그 사이의 절충이다. Bankier(1988)의 power allocation에서 지수 p=0.5에 해당하고, Kish(1976)의 compromise allocation 논의에서 전국 분산과 도메인 분산의 가중평균을 동시에 최소화할 때 자연스럽게 도출되는 형태다. 즉 "여러 도메인의 동시 정밀도"가 핵심 제약일 때 쓰는 도구다.

정치조사 1000명에는 이 논리가 안 맞는다

정치조사 1000명은 산출물 정의 자체가 다르다.

첫째, 공표 단위가 다르다. 정치조사 1000명의 1차 산출물은 전국 단일 지지율이지 시도별 추정치가 아니다. 1000명을 17개 시도에 제곱근으로 분산시키면 작은 시도는 30~50명 수준인데, 이 정도 표본으로는 시도별 신뢰구간이 ±10%p를 훌쩍 넘어서 실용적 의미가 없다. 정치조사에서 실제로 의미 있는 분석 단위는 권역(수도권·충청·호남·대경·PK)이고, 권역 단위라면 비례할당으로도 권역당 100~500명이 확보된다.

둘째, DEFF가 깨진다. 정치조사는 거의 100% 시도×성×연령 셀별 사후가중을 적용한다. 제곱근 할당으로 표본을 뽑으면 모집단 비율 대비 작은 시도가 과대표집되어 있고, 사후가중에서 작은 시도의 가중치가 매우 작아지고 큰 시도(경기·서울)의 가중치가 커진다. 가중치 분산이 커지면 Kish의 DEFF 공식 1 + CV²(w)가 1.2~1.4 수준까지 올라가서, 1000명이 유효표본 700~800명으로 깎인다. 비례할당으로 뽑으면 self-weighting에 가까워서 DEFF가 1.05~1.15 정도에 머문다. 결과적으로 전국 추정의 정밀도가 제곱근 할당에서 오히려 떨어진다.

셋째, 관리해야 할 정밀도가 다른 곳에 있다. 통계청 조사는 시도별 CV가 공표 기준이다. 정치조사 1000명은 시도별 CV가 아예 관리 대상이 아니다. 관리 대상이 어디 있는지가 다른데 같은 할당 논리를 쓰면 안 된다.

여심위 규정이 비례할당을 제도적으로 강제한다

한국 정치조사에는 여기에 더해 제도적 제약이 걸린다. 「선거여론조사기준」 제5조(가중값 배율)는, 누구든지 선거여론조사를 실시할 때 조사지역 전체 유권자의 성별·연령대별·지역별 구성 비율을 기준으로 한 가중값 배율을 밝혀야 하며, 가중값 배율이 일정 범위에 있지 않은 결과를 공표·보도해서는 안 된다고 규정하고 있다. 그 범위는 성별 0.7~1.5, 연령대별 0.7~1.5, 지역별 0.7~1.5다.

규정의 적용 단위가 핵심이다. 가중값 배율은 차원별(성별·연령대별·지역별) 주변분포 가중값이지 응답자 ID별 누적 가중치가 아니다. 그러나 표본 할당의 거시적 한도는 차원별 가중값에서 직접 결정된다. 지역 차원 가중값이 0.7 이상이려면 표본비가 인구비의 1.43배(=1/0.7)를 초과할 수 없다. 이게 booster sampling의 상한이다.

1000명 정치조사에서 이 한도가 어느 정도인지 정량적으로 보면 이렇다. 제주는 인구비 1.3%로 비례할당 13명이 최대 19명까지 늘 수 있고(추가 +6명), 강원은 인구비 2.9%로 29명이 41명까지(+12명), 호남 권역은 인구비 9.8%로 98명이 140명까지(+42명) 늘릴 수 있다. 호남이 200명 가까이 갈 거라는 인상이 있지만 실제로는 140명에서 막힌다. 제주는 booster의 의미가 거의 없다. 동시에 ceiling 1.5도 양방향으로 작동해서 큰 시도에서 booster 재원을 빼올 자리도 좁다. 경기(인구비 25%)는 표본비 16.7% 미만으로 못 빼고, 서울(18%)은 12% 미만으로 못 뺀다.

이 정도 운용 폭이라면 "권역별 분석을 살리는 booster"가 아니라 floor 미세조정 수준의 비례할당에 더 가깝다.

RIM 가중이 사실상 강제된다

규정의 적용 단위가 차원별 주변분포라는 점은 또 한 번 결정적이다. 결합 셀 가중(cell weighting)을 쓰면 셀 가중값이 곧 ID 누적 가중치라서 작은 셀(예: 제주 60대 남성)의 응답 부족이 곧장 규정 위반으로 이어진다. RIM 가중은 차원별 주변분포만 맞추니까 차원별 가중값이 0.7~1.5 안에 있으면 되고, ID별 누적 가중치는 그 범위 밖으로 나가도 무방하다. 작은 셀의 변동을 차원별로 흡수할 수 있다.

결국 여심위 규정 안에서 정치조사 1000명의 가중 방식은 RIM에 가까운 형태로 수렴한다. 단순히 "셀별 극단치 방지" 때문이 아니라 규정의 박스를 ID가 아닌 차원에 적용시키는 방식으로서 RIM이 선택되는 것이다.

그러면 booster의 통계적 효익은 무엇인가

위에서 본 한도 안에서 booster를 하면 통계적으로 정확히 무엇이 좋아지는가. 답은 단순하다. 그 소지역 자체에 대한 추정의 분산 감소, 단 그것뿐이다. 그리고 한도 안에서는 그 효익조차 측정 가능한 수준으로 발현되지 않는다.

비율 p가 0.5일 때의 표준오차로 보면, 제주 비례할당 13명의 SE는 13.9%인데 booster 19명까지 가도 SE는 11.5%로 2.4%p 감소에 그친다. 호남도 비례할당 98명의 SE 5.0%가 booster 140명에서 4.2%로 0.8%p 줄어드는 정도다. 신뢰구간이 ±27%에서 ±22%로 좁아지는 수준인데, 보고서 시각화에서 사실상 구분되지 않는다. SE를 절반으로 줄이려면 표본을 4배 늘려야 하는데, 13명을 50명대로 끌어올리는 booster는 규정상 불가능하다.

게다가 booster 단위(소지역)와 분석 단위(권역)가 일치하지 않으면 효익이 분석으로 잘 전달되지 않는다. 호남 booster는 호남 권역 분석 SE를 약간 줄이지만, 제주·강원·세종 booster는 권역 분석에 거의 영향이 없다.

표본 할당의 통계적 최적해인 Neyman allocation은 시도별 표본을 인구와 분산의 곱에 비례하게 배정하는 방식이다. 그런데 정치조사 변수인 지지율의 시도별 분산은 어디서나 0.2~0.25로 비슷하다. 그러면 Neyman optimal이 사실상 비례할당으로 수렴한다. 단일 모수 추정에서는 비례할당 자체가 통계적 최적해이고, 거기서 벗어나는 booster는 전국 추정 측면에서 항상 손해다.

정리

표본 할당 방식은 도구가 아니라 산출물 정의의 함수다. 통계청 조사의 제곱근 할당이 합리적인 이유는 시도별 공표통계라는 산출물 때문이지 제곱근 할당이라는 형식 자체가 우월해서가 아니다. 같은 1000명짜리 조사라도 산출물이 전국 단일 추정인지, 권역별 비교인지, 시도별 추정인지에 따라 답이 완전히 달라진다.

정치조사 1000명은 그 중 첫 번째 케이스(권역별 비교 일부 포함)이고, 거기에 맞는 답은 비례할당이다. 강원·제주·세종 같은 소지역은 비례할당으로 적은 표본 그대로 두고, 권역별 분석에서는 "사례수 부족, 참고용" 주석으로 처리하거나 권역에 통합하는 게 한국 정치조사의 표준 관행이다. 제곱근 할당은 들어올 자리가 없고, booster sampling도 여심위 규정·DEFF·표본 비용 어느 측면에서도 정당화되기 어렵다.

이는 자연 발생적 합의가 아니라 통계학(Neyman optimal, DEFF)과 규제(여심위 가중값 배율)의 합작품이다. 1000명 안에서 권역별 분석을 진짜로 살리려면 booster로 풀려고 하지 말고 시도 단위 셀 가중을 권역 단위로 묶거나, cell weighting 대신 RIM을 적용하거나, 표본 자체를 1500~2000명으로 키우는 게 정공법이다.

2026년 5월 5일 화요일

ARS가 득표율과 비슷한 것은 정확해서가 아니다

선거가 다가오면 어김없이 반복되는 논쟁이 있다. ARS 조사가 전화면접보다 실제 득표율에 더 가깝다는 주장이다. 리얼미터 등 19개사가 속한 한국정치조사협회는 "각 당 싱크탱크도 ARS를 선호할 정도로 결과는 ARS가 더 정확하다"고 말하고, 한국갤럽 등 34개사가 가입한 한국조사협회는 정반대로 ARS 퇴출을 결의한다. 같은 데이터를 두고 두 진영이 평행선을 달린다.

학술적 검증은 어땠을까. 2017년 19대 대선 직후 중앙선거여론조사심의위원회가 대한정치학회에 의뢰한 종합 비교 분석은 두 방식 중 어느 쪽이 더 정확하고 신뢰할 만하다는 근거를 찾을 수 없다는 결론으로 마무리되었다. 2022년 20대 대선에서 ARS 일부 조사가 윤석열 우위를 더 빨리 잡아낸 사례가 있었지만, 22대 총선과 2025년 조기 대선에서는 거꾸로 ARS 다수 조사의 부정확성이 도마에 올랐다. 선거별로 결과가 엇갈리고, 같은 선거에서도 어떤 변수를 통제하느냐에 따라 우열이 뒤집힌다.

ARS가 득표율과 비슷해 보이는 데에는 측정 자체와 무관한 구조적 이유가 있다. 분모 효과다.

선거 결과는 무효표와 기권을 제외한 유효투표 100%를 기준으로 후보별 비율이 산출된다. 모름이나 미결정이 들어갈 자리가 없다. 반면 여론조사는 부동층 응답이 분모에 포함된다. 그런데 ARS는 응답자 단계에서 이미 정치 고관여층이 자기선택으로 걸러져 들어오는 방식이다. 부동층 비율이 한 자릿수에 머무르는 일이 흔하다. 2021년 12월 한 달간 진행된 무선 ARS 조사의 부동층은 9.1%였던 반면, 무선 전화면접에서는 21.5%로 두 배 이상이었다. ARS는 사실상 "결심한 사람들끼리의 비율"에 가까운 분포가 만들어지고, 이 값이 결심한 유권자만 집계된 득표율과 같은 자릿수에서 비교되니 비슷해 보이는 것이 당연하다.

전화면접의 부동층 21.5%를 결정 응답자에게 비례배분하거나 확정지지율로 다시 계산해 비교하면 두 방식의 격차는 상당 부분 사라진다. 사후 분석에서 반복적으로 확인되어 온 사실이다.

학술적으로 여론조사 정확도를 평가할 때 Mosteller 측정법, 특히 method 3과 5, 또는 Martin–Traugott–Kennedy의 A 통계 같은 지표를 쓰는 이유가 여기에 있다. 미결정 응답을 제외하고 후보 간 격차의 부호와 크기만 비교한다. 분모를 맞춰서 비교한다는 의미다. 이렇게 보정한 지표로 다시 계산하면 ARS의 우위는 사라지거나 오히려 역전되는 사례가 적지 않다.

ARS가 득표율과 비슷해 보이는 인상은 추정량의 우수성에서 오는 것이 아니다. 무응답 처리 방식과 응답자 자기선택이 결합해 만들어내는 표면적 일치다. 이를 모집단 대표성의 근거로 가져다 쓰는 것은 측정 척도의 차이를 정확도의 차이로 오독하는 일이다. 보수층 샤이 표심을 더 잘 잡는다는 식의 사후 해석도 표본 편향의 방향이 우연히 결과와 맞아떨어진 것을 사후적으로 합리화하는 서사에 가깝다.

분모를 보정하면 사라지는 우위를 두고, 분모를 보정하지 않은 채 "결과가 맞았다"는 사후 평가만 반복되는 한 이 논쟁은 끝나지 않는다.

2026년 4월 29일 수요일

신세틱 공론조사를 한 번 해보면 어떨까

며칠째 신세틱 서베이로 이런저런 실험을 하고 있다. 전북도지사 선거 가상 조사 500명을 돌려보고, 같은 방식으로 전국 500명 정치 조사도 돌려봤다. 페르소나를 셀별로 추출하고 룰을 짜서 응답을 생성하는 일. 결과가 실제 여론조사 분포와 꽤 비슷하게 나오는 것까지 확인하니, 이 방법이 어디까지 쓸모 있는지 윤곽이 잡히는 듯하다.

그러다 전북 좌담회 참석자 선정질문지를 보다가 문득 들었다. 이걸로 FGI를 시뮬레이션해도 될까?

답은 명확하게 아니었다. FGI의 핵심은 8명이 한 공간에서 만들어내는 발화의 우연성과 상호작용인데, 합성 페르소나는 평균값으로 끌려가서 "어, 이 발언 의외인데?" 같은 통찰이 안 나온다. 진짜 FGI에서 가장 중요한 부분이 LLM 평균에 묻혀버린다.

그런데 거기서 한 발 더 가면 — 공론조사는 어떨까.

공론조사를 신세틱으로 옮긴다는 발상

피쉬킨(James Fishkin)이 정립한 공론조사(Deliberative Polling)는 단순한 여론조사가 아니다. T1에서 사전 의견을 측정하고, 참여자들에게 균형 잡힌 자료집을 제공하고, 전문가 패널과 소그룹 토론을 거친 뒤, T2에서 다시 측정한다. 정보를 받고 숙의(deliberation)를 거친 뒤 의견이 어떻게 변하는지 보는 방법이다.

한국에서도 신고리 5·6호기 공론화(2017), 대입제도 개편(2018) 같은 굵직한 사안에서 활용됐다. 다만 비용이 수십억대고 시간도 수개월이라 일상적으로 돌리기 어려운 도구다. 그러니 의제 하나당 한 번 정도가 한계다.

신세틱으로 옮기면 어떻게 될까. 일단 명백한 장점들이 있다.

실시간으로 돌릴 수 있다. 자료집 만들고 LLM에 주입하고 응답 받기까지 몇 시간이면 끝난다.

같은 사람을 추적할 수 있다. 실제 공론조사의 큰 골칫거리 중 하나가 패널 중도이탈이다. T1에 응답한 사람이 T2까지 안 남으면 비교가 깨진다. 합성 페르소나는 16번 부르든 1,600번 부르든 같은 사람으로 일관되게 응답한다.

자료집을 변형해서 비교할 수 있다. 같은 사실을 다른 프레이밍으로 제시했을 때 변화 차이는 어떤가. 찬성 측 자료를 먼저 보여줬을 때와 반대 측을 먼저 보여줬을 때 어떻게 다른가. 진짜 공론조사로는 절대 못 하는 A/B 비교가 가능하다.

셀별 민감도를 측정할 수 있다. 어떤 인구학적 셀이 정보에 더 잘 반응하는가. 50대 여성과 20대 남성이 같은 자료를 받았을 때 변화량이 다른가. 이건 정량 비교가 가능한 영역이다.

그런데 그냥 LLM에 자료를 던지면 안 된다 — RAG가 필요하다

여기까지만 보면 그럴듯한데, 막상 구현 단계로 들어가면 큰 함정이 있다. LLM 단독으로 응답을 생성하게 두면 자료집 외부의 사전학습 지식을 끌어와서 응답한다. 공론조사의 본질이 "주어진 자료를 받고 의견이 어떻게 변하는가"를 측정하는 건데, LLM이 자기 학습 데이터의 정보를 섞어버리면 측정 자체가 오염된다.

이걸 풀어주는 게 RAG(검색 증강 생성) 구조다. 페르소나에게 주입할 자료집을 외부 문서 컬렉션으로 따로 두고, 응답할 때 그 컬렉션에서만 검색해 근거로 쓰게 한다. LLM이 사전학습에서 끌어오는 노이즈를 줄이고, 자료집 내용에 정렬된 응답을 생성하게 강제한다.

이렇게 가면 신세틱 공론조사가 비로소 진짜 통제 가능한 실험이 된다.

자료 환경을 명시적으로 통제할 수 있다. 찬성만 든 컬렉션, 반대만 든 컬렉션, 균형 컬렉션을 따로 만들어두고 페르소나별로 다른 컬렉션을 붙인다. 같은 페르소나가 다른 정보 환경을 받았을 때 어떻게 다르게 반응하는지 깨끗하게 비교된다.

근거 추적이 된다. 페르소나가 어떤 응답을 했을 때 검색된 문서 인용이 함께 따라온다. "이 페르소나는 자료집의 어떤 부분에 가장 영향받았는가"를 사후에 분석할 수 있다. 진짜 공론조사 사후 분석에서도 어려운 부분이다.

시점을 고정할 수 있다. 자료 컬렉션의 시점을 고정하면 T1·T2·T3가 같은 정보 환경에서 측정된다. LLM 학습 데이터에 새 정보가 섞일 위험이 줄어든다.

그러면 진짜 deliberation은 모사할 수 있나

여기서 이 아이디어의 가장 어려운 지점에 부딪힌다. 공론조사의 핵심은 단순한 정보 노출이 아니라 숙의 — 다른 입장의 사람을 직접 만나 토론하면서 의견이 변하는 과정 — 이다. 피쉬킨의 연구에서 일관되게 나오는 발견 몇 가지를 떠올려보면:

사람들은 정보를 받으면 정책의 미묘한 차이를 더 잘 인지한다.
토론을 거치면 극단적 입장이 줄어든다.
다른 입장의 사람을 대면하면 상대 진영을 덜 적대적으로 본다.

이 중 LLM이 그럴듯하게 모사할 수 있는 건 첫 번째뿐이다. 두 번째와 세 번째는 인간 간 상호작용의 산물이라 합성으로는 거의 못 만든다. 그래서 신세틱 공론조사는 엄밀히 말하면 공론조사의 일부만 시뮬레이션하는 것이다 — 정보 노출 효과는 잡되, 진짜 deliberation은 못 잡는다.

다만 이 한계를 단점으로만 볼 필요는 없을 것 같다. 오히려 "자료집 효과와 토론 효과를 분리해서 측정할 수 있다"는 장점이 된다. 진짜 공론조사에서는 이 둘이 한 사이클 안에 묶여 있어 분리가 어려운데, 신세틱에서는 자료만 주입한 단계와 가상 토론 요약까지 주입한 단계를 따로 측정할 수 있다.

여기서 RAG가 한 번 더 일을 한다. T2 단계에서 페르소나가 자료집을 받은 뒤, 그룹 내 다른 페르소나의 발언을 요약 문서로 RAG 컬렉션에 추가한다. 그러면 페르소나는 자료집 + 동료 발언을 둘 다 검색해 응답을 생성한다. 한 라운드씩 돌리면서 발언을 누적시키면 일종의 비동기 토론 시뮬레이션이 된다. 물론 이건 진짜 토론이 아니다. 인간이 마주 보고 만드는 인터럽트·동조·감정 폭발은 못 만든다. 다만 "다른 입장의 발언을 정보로서 접한 뒤 의견이 변하는 부분"은 분리해서 측정할 수 있다.

가능한 설계

머릿속에서 그려보면 이런 그림이다.

단계	조작 (RAG 컬렉션 구성)	측정
T1	페르소나만 (자료 컬렉션 비움)	사전 의견, 확신도, 찬반 비율
T2a	찬성 측 균형 자료 컬렉션 주입	자료1 받은 후 의견·확신도 변화량
T2b	반대 측 자료 추가 (양측 다)	양면 정보 효과, 확신도 변화
T2c	동일 그룹 내 다른 페르소나 발언 요약을 컬렉션에 추가	동료 발언 노출 효과
T3	일정 라운드 누적 후	최종 의견, 집단 수렴/양극화

흥미로운 건 측정 변수가 의견 자체만 있는 게 아니라는 점이다. 확신도 변화, 이슈 인지 정확도 변화, 의견은 그대로인데 근거만 바뀌는 패턴, 자료 비대칭에 대한 민감도, 검색-인용된 문서의 셀별 차이 같은 게 다 측정 대상이 된다. RAG 구조이기 때문에 마지막 변수가 새로 가능해진다 — "어떤 셀이 어떤 정보를 더 자주 끌어다 쓰는가"를 추적할 수 있다는 뜻이다.

그래서 뭐가 되나

당장은 아이디어 단계다. 다만 이게 단순한 호기심 이상으로 의미가 있을 것 같은 이유는, 한국에서는 공론조사 사례 자체가 적어서 이 방법론에 대한 누적된 실증 연구가 빈약하다는 점이다. 신세틱으로 같은 의제를 여러 번, 여러 변형으로 돌려보는 게 가능해지면, 적어도 자료 노출 효과의 셀별 차이 같은 건 정량적으로 잡을 수 있다.

물론 진짜 공론조사를 대체하는 게 아니다. 진짜 토론에서 나오는 인간 상호작용의 가치는 합성으로 안 잡히고, 그건 그것대로 인간이 모인 자리에서 해야 한다. 다만 진짜 공론조사를 설계하기 전 단계에서 "어떤 자료집 구성이, 어떤 그룹에게, 어떻게 영향을 줄 가능성이 큰가"를 미리 시뮬레이션해보는 사전 도구로는 의미가 있을 것 같다.

또 흥미로운 건, 이미 진행된 한국의 공론조사 사례(신고리, 대입개편 등)를 동일 자료집으로 신세틱에 돌려보고 결과를 비교하는 작업이다. 어디서 일치하고 어디서 갈라지는지 보면, 합성 데이터의 적용 한계 자체가 정량화된다.

신세틱 서베이가 정량 분포 시뮬레이션에서 어디까지 쓸모 있는지는 이번 주 작업으로 어느 정도 그림이 잡혔다. 그 다음 단계는 시점 간 변화 측정이고, 그 첫 후보가 RAG 기반 신세틱 공론조사일 것 같다.

조만간 한 번 돌려봐야겠다.

2026년 4월 26일 일요일

스마트폰에서 표 문항이 작동하지 않는 이유 — 모바일웹 조사의 그리드 문제

모바일웹 조사 설문지를 검토하다 보면, 의뢰인이든 연구자든 한 가지 공통된 반응을 보이는 지점이 있다. 그리드(매트릭스) 문항을 개별 문항으로 풀어놓은 설문지를 처음 받았을 때의 반응이다.

"문항이 너무 많아 보이는데, 표로 묶으면 안 되나요?"

이 질문은 자연스럽다. 설문지를 문서로 볼 때는 표가 훨씬 깔끔하다. 10개 항목을 개별로 나열하면 페이지가 길어지고 산만해 보이는 반면, 하나의 표로 묶으면 한눈에 구조가 보인다. 검토하는 사람 입장에서는 당연히 표가 낫다.

문제는 설문지 문서를 읽는 사람과 설문에 실제로 응답하는 사람의 경험이 완전히 다르다는 점이다.

PC 웹조사 시대의 유산

그리드 문항은 PC 웹조사 시대의 산물이다. 1024px 이상의 가로 해상도에서 5열 × 10행 표는 완벽하게 작동한다. 한 화면에 전체 구조가 보이고, 응답자는 행 간 비교를 하면서 자신의 응답이 일관적인지 자연스럽게 점검한다. 연구자가 의도한 대로 "항목 간 상대적 비교"가 이뤄진다.

한국 조사업계에서 여전히 그리드 문항이 기본값(default)처럼 쓰이는 데는 이 시대의 관성이 크다. 여기에 몇 가지 이유가 겹친다.

첫째, 표는 전문적으로 보인다. 설문지를 의뢰인에게 제출할 때, 개별 문항 10개보다 표 1개가 "잘 설계된 조사"처럼 보인다. 솔직히 말하면, 있어 보인다. 연구자들이 이 유혹에서 벗어나기 쉽지 않다.

둘째, 문항 수 착시다. "총 30문항"이라고 적는 것보다 "총 15문항(일부 매트릭스 포함)"이라고 적는 편이 의뢰인의 비용 저항을 줄인다. 같은 분량의 조사를 적은 문항처럼 포장할 수 있다.

셋째, 분석 편의성이다. 같은 척도로 묶인 그리드는 SPSS에서 한 번에 빈도표를 뽑기 쉽다. 연구자 본인의 작업 효율을 응답자의 응답 경험보다 우선시하는 것인데, 대개 무의식적으로 그렇게 한다.

이 세 가지는 모두 조사자 측의 편의다. 응답자 측의 사정이 아니다.

모바일 화면에서 실제로 벌어지는 일

스마트폰 화면 가로폭은 대개 360~400px이다. 여기에 5열짜리 리커트 척도 표를 넣으면 어떻게 되는가.

가장 흔한 구현 방식은 표를 좌우 스크롤 가능하게 만드는 것이다. 응답자는 행 텍스트(항목)를 읽은 뒤, 오른쪽으로 밀어서 보기를 찾아 터치해야 한다. 이 과정에서 "매우 그렇다"와 "그렇다"의 시각적 구분이 모호해진다. 열 헤더가 화면 밖으로 사라지기 때문이다. 결과적으로 응답자는 보기의 의미를 파악하는 것이 아니라, 위치(왼쪽에서 몇 번째)로 응답하게 된다.

더 심각한 문제는 straight-lining이다. 10행짜리 그리드가 화면에 나타나면, 응답자에게는 "10개를 전부 채워야 다음으로 넘어간다"는 시각적 압박이 온다. 자연스러운 대응은 같은 열을 연속으로 찍는 것이다. 이건 불성실 응답이라기보다, 인터페이스가 유도하는 합리적 행동에 가깝다. Pew Research Center가 2019년에 수행한 모바일 vs PC 비교 실험에서, 그리드 문항의 모바일 straight-lining 비율이 PC 대비 유의하게 높았고, 같은 문항을 개별로 분리했을 때는 이 차이가 사라졌다.

항목 수가 많을수록 문제는 가속된다. 10행짜리 그리드의 마지막 3~4행에서 응답 분산이 급격히 줄어드는 현상은, 모바일웹 조사를 해본 사람이라면 데이터에서 반복적으로 목격했을 것이다. 이건 응답자의 태도가 변한 것이 아니라, 피로가 인터페이스에 의해 증폭된 것이다.

"문항이 적어 보인다"는 착각의 구조

여기서 흥미로운 역설이 있다. 설문지 문서에서는 표 1개(10행)가 개별 문항 10개보다 "적어" 보인다. 그런데 응답자의 체감에서는 정반대다.

개별 문항 10개는 화면 10개로 나뉜다. 한 화면에 질문 1개와 보기 4~5개만 보인다. 터치 한 번이면 다음으로 넘어간다. 진행 바(progress bar)가 한 칸씩 차오르는 것이 보인다. "빨리 끝나고 있다"는 느낌이 든다.

표 문항 1개는 화면 1개에 10행이 들어간다. 스크롤을 여러 번 해야 하고, 한 행을 채울 때마다 나머지 9행이 남아 있는 것이 보인다. 진행 바는 움직이지 않는다. "이게 언제 끝나나" 하는 심리적 부담이 누적된다.

문서 가독성과 응답 경험은 별개의 차원이다. 설문지를 검토하는 의뢰인이 "깔끔하다"고 느끼는 것과, 응답자가 "빨리 끝난다"고 느끼는 것은 다른 문제다. 설문 설계자는 후자를 기준으로 판단해야 한다.

그러면 표 문항은 언제 쓰는가

모바일웹에서도 표가 적절한 경우가 드물지만 존재한다. 핵심 기준은 "항목 간 상대적 비교가 응답의 본질인가"이다.

예를 들어, "다음 후보들에 대한 호감도를 각각 평가해 주십시오"는 개별로 분리해도 응답 품질에 차이가 없다. 응답자는 각 후보를 독립적으로 평가하는 것이지, A 후보와 B 후보의 호감도를 나란히 비교하면서 점수를 매기는 것이 아니다. 이런 문항은 분리하는 것이 맞다.

반면, "다음 두 브랜드의 속성별 우위를 비교해 주십시오"처럼 A와 B를 나란히 놓고 상대적 위치를 판단하는 것이 문항의 본질인 경우에는 표가 필요하다. 이때에도 행 수를 3~4개 이하로 제한하고, 좌우 스크롤이 발생하지 않도록 열 수를 줄여야 한다.

실무적 기준을 정리하면 이렇다.

모바일웹 조사에서 그리드를 쓸 때는 행 4개 이하, 열 3개 이하를 기준으로 삼는다.
이를 초과하면 개별 문항으로 분리한다.
분리할 때는 문항 간 Random 제시를 적용하여 순서 효과를 통제한다.

대부분의 그리드 문항은 이 기준을 초과한다. 즉, 대부분의 그리드는 분리해야 한다.

설문지 문서와 구현의 분리

결론적으로, "설문지 문서에서의 표 정리"와 "실제 모바일웹 구현에서의 표 제시"를 분리해서 생각해야 한다.

설문지 문서에서는 동일한 척도를 공유하는 항목들을 표로 묶어서 정리하는 것이 맞다. 내부 검토 가독성이 좋아지고, 문항 간 구조적 관계가 한눈에 보이기 때문이다. 이건 작성자와 검토자를 위한 포맷이다.

그러나 실제 모바일웹 구현에서는 그 표를 한 항목씩 개별 화면으로 쪼개서 제시해야 한다. 서베이박스, 서베이몽키 같은 모바일 대응 플랫폼에서도 그리드를 개별 화면으로 쪼개는 옵션이 기본 제공되는 이유가 여기에 있다.

설문지를 쓰는 사람이 설문에 답하는 사람이 아니다. 응답자는 우리가 만든 A4 문서를 보지 않는다. 응답자가 보는 것은 380px짜리 스마트폰 화면이다. 그 화면에서 "있어 보이는 것"과 "답하기 편한 것"은 다르다. 우리가 설계해야 하는 것은 후자다.

한국에 잠든 ABS 프레임 — 선거인명부, 풀리면 이렇게 쓸 수 있다

KGSS 방법론 보고서를 들추다 보면 한 가지 풍경이 매번 반복된다. 통계청 인구주택총조사 조사구를 1차 추출 단위로 삼고, 추출된 조사구에 면접원이 직접 들어가 가구를 접촉하고, 그 안에서 다시 한 명을 골라낸다. 다단계 지역확률표집의 정석이다. 동시에 면접원 인건비, 접촉 실패, 부재중 재방문, 그리고 해마다 떨어지는 응답률이라는 익숙한 부담을 함께 짊어지는 설계이기도 하다.

미국이 같은 자리에서 빠져나간 길이 ABS, 즉 Address-Based Sampling이다. USPS의 Delivery Sequence File을 베이스로 가구 단위 주소 프레임을 만들고, 거기에 등기 발송 invitation을 띄워 웹조사로 끌어들인다. 면접원을 거치지 않고도 확률표본을 유지하는 방식. Pew, GSS의 web push, AmeriSpeak의 충원까지 — 지난 십여 년 간 미국 사회조사가 비용 폭증과 응답률 추락 사이에서 찾아낸 절충점이다.

문제는 한국에 USPS 같은 통합 주소 파일이 없다는 게 아니다. 더 좋은 게 있다. 다만 잠겨 있을 뿐이다.

선거인명부라는 잠든 프레임

선거인명부는 만 18세 이상 대한민국 국민 전수를 담는다. 가구가 아니라 개인 단위다. 이름, 도로명주소, 생년월일이 갖춰져 있고, 행정안전부 주민등록 데이터를 모집단으로 삼아 선거 시기마다 갱신된다. 형식적 요건만 보면 사회조사용 표집틀로서 거의 흠잡을 데가 없다.

물론 한계도 분명하다. 층화에 쓸 만한 변수는 지역·성·연령 셋뿐이다. 학력도, 직업도, 소득도 없다. 미국 Voter File이 상업적 augmentation을 거쳐 정당지지·소비행태·인종 추정치까지 붙이며 풍부한 층화 변수를 갖게 된 것과는 정반대 방향이다. 하지만 사회조사의 표준 가중 셀이 결국 지역×성×연령으로 떨어지는 현실을 생각하면, 이 정도면 ABS의 출발점으로 충분하다. 모자라는 변수는 응답 단계에서 회수하면 된다.

풀리면 이렇게 쓸 수 있다

설계는 어렵지 않다. 선거인명부에서 지역×성×연령 셀별로 무작위 추출한다. 추출된 표본에게 등기우편으로 invitation letter를 발송한다. "○○○님께"로 시작하는 개인화된 편지, 조사 목적과 소요 시간을 분명히 적은 한 페이지짜리 안내문, QR코드와 짧은 URL, 모바일 웹서베이 링크. 응답 인센티브로 편의점 모바일 상품권을 걸고, 2주 뒤 미응답자에게 reminder를 보낸다. 필요하다면 SMS나 전화로 후속 접촉 단계를 추가하는 mixed-mode 설계도 가능하다.

숫자로 가늠해 보자. 등기우편 한 통은 인쇄·봉투·발송까지 합쳐 통당 4천 원 안팎이다. 1만 명에게 발송한다고 해도 우편 비용은 4천만 원 수준. 면접원이 가구를 직접 방문해 1,000명 표본을 채우는 KGSS급 조사의 인건비와 비교하면 자릿수가 다르다. 응답률은 미국 ABS-to-web 조사 사례를 참고하면 인센티브 설계와 reminder 횟수에 따라 10~25% 사이에서 형성된다. 한국 수신자의 등기 개봉률과 모바일 친화도를 감안하면 그 상단 — 20% 전후 — 을 기대해 볼 만하다. 1만 명 발송으로 2,000명 표본을 확보하는 셈이다. 같은 표본을 면접조사로 채우려면 들여야 할 자원과 시간을 떠올리면, 이 비교는 더 노골적으로 갈린다.

이 설계가 한국에서 작동할 조건은 이미 갖춰져 있다. 도로명주소 시스템은 성숙했고, 스마트폰 보급률은 사실상 천장에 닿았으며, 모바일 웹서베이 인프라는 통신사 기반으로 충분히 검증됐다. 등기우편에 대한 신뢰는 여전히 높고, "님께"라는 호명이 가지는 무게도 한국 수신자에게는 결코 가볍지 않다. 면접원 한 명이 가구 한 곳을 두세 번 방문하는 비용과, 등기 한 통의 비용을 비교하면 셈은 더 분명해진다.

장기적으로는 이 프레임이 가지는 또 다른 가치가 있다. 표본을 무작위로 뽑되 invitation을 받은 사람들 중 일부를 패널로 충원하는 설계 — 미국 NORC가 AmeriSpeak에서 쓰는 방식 — 도 같은 토대 위에 얹을 수 있다. 확률표본 기반의 온라인 패널을 한국에서도 마침내 만들 수 있다는 뜻이다. 지금까지 한국의 온라인 패널이 모두 비확률 옵트인이었다는 사실을, 우리는 너무 오래 자연스럽게 받아들여 왔다. 학술조사뿐 아니라 정부 통계, 정책 평가, 그리고 더 정직한 여론조사가 모두 이 토대 위에서 다시 그려질 수 있다.

물론 ABS-to-web 단일 모드만으로 모든 조사를 대체하자는 이야기는 아니다. 노년층, 디지털 접근성이 낮은 응답자, 긴 설문이 필요한 심층조사는 여전히 면접 모드가 더 적합하다. 핵심은 한국 사회조사가 지금 사실상 면접조사 외에는 확률표본 옵션을 못 가진 상태라는 점이다. 도구상자에 도구가 하나뿐이면 모든 못이 같은 망치를 부른다. 선거인명부 기반 ABS는 그 도구상자에 한 자리를 추가하는 일이다.

잠겨 있는 이유, 그리고 풀릴 수 있는 길

문제는 법이다. 공직선거법은 선거인명부를 선거 목적으로만 작성·이용하도록 한정한다. 학술 사회조사가 받아쓰는 경로는 열려 있지 않고, 출구조사 기관이 협조받는 것조차 매번 법적 근거를 따져야 한다. KGSS, 한국복지패널, 청소년패널이 다들 조사구 기반 설계를 고집하는 건 더 좋은 프레임이 없어서가 아니다. 있어도 못 쓰기 때문이다.

풀릴 수 있는 길이 아주 막혀 있는 것은 아니다. 통계법상 통계작성지정기관에 한해 익명화된 셀 단위로 표본추출 협조를 받는 방식, 행정안전부가 주민등록 데이터를 통계 목적 표집틀로 별도 가공해 제공하는 방식, 혹은 선관위가 학술 IRB 승인 조건 하에 제한적으로 표본을 추출해 우편 발송만 대행하는 방식 — 외국에서 작동하는 모델은 여럿 있다. 응답자 본인은 자신의 정보가 어떻게 표집에 쓰였는지 invitation letter를 통해 명시적으로 고지받고, 참여 여부를 선택할 수 있다. 사생활 보호와 사회조사의 공익성 사이에서 균형점을 찾는 일은 이미 다른 나라들이 한 세대에 걸쳐 다듬어 온 의제다. 한국이 새로 발명해야 할 문제가 아니다.

미국이 ABS로 넘어간 것 자체가 USPS와의 협력, 그리고 인구센서스 프레임 정비라는 행정 인프라의 결과였다는 점을 떠올리면, 한국이 가진 토대는 오히려 더 단단하다. 다만 그 토대를 사회조사가 사용할 수 있도록 허용하는 합의가 아직 만들어지지 않았을 뿐이다.

잠든 자원을 깨우는 일

표본조사를 오래 하다 보면, 좋은 프레임이 얼마나 귀한 것인지 매번 실감하게 된다. 우리는 지금 그 귀한 자원을 가진 채로, 면접원을 조사구에 들여보내고 있다. 미국이 부러워할 만한 인프라를 손에 쥔 채 미국식 다단계 표집의 비용을 치르고 있는 셈이다.

언젠가 이 자물쇠가 풀리는 날이 온다면, 한국 사회조사는 한 세대 만에 한 번 있을 도약을 맞을 것이다. 그날을 기다리며 설계도만이라도 미리 그려두는 것은, 방법론 하는 사람의 작은 의무가 아닐까 싶다.

2026년 4월 23일 목요일

오차범위 ±3.1%p 뒤에 숨은 또 하나의 얼굴

— 지지율 3%인 정당의 진짜 오차범위는 얼마일까

앞선 글에서 오차범위 ±3.1%p가 상황에 따라 세 가지 얼굴을 가진다는 이야기를 했다. 한 후보 지지율을 볼 때와, 두 후보의 격차를 볼 때, 그리고 지난주와 이번주를 비교할 때가 모두 다르다는 내용이었다.

그런데 사실, 그 첫 번째 얼굴 안에도 또 하나의 얼굴이 숨어 있다. 같은 조사에서 뽑힌 숫자인데도, 지지율이 얼마냐에 따라 오차범위가 다르게 적용되어야 한다는 사실이다. 이건 교과서에는 한 줄로 지나가는데, 실제 기사에는 거의 반영되지 않는다.

기사에 적힌 ±3.1%p는 "최악의 경우"다

결론부터 말하면, 기사 하단에 적혀 있는 ±3.1%p는 지지율이 50%일 때의 값이다. 그리고 이건 모든 경우를 통틀어 가장 큰 오차범위다.

50%에서 멀어질수록, 다시 말해 아주 낮거나 아주 높은 지지율일수록 실제 오차범위는 작아진다. 숫자로 보면 이렇다.

지지율	실제 오차범위 (1,000명 조사 기준)
50%	±3.10%p
40% / 60%	±3.04%p
30% / 70%	±2.84%p
20% / 80%	±2.48%p
10% / 90%	±1.86%p
5% / 95%	±1.35%p
3% / 97%	±1.06%p
1% / 99%	±0.62%p

50%일 때 ±3.10%p던 것이, 지지율 3%짜리 군소 후보에게는 ±1.06%p까지 줄어든다. 거의 3분의 1 수준이다.

왜 50%가 가장 불안한 숫자일까

직관적으로 생각해 보자. 상자 안에 빨간 공과 파란 공이 섞여 있다. 안을 들여다보지 않고 한 개씩 꺼내서 색깔을 맞혀 본다고 하자.

상자 안이 반반(50:50)일 때 다음에 꺼낼 공의 색깔이 뭘지 가장 예측하기 어렵다. 반반이라는 건 가장 애매한 상태니까.

빨간 공이 10%밖에 없다면 다음에 꺼낼 공은 거의 확실히 파란색이다. 예측하기 쉽다. 어쩌다 빨간 공이 나와도 전체 결과의 변동은 크지 않다.

빨간 공이 1%라면 거의 안 나온다. 100번 꺼내도 1개 정도. 변동할 여지 자체가 작다.

여론조사도 똑같다. 50% 지지율은 반반 상태라 1,000명을 뽑을 때마다 480명이 될지 520명이 될지 상대적으로 많이 흔들린다. 반면 지지율 3%는 거의 정해진 상태라 30명 근처에서 크게 벗어나기 어렵다. 그래서 낮은 지지율일수록 오차범위가 좁아지는 것이다.

이게 왜 중요한가

예를 들어 보자.

C 후보 지지율이 지난주 6% → 이번주 8%로 나왔다고 하자. 기사에는 "오차범위 ±3.1%p 안에서 변동"이라고 적힐 것이다. 많은 독자가 "그래봤자 오차 범위 내니까 의미 없네" 하고 넘어간다.

그런데 실제로 지지율 6~8% 수준에서 오차범위는 ±1.5%p 정도밖에 안 된다. 2%p 상승은 의미 있는 신호일 가능성이 높다는 뜻이다.

정의당이나 조국혁신당 같은 소수 정당도 마찬가지다. 지지율 3%인 정당이 4%가 됐다고 하자. ±3.1%p 기준으로 보면 "노이즈"다. 하지만 3% 수준의 진짜 오차범위는 약 ±1.06%p다. 1%p 변화도 의미 있게 볼 수 있는 상태라는 뜻이다.

그런데 관행적으로 모든 숫자에 ±3.1%p가 일괄 적용되다 보니, 군소 후보나 소수 정당의 유의미한 변동이 늘 "오차범위 내 변동"으로 묻혀 버린다. 이 때문에 일부 군소 후보 캠프에서는 "우리 지지율 올랐는데 기사에서 무시당한다"는 불만이 종종 나오기도 한다. 숫자로 보면 그 불만이 근거가 아예 없는 건 아니다.

그럼 왜 기사에는 ±3.1%p 하나만 적을까

가장 큰 이유는 관행과 편의성이다.

모든 문항에 대해 실제 오차범위를 하나하나 계산해서 적는 건 번거롭다. 게다가 하나의 조사에서도 문항이 수십 개면, 각 문항의 각 선택지마다 오차범위가 다 달라진다. 이걸 전부 표기하면 기사가 읽히지 않는다.

그래서 "최악의 경우를 가정한 상한선"을 쓰는 것이다. 실제 오차범위가 아무리 커도 이 값은 넘지 않으니, 안전한 기준이 된다. 여심위 공표 기준도 이 값으로 통일되어 있다.

문제는 이 관행이 모든 숫자에 대해 실제보다 과도하게 큰 오차범위를 부여한다는 점이다. 결과적으로 작은 숫자의 유의미한 변동이 묻히고, 독자에게는 "대부분 오차범위 안이라 아무 의미 없다"는 인상이 강화된다. 정보 손실이 의외로 크다.

그럼 어떻게 읽어야 할까

일반 독자가 매번 공식을 계산하며 기사를 읽을 수는 없다. 대신 대략의 감만 잡고 있어도 충분하다.

지지율이 50% 근처일수록 — 기사의 ±3.1%p를 그대로 적용.

지지율이 20~30% 수준 — 실제로는 ±2.5~2.9%p 정도. 기사 오차범위보다 약간 좁다.

지지율이 10% 이하 — 실제 오차범위는 ±1~2%p 수준. 기사에 적힌 값의 절반 이하다. 작은 변동도 그냥 무시하지 말 것.

지지율이 3% 이하 — 실제 오차범위 ±1%p 이하. 1%p 수준의 변화도 유의미한 신호일 수 있음.

특히 군소 후보나 소수 정당의 지지율을 볼 때는, 기사 하단의 ±3.1%p를 그대로 적용하지 말고 실제 오차범위는 그보다 훨씬 좁다는 걸 기억해야 한다. 숫자가 작을수록 작은 변화도 중요해진다는 말이다.

정리

구분	기사에 적힌 오차범위	실제 오차범위
양대 정당 지지율 (40~50%)	±3.1%p	거의 동일
중소 정당 지지율 (10~20%)	±3.1%p	약 ±1.9~2.5%p
군소 후보 지지율 (3~5%)	±3.1%p	약 ±1.0~1.4%p

같은 조사, 같은 표본, 같은 1,000명인데도 어느 숫자를 보느냐에 따라 오차범위는 달라진다. 이것이 ±3.1%p라는 숫자 뒤에 숨어 있는, 좀처럼 드러나지 않는 얼굴이다.

오차범위는 하나의 숫자가 아니다. 장면에 따라(앞선 글의 세 가지 얼굴), 그리고 보고 있는 지지율의 크기에 따라 모습을 바꾼다.

이걸 알고 있으면, 같은 여론조사 기사를 읽어도 훨씬 많은 것을 볼 수 있다. 특히 군소 후보·소수 정당·소수 응답의 변화를 읽을 때 그렇다. 거대 양당 지지율만 보면 ±3.1%p가 맞지만, 시선을 가장자리로 옮기면 그 숫자는 과도하게 크다.

여론조사에서 "작은 숫자"는 실제로는 더 단단한 숫자일 수 있다. 이 점만 기억해 둬도, 기사에 담긴 숫자 중 적지 않은 정보를 구해낼 수 있다.

오차범위 ±3.1%p의 세 가지 얼굴

여론조사 기사를 읽다 보면 "A 후보, 오차범위 내에서 B 후보에 앞서" 같은 표현을 자주 본다. 기사 하단에는 어김없이 "표본오차는 95% 신뢰수준에서 ±3.1%p"라는 문구가 붙는다.

그런데 이 ±3.1%p라는 숫자는, 사실 상황에 따라 전혀 다른 의미로 쓰인다. 어떤 때는 그대로 써도 되고, 어떤 때는 두 배로 늘려 봐야 하며, 어떤 때는 아예 다시 계산해야 한다. 같은 숫자인데도 읽는 장면에 따라 얼굴이 바뀌는 셈이다.

이 차이를 알면 여론조사 기사를 훨씬 정확하게 읽을 수 있다. 오차범위가 등장하는 세 가지 서로 다른 장면을 하나씩 살펴보자.

첫 번째 얼굴 — 한 후보의 지지율을 볼 때

"A 후보 지지율 42%, 오차범위 ±3.1%p."

이 문장은 이렇게 읽으면 된다. "A 후보의 실제 지지율은 대략 38.9%에서 45.1% 사이 어딘가에 있다."

왜 구간으로 말할까. 전체 유권자가 아니라 1,000명만 조사했기 때문이다. 1,000명에서 뽑힌 숫자는 누구를 만나느냐에 따라 조금 높게, 조금 낮게 나올 수 있다. 그래서 "대략 이 정도 범위 안에 진짜 값이 있다"고 구간으로 말하는 것이다.

여기까지는 기사에 적힌 ±3.1%p를 그대로 써도 된다. 가장 단순한 얼굴이다.

두 번째 얼굴 — 두 후보의 격차를 볼 때

문제는 여기서부터다.

"A 42%, B 39%, 격차 3%p, 오차범위 ±3.1%p."

이 기사를 많은 사람들이 이렇게 읽는다. "격차 3%p가 오차범위 3.1%p보다 작으니까, 결국 차이 없는 거네."

반만 맞다.

두 후보의 격차를 볼 때는 오차범위가 거의 두 배로 늘어난다. 왜 그럴까.

A의 지지율에도 불확실성이 있고, B의 지지율에도 불확실성이 있다. 각각 위아래로 흔들릴 수 있는 숫자인데, 그 둘의 차이를 말하려면 양쪽의 흔들림이 합쳐져서 더 커진다. 마치 저울 두 개로 무게를 재는데, 저울 A도 ±3g 오차, 저울 B도 ±3g 오차라면, "두 물건의 무게 차이"는 ±3g이 아니라 훨씬 더 큰 오차를 갖게 되는 것과 같다.

계산해 보면, 1,000명 조사에서 두 후보 격차의 오차범위는 약 ±6%p 정도가 된다. 즉 격차가 6%p를 넘어야 "통계적으로 A가 앞선다"고 말할 수 있고, 그보다 작으면 "누가 앞서는지 확신할 수 없다"가 정답이다.

사실 한국 언론에서 자주 쓰는 "오차범위 내 우세"라는 표현은 논리적으로 이상한 말이다. 오차범위 안쪽이라는 건 우세를 단정할 수 없다는 뜻인데, 거기에 "우세"를 갖다 붙이니까 말이 안 된다.

세 번째 얼굴 — 지난주와 이번주를 비교할 때

세 번째 장면은 추이 보도다.

"대통령 국정지지율, 지난주 45% → 이번주 48%, 3%p 상승."

이 헤드라인도 많은 독자가 "3%p 올랐다"를 그대로 받아들인다. 하지만 여기서도 오차범위를 다시 계산해야 한다.

지난주 조사와 이번주 조사는 완전히 다른 사람들에게 물어본 결과다. 지난주 1,000명, 이번주 또 다른 1,000명. 각각의 조사에 모두 불확실성이 있고, 그 두 불확실성이 합쳐진다. 두 번째 얼굴과 원리는 비슷하다.

계산해 보면 두 조사 사이 변화의 오차범위는 약 ±4.4%p. 즉 최소 4.4%p 이상 움직여야 "통계적으로 의미 있는 변화"라고 말할 수 있다. 3%p 정도의 상승은 대부분 조사할 때마다 나타나는 자연스러운 흔들림에 가깝다.

게다가 현실에서는 이보다 더 보수적으로 봐야 한다. 같은 조사 기관이라도 주마다 응답자 구성이 조금씩 달라지고, 그 주의 뉴스나 사회 분위기도 다르다. 전화 받은 시간대, 요일, 거절한 사람들의 특성까지 매번 다르다. 이런 요인들까지 고려하면 사실상 5~6%p 이상은 움직여야 "진짜 변화"라고 부를 수 있다.

그래서 여론조사 실무자들이 자주 쓰는 격언이 있다.

"한 번 변한 건 우연, 두 번이면 관심, 세 번 같은 방향이면 신호."

전주 대비 1~2%p 변동을 "지지율 회복세" "하락 전환" 같은 말로 보도하는 건, 대부분의 경우 노이즈를 시그널로 읽는 것이다.

"차이 없음"과 "우열 단정 불가"는 다르다

여기까지 세 가지 얼굴을 알았다면, 마지막으로 가장 중요한 구분을 하나 짚고 싶다.

격차 3%p가 오차범위 안쪽이면 많은 기사가 이렇게 쓴다. "A와 B, 사실상 동률" 또는 "차이 없음."

이건 틀린 표현이다.

정확한 표현은 "A와 B 중 누가 앞서는지 단정할 수 없다"이다. "차이 없다"와는 완전히 다른 말이다.

법정에서 무죄 판결을 떠올려 보자. 무죄 판결은 "이 사람이 결백하다"는 뜻이 아니다. "유죄라는 증거가 부족하다"는 뜻이다. 실제로 저질렀을 수도 있지만, 증거가 모자라 유죄라고 선언할 수 없을 뿐이다.

여론조사도 똑같다. 격차 3%p가 오차범위 안이라는 건 "A와 B가 똑같다"는 뜻이 아니라 "지금 우리가 가진 데이터로는 누가 앞서는지 확실히 말할 수 없다"는 뜻이다. 실제로는 누군가 조금이라도 앞서고 있다. 다만 우리가 확신할 수 없을 뿐.

더 구체적으로 말하면, A 42% vs B 39%일 때 A가 실제로 앞서고 있을 확률은 약 70% 정도 된다. 동전 던지기(50%)보다 훨씬 높은 숫자다. 완전히 동률이라고 보기 어려운 상태다.

그런데 현실에서는 이 정보가 이렇게 소실된다.

조사자 → "격차 3%p, 오차범위 내" 의뢰자 → "오차범위 내 접전" 기자 → "사실상 동률" 독자 → "차이 없대" 일상 대화 → "A랑 B랑 똑같더라"

원래 숫자에는 "A가 앞설 가능성이 70% 정도"라는 쓸모 있는 정보가 담겨 있었는데, 전달 과정에서 몽땅 사라져 버리는 것이다.

정리

장면	오차범위	주의할 점
한 후보 지지율	±3.1%p	기사에 적힌 그대로 쓰면 됨
두 후보 격차	약 ±6%p	거의 두 배로 커짐
주간 추이 비교	약 ±5~6%p	사건 없이 생긴 작은 변동은 대부분 우연

그리고 오차범위 안의 격차는 "차이 없음"이 아니라 "우열 단정 불가"다.

여론조사의 숫자는 점(point)이 아니라 구간이다. 그리고 그 구간의 넓이는 무엇을 보느냐에 따라 달라진다. 한 후보를 볼 때와, 두 후보를 비교할 때와, 지난주와 이번주를 비교할 때가 모두 다르다.

이 구분만 머릿속에 두고 기사를 읽어도, 평균적인 여론조사 보도보다 훨씬 정확하게 숫자를 이해할 수 있다. 역으로 말하면, 많은 기자와 독자가 이 세 가지 얼굴을 하나로 뭉뚱그려 소비하기 때문에 선거 때마다 과장되거나 반대로 과소평가된 해석이 쏟아지는 것이기도 하다.

오차범위는 하나의 숫자지만, 얼굴은 셋이다. 어떤 얼굴을 마주하고 있는지 먼저 가늠해 보는 것, 그것이 여론조사를 읽는 가장 기본적인 리터러시다.

2026년 4월 22일 수요일

단기 종단 웹조사의 방법론: 왜 옵트인 패널이 최선인가

들어가며

최근 학술 연구에서 2주, 1개월, 3개월 간격의 단기 종단(short-term longitudinal) 웹조사 요청이 늘고 있다. 태도 변화의 측정, 정책 개입의 효과 평가, 특정 사건 전후의 인식 비교, 실험적 처치의 지속성 검증 등이 대표적 연구 질문이다. 이런 연구를 기획하는 연구자가 가장 먼저 부딪히는 문제는 **"어떤 패널, 어떤 프레임으로 종단 표본을 구성할 것인가"**이다.

이 질문에 대한 한국 조사 방법론 담론의 관행적 답은 "가능하면 확률표집, 어쩔 수 없으면 옵트인 패널"이다. 대표성의 위계가 자명한 전제로 깔려 있고, 옵트인 패널은 차선으로 위치한다. 이 글은 이 위계가 단기 종단 설계에서는 성립하지 않는다는 점을 논증한다.

결론부터 말하면 이렇다. 단기 종단 웹조사에서 옵트인 패널은 차선이 아니라 설계 목적에 가장 부합하는 최선의 프레임이다. 이 주장은 단순히 "한국에는 확률표집 기반 종단 인프라가 없으니 어쩔 수 없다"는 체념적 논거가 아니다. 종단 분석의 통계적 성격, 패널 mortality의 구조, 한국 조사 인프라의 특수성이 맞물려 만들어지는 적극적 근거가 있다.

1. 한국에서 단기 종단 웹조사의 선택지

한국에서 단기 종단 웹조사를 기획하는 연구자에게 실제로 열려 있는 선택지를 정직하게 나열하면 다음과 같다.

확률표집 기반 전화조사의 종단 적용 (CATI·ARS): 원리상 가능하지만, 실무적으로 단기 종단 설계에 적합하지 않다. 전화조사는 설문 길이가 10분 내외로 제약되어 연구자가 원하는 구성개념 배터리를 담기 어렵고, 2주 뒤 동일 응답자 재접촉의 성공률은 재접촉 동의를 T1에서 따로 받은 경우에도 50%를 넘기기 어렵다. 학술 연구에서 이 방식을 쓰는 사례가 거의 없는 이유다.

통신사 번호 기반 SMS 웹조사: 한국 확률표집 웹조사 프레임에 가장 가까운 방식이다. 그러나 구조적으로 종단 설계에 부적합하다. 통신사 번호는 조사 회차 단위로 발급되며, 회차 간 동일 응답자 식별이 보장되지 않는다. 개인정보 보호 정책상 실번호 역추적도 불가능하다. 즉 T1에서 응답한 사람이 누구인지를 T2 시점에 특정할 수 없고, 2주 뒤 동일한 응답자에게 재접촉을 시도하는 것 자체가 기술적으로 막혀 있다. 이 프레임은 애초에 단면 조사용 인프라로 설계되었다.

자체 모집(self-recruited) 온라인 샘플: 연구실 SNS, 커뮤니티 공지, 기관 이메일 등을 통해 모집하는 방식이다. T1-T2 매칭은 응답자 이메일이나 가입 ID로 가능하지만, 표본 규모가 100명을 넘기기 어렵고 이질성이 극도로 제한된다. 특정 커뮤니티 하위집단으로 쏠리는 경향이 강해 within-person 분석에서도 외적 타당도가 심각하게 훼손된다.

조사회사 옵트인 패널 (액세스 패널): 조사회사가 운영하는 사전 등록 응답자 풀에서 T1 응답자를 추출하고, 2주 뒤 동일 응답자에게 T2를 송출하는 방식이다. 응답자 ID 기반 매칭이 기본값으로 작동하며, 재접촉 동의가 패널 가입 시점에 이미 확보되어 있다.

네 선택지를 나란히 놓으면 결론은 분명하다. 옵트인 패널이 단기 종단 웹조사의 현실적 선택지로서 사실상 유일하다. 그런데 이 판단은 흔히 "다른 방법이 안 되니까"라는 소극적 논거로 제시된다. 이 소극적 틀이 문제다. 이 틀에서는 옵트인 패널의 한계(대표성 약점)만 부각되고, 강점(종단 인프라)은 체계적으로 과소평가된다. 아래에서 이 비대칭을 바로잡는다.

2. Re-contact infrastructure: 종단 연구의 숨은 전제

종단 연구의 성립 조건 중 가장 기본적이면서도 가장 자주 간과되는 것이 "T1 응답자를 T2 시점에 다시 찾아갈 수 있는가"라는 질문이다. 단면조사에서는 이 질문이 존재하지 않는다. T1에서 조사가 끝나기 때문이다. 그러나 종단에서는 이 재접촉 가능성 자체가 방법론적 성립 조건이다.

확률표집을 고수하려는 연구자는 보통 이렇게 생각한다. "T1 시점에 재접촉 동의를 받고, 연락처를 저장해두고, T2 시점에 다시 접촉하면 된다." 원리상 맞지만 실무적으로는 장벽이 크다.

첫째, T1 시점의 재접촉 동의율이 완주율을 추가로 깎는다. 응답자 입장에서 2주 뒤 다시 참여해야 한다는 조건은 T1 참여 자체에 대한 진입 장벽으로 작동한다. 이 조건을 사전에 고지하면 T1 모집률이 떨어지고, 사후에 고지하면 T2 동의율이 떨어진다. 어느 쪽이든 표본이 줄어든다.

둘째, T2 시점의 재접촉 성공률이 낮다. 개별 연락처 기반 재접촉은 전화 번호 변경, 이메일 미확인, 관심 상실 등 다양한 이유로 실패한다. 2주 간격이어도 학술 연구에서 50~65% 성공률이 현실적 기대치이고, 이 attrition은 비무작위적이다. 관심 있는 응답자만 남고 나머지는 체계적으로 빠진다.

셋째, 한국 특유의 개인정보 보호 환경이 재접촉을 더 어렵게 만든다. T1에서 수집한 연락처를 T2에서 활용하려면 개인정보 보호법상 수집·이용 목적에 종단 재접촉이 명시되어야 하고, 이 동의 처리와 보관 관리가 연구자 개인의 역량으로는 감당하기 어려운 수준이다. 확률표집 기반 자체 종단 패널을 운영하는 국내 학술 기관이 손에 꼽힐 정도로 적은 이유이기도 하다.

옵트인 패널은 이 모든 장벽이 이미 해소된 상태로 시작한다. 패널 가입 시점에 반복 조사 참여에 대한 포괄적 동의가 확보되어 있고, 응답자 ID가 재접촉의 기술적 기반으로 기능한다. 패널사는 연간 수십~수백 회의 재접촉을 운영하는 전문 조직이라 retention 관리 노하우가 축적되어 있다.

이 재접촉 인프라는 단순한 실무적 편의가 아니다. 종단 분석의 내적 타당도를 떠받치는 전제다. 재접촉 성공률이 높을수록 T1-T2 매칭 샘플의 대표성(T1 표본 대비)이 유지되고, attrition bias가 제한된다. 옵트인 패널의 75~80% retention은 확률표집 기반 자체 모집의 50~65% 재접촉률보다 내적 타당도 면에서 명백히 우월하다.

3. Panel mortality 구조: "대표성 약점"이 "retention 강점"으로 뒤집히는 지점

이 섹션이 이 글의 핵심 논점이다. 옵트인 패널의 구조적 특성이 단면 분석에서는 편향이고 종단 분석에서는 자산인 이유를 설명한다.

옵트인 패널의 응답자 풀은 self-selection 과정을 거쳐 구성된다. "설문 참여에 관심이 있고, 반복 조사에 동의하며, 인센티브에 반응하는" 사람들이 자발적으로 가입한다. 이 self-selection이 단면 분석에서 편향의 원천이 되는 이유는 명확하다. 이들은 일반 모집단과 체계적으로 다른 특성을 가진다. 관여도, 인터넷 사용 빈도, 여가 시간, 사회경제적 배경 등에서 일반 인구와 차이가 있다.

그런데 단기 종단 분석에서는 이 self-selection이 다른 방식으로 작동한다. "설문 참여에 동의한 집단"으로 이미 정제되어 있기 때문에, wave 간 탈락(attrition)이 관리 가능한 수준으로 유지된다. 이 구조를 풀어 설명하면 이렇다.

확률표집 기반 종단 코호트는 T1 시점에 무작위로 뽑힌 사람들이고, 이 중 상당수는 애초에 조사 자체에 관심이 없는 사람들이다. 이들은 T1에 우연히 응했더라도 T2에서 빠질 가능성이 크다. 그래서 확률표집 종단 연구의 wave-to-wave attrition이 15~25%에 이르고, 3~4 wave를 지나면 원래 표본의 절반 이하만 남는다.

옵트인 패널 종단은 다르다. T1 응답자는 이미 "설문 참여 의지"라는 필터를 통과한 집단이다. 이들은 T2에서도 참여할 가능성이 구조적으로 높다. 한국리서치 마스터샘플급 Tier 1 패널에서 2주 간격 retention이 75~80%에 이르는 것은 이 구조의 결과다.

여기서 결정적 관찰은 이것이다. self-selection이 T1 시점의 대표성을 손상시키는 바로 그 메커니즘이, T2 시점의 retention을 보장하는 메커니즘이다. 단면 분석에서는 이것이 손실이지만, 종단 분석에서는 이익이다. 같은 구조적 특성이 분석 목적에 따라 부호가 뒤집힌다.

이 관찰의 실무적 함의는 중요하다. 단기 종단 연구를 기획할 때 "옵트인 패널은 대표성이 낮지만 어쩔 수 없다"고 생각하면, 연구자는 스스로 설계를 방어적으로 포지셔닝하게 된다. 반대로 "옵트인 패널의 self-selection 구조가 종단 retention을 가능하게 만든다"는 관점으로 전환하면, 같은 설계를 적극적으로 정당화할 수 있게 된다. 이 인식의 전환은 방법론 섹션 작성과 리뷰어 대응에서 실제로 차이를 만든다.

4. Within-person 분석의 통계적 성격: 대표성 요구의 완화

단기 종단 설계의 핵심 분석 단위가 within-person change라는 점을 받아들이면, 대표성에 대한 요구 자체가 완화된다. 이 논점은 방법론적으로 덜 논의되지만 가장 강력한 정당화 근거다.

Difference score의 통계적 구조. 단기 종단 설계에서 전형적인 분석은 응답자 i의 T1 태도 Y_i1과 T2 태도 Y_i2의 차이, 즉 ΔY_i = Y_i2 - Y_i1를 분석하는 것이다. 이 difference score는 응답자 i의 시간 불변 특성(성격, 응답 스타일, 사회경제적 배경, 정치 성향 기반선 등)을 자동으로 상쇄한다. 계량경제학적으로는 fixed effects 추정의 가장 단순한 형태이고, 통계적으로는 응답자 고유 오차항이 T1-T2 두 시점에서 동일하다는 가정 하에 그 항이 소거된다.

바로 이 소거 구조 때문에 표본 대표성의 역할이 달라진다. 단면 분석에서 대표성이 중요한 이유는 population parameter를 추정하기 때문이다. "서울시 통근자의 대중교통 만족도 평균"을 추정하려면 표본이 서울시 통근자 모집단의 축소판이어야 한다. 그러나 within-person 분석에서는 population mean을 추정하지 않는다. 대신 "응답자들 안에서 A 요인과 ΔY의 연관"을 본다.

이 연관 구조를 추정하는 데 필요한 조건은 대표성이 아니라 **이질성(heterogeneity)**이다. 표본이 충분히 다양한 사람들로 구성되어 있고, 그 다양성이 관심 있는 요인(A)의 분산을 확보해주면, within-person 연관은 식별 가능하다. 이 조건은 옵트인 패널에서 충분히 만족된다. 한국리서치 마스터샘플이나 엠브레인 패널은 연령·지역·직업·소득 등에서 상당한 이질성을 보유하고 있고, 이는 within-person 분석의 요구 조건에 부합한다.

Population-based survey experiment의 인식론. Diana Mutz(2011)가 『Population-Based Survey Experiments』에서 제시한 논의가 여기에 적용된다. 설문 실험의 외적 타당도는 표본의 대표성이 아니라 처치 효과의 이질성(heterogeneity of treatment effects)으로 결정된다. 표본이 다양한 하위집단을 포함하고, 처치 효과가 하위집단 간에 크게 달라지지 않는다면, 편의표본에서 추정한 처치 효과도 일반화 가능하다.

단기 종단 설계는 구조적으로 within-subject 실험과 유사하다. 응답자 i가 자기 자신의 control 역할을 한다(T1). 따라서 Mutz의 논의가 그대로 확장 적용된다. 표본이 "모집단의 축소판"이어야 한다는 요구보다, 표본이 "관심 있는 ΔY 분산과 요인 A 분산을 모두 포함하는 충분히 이질적인 집단"이어야 한다는 요구가 본질적이다.

방법론 섹션 작성의 함의. 이 논리는 단순한 이론적 주장이 아니라 실제 논문 방법론 섹션 작성에 직접 적용된다. "본 연구는 Y_i1과 Y_i2의 within-person 변화를 분석하며, 이에 따라 표본 프레임의 대표성보다 이질성 확보를 우선했다. 옵트인 패널은 이 조건에 부합하는 적절한 프레임이다." 이 한 문장이 설계를 방어적으로 정당화하는 것과 적극적으로 정당화하는 것의 차이를 만든다. 리뷰어들도 이 논리 구조를 이해하는 사람이 이해하지 못하는 사람보다 많다.

5. AAPOR 논의와 Tier 분화: 옵트인 패널이라고 다 같지 않다

옵트인 패널을 옹호하는 논리를 전개했다고 해서, 옵트인 패널이라면 어떤 패널이든 무차별적으로 괜찮다는 뜻은 아니다. 패널 간 Tier 차이는 실제로 크고, 이 차이는 retention과 데이터 품질에서 결정적으로 나타난다.

AAPOR Task Force on Online Panels(Baker et al., 2010)와 후속 보고서(Baker et al., 2013)는 옵트인 패널을 비판적으로 검토하면서도, 패널 운영 방식의 다양성을 명시적으로 구분했다. 주요 구분 축은 다음과 같다.

모집 방식의 차이. 광고·배너·SNS 기반 순수 opt-in 모집 패널과, 확률표집 기반(RDD, 주소지 무작위 표집 등) 리크루팅이 병행되는 하이브리드 패널은 구성원의 성격이 질적으로 다르다. 한국리서치 마스터샘플은 후자에 가깝고, 이 차이가 Tier 1과 그 이하의 구분선을 만든다.

패널 관리의 집중도. 패널사의 비용 구조에서 패널 관리에 얼마를 투입하는가가 retention을 결정한다. Tier 1 패널은 패널 회원에게 개별 접점 관리(리마인더, 생일 메시지, 연간 활동 리포트 등)를 운영하며, 회원 이탈을 관리하는 CRM 수준의 인프라를 갖춘다. Tier 2 이하 패널은 이 관리를 최소화하고 대신 단가를 낮춘다.

전문 응답자(professional respondent) 비중. 중복 가입, 고빈도 참여, 인센티브 극대화 행동 패턴을 보이는 응답자의 비중이 패널마다 크게 다르다. Tier 1 패널은 이 비중을 낮게 유지하기 위해 활동 빈도 제한, 중복 탐지 시스템, 응답 품질 모니터링을 운영한다.

단기 종단 연구에서 이 Tier 차이가 중요한 이유는 세 가지다. 첫째, retention 자체가 다르다. 2주 간격 retention이 Tier 1에서 75~80%라면 Tier 2에서는 60~70% 수준이다. 둘째, 전문 응답자는 종단 연구에서 특히 문제가 된다. 이들은 T1-T2 모두 성실히 참여하지만 응답 패턴이 과도하게 일관되어 within-person 변화 탐지를 방해한다. 셋째, Tier 1 패널은 응답자 측 요청에 따른 재접촉 관리(이사, 직장 변동 등 프로파일 업데이트)가 실시간으로 이뤄져 T2 매칭 실패율이 낮다.

이 차이는 가격에도 반영된다. Tier 1 패널은 일반 옵트인 패널 대비 건당 30~50% 프리미엄을 받는다. 단기 종단 연구의 맥락에서 이 프리미엄은 "품질을 위한 사치"가 아니라 "retention과 within-person 분석의 타당성을 위한 필수 투자"로 이해되어야 한다.

6. TSE 확장의 관점: 분석 목적별 대표성 요구

여기까지의 논의를 일반화하면, Total Survey Error 프레임의 확장이 필요하다는 점에 이른다.

전통적 TSE는 representation error와 measurement error를 구분하고, 전자를 coverage error, sampling error, nonresponse error, adjustment error로 세분한다. 이 구조는 단면 분석에서 population parameter를 추정하는 상황을 기본 설정으로 가정한다. 즉 "대표성"이 단일 차원으로 다뤄지고, 모든 연구에서 동일한 우선순위로 적용된다.

그러나 실제 조사 연구는 다양한 분석 목적을 가진다. Population parameter 추정, 하위집단 간 차이 검정, 변수 간 관계 구조 식별, within-person 변화 분석, 실험적 처치 효과 추정 등이 대표적이다. 각각의 분석 목적은 대표성에 대한 서로 다른 요구를 가진다.

Population parameter 추정은 표본이 모집단의 축소판이어야 한다. 확률표집과 가중치 조정이 핵심이다.

하위집단 간 차이 검정은 하위집단별 충분한 표본 수와 하위집단 내 이질성이 핵심이다. 전체 대표성보다 층화표집 설계가 중요해진다.

관계 구조 식별은 관심 변수들의 분산을 확보할 수 있는 표본이면 충분하다. 대표성보다 이질성이 우선이다.

Within-person 변화 분석은 응답자 고유 특성이 상쇄되므로 대표성 요구가 더 완화된다. 대신 재접촉 가능성과 retention이 결정적이다.

실험적 처치 효과 추정은 처치 집단 간 무작위 배분이 핵심이고, 표본 대표성은 처치 효과 이질성의 탐지에만 기여한다.

이 다섯 가지 분석 목적을 단일한 "대표성" 프레임으로 평가하면, 일부 설계는 부당하게 평가절하되고 일부는 과도하게 정당화된다. "분석 목적별 대표성 요구(analysis-specific representativeness)"라는 개념을 명시적으로 도입할 때, 단기 종단 웹조사에서 옵트인 패널의 선택이 방법론적으로 왜 합리적인지가 일관되게 설명된다.

이것은 단순히 옵트인 패널을 옹호하기 위한 임시방편적 논리가 아니다. TSE 프레임이 1960년대 단면조사 중심 패러다임에서 출발했다는 역사적 맥락을 인식하고, 현대 조사 연구의 다양한 분석 목적에 맞게 프레임을 업데이트하는 작업이다. 이 업데이트는 아직 한국 조사 방법론 담론에서 충분히 전개되지 않은 논점이고, 본격적인 이론 작업이 필요한 영역이다.

마치며

한국에서 단기 종단 웹조사를 기획하는 연구자가 옵트인 패널을 선택하는 것은 "확률표집을 할 수 없어서 차선으로 고른" 결정이 아니다. 재접촉 인프라의 존재, self-selection이 retention으로 뒤집히는 구조, within-person 분석의 통계적 성격, 이 세 가지가 맞물려 옵트인 패널을 설계 목적에 가장 부합하는 최선으로 만든다. 여기에 Tier 1 패널의 품질 관리가 결합되면 학술 연구 수준의 데이터 품질이 확보된다.

이 글의 핵심 주장을 한 문장으로 압축하면 이렇다. 단면 분석과 종단 분석은 방법론적으로 다른 종류의 연구이며, 동일한 프레임 선택이 분석 목적에 따라 최선이 되기도 하고 차선이 되기도 한다. 옵트인 패널은 단면 분석에서는 확률표집 대비 열위지만, 단기 종단 분석에서는 확률표집 기반 자체 모집 대비 우위다. 프레임 선택의 평가는 분석 목적과의 정합성 위에서 이뤄져야 한다.

단기 종단 웹조사를 기획하는 연구자에게 구체적 권고로 이 글을 닫고 싶다.

첫째, 프레임 선택을 방어적으로 포지셔닝하지 말 것. "옵트인 패널은 대표성이 낮지만 어쩔 수 없이 사용했다"가 아니라 "본 연구의 within-person 분석 목적에 옵트인 패널이 가장 적합한 프레임이다"라고 적극적으로 정당화할 것.

둘째, Tier 1 패널을 선택할 것. 단기 종단에서 패널 품질의 차이는 retention과 within-person 분석 타당성에서 직접 나타난다. 이 영역에서 절약은 연구 전체의 타당성을 훼손한다.

셋째, 방법론 섹션에 within-person 분석의 통계적 성격을 명시할 것. 이 한 문장이 리뷰어의 대표성 문제 제기에 선제적으로 답하는 역할을 한다.

넷째, 재접촉 관리를 패널사에 위임할 것. 조사회사가 중간에서 관리하기보다 패널사가 자체 CRM으로 관리하는 구조가 retention에 훨씬 유리하다.

이 네 가지는 단기 종단 웹조사를 의뢰받은 조사회사와 연구자가 협업을 시작할 때 첫 미팅에서 합의해두어야 할 원칙이다. 프레임 선택의 논리가 명확하면, 이후의 설계·실사·분석·보고 단계가 모두 일관된 논리 위에 놓인다. 그리고 바로 이 일관성이, 방법론적으로 건강한 종단 연구의 출발점이다.