한국 공표 선거여론조사는 후보지지율을 거의 원자료 그대로 발표한다. 모름·없다 응답자도 분모에 그대로 두고 백분율을 산출. 미국이나 유럽 조사에서 흔한 "지지후보 응답자 기준" 재백분율조차 한국 공표 본표에는 잘 등장하지 않는다. 여심위 규정이 무응답 사후처리에 대해 명확한 허용 기준을 제시하지 않는 점, 임의 배분이나 모델 추정으로 수치를 조정하면 조작 시비가 붙을 위험이 있어 안전하게 원자료를 내보내는 쪽으로 굳어진 점, 그리고 단순 백분율 공표가 갤럽·한국리서치·리얼미터 시기부터 업계 관행으로 자리잡은 점이 함께 작용한 결과다.
이 관행에는 방법론적 정당성도 있다. 한국 조사업계가 오랫동안 견지해온 입장은 여론조사가 투표 행동을 예측하는 도구가 아니라 특정 시점의 여론 분포를 측정하는 도구라는 것이다. 모름·없다 응답자도 그 시점의 여론을 구성하는 일부이니 분모에 두는 것이 측정 대상에 충실한 처리. 재계산은 측정값에 분석가의 가정을 얹는 작업이고, 여론을 있는 그대로 보여주는 본래 목적에서 한 발 멀어지는 일이다. 적중도 시비에 대해 조사회사들이 "여론과 투표는 다르다"고 항변해온 것도 이 입장의 연장선이고, AAPOR이나 WAPOR 차원에서도 public opinion과 vote intention, voting behavior는 별개 개념으로 다뤄진다.
다만 이 입장이 선거여론조사 영역에서 그대로 통용되기는 어렵다. 선거여론조사라는 명칭 자체가 선거, 그러니까 투표를 대상으로 한다는 뜻이고, "다음 대선에서 누구를 지지하시겠습니까"라는 질문은 응답자에게 시점 여론을 묻는 게 아니라 표심을 묻는 것으로 읽힌다. 응답자도 자기 표심을 답하고 있다고 인식하지 시점 여론의 한 점을 답하고 있다고 생각하지 않는다. 그렇게 모인 응답의 합은 사실상 표심 분포 추정치로 작동한다.
조사회사들이 평소 적중도를 마케팅 자산으로 활용해온 점도 같이 봐야 한다. 특정 선거를 정확히 맞췄다는 사실을 회사 신뢰도의 근거로 내세우면서, 결과가 빗나갔을 때만 "여론과 투표는 다르다"고 항변하는 것은 비대칭이다. 미국이나 유럽 주요 조사기관(Gallup, NYT/Siena, Pew, AAPOR election polling task force)이 적중도 평가를 정면으로 받고 자체 검증 보고서를 발간하는 흐름과도 거리가 있다. 시점 효과나 캠페인 충격으로 설명되는 영역이 분명 있지만, 그것을 적중도 시비 전반에 대한 방패로 일반화하면 정확성 책임에서 빠져나가려는 회피 논리로 기능하기 쉽다.
그래서 비공표 영역(캠프 분석, 학술 검증, 적중도 사후 평가, 컨설팅 보고서)뿐 아니라 공표 영역에서도 표심 추정 책임을 어느 정도 받아들이는 처리가 검토되어야 한다. 실무에서 쓰이거나 거론되는 재계산 방식은 다섯 갈래로 정리된다.
1. 단순 제외 후 재백분율
가장 기본적인 분석 처리. 모름·없다·무응답을 분모에서 빼고 후보 응답자만으로 100%를 다시 산출한다. 보고서에서 "유효응답 기준" 또는 "지지후보 응답자 기준"으로 각주 처리.
장점은 단순함과 투명함이다. 응답값만 가지고 처리하니 추가 가정이 들어가지 않고, 표기와 검증이 쉽다. 단점은 부동층의 정치성향 정보를 통째로 버린다는 것. 모름·없다 응답자가 한쪽 진영에 쏠려 있을 경우 재백분율 결과가 실제 표심과 어긋날 수 있다.
2. 적극투표층 한정 후 재백분율
"반드시 투표하겠다"고 답한 적극투표 의향층만 베이스로 잡고, 그 안에서 모름·없다를 다시 빼고 백분율을 계산한다. 미국식 likely voter 모델의 단순화 버전이고, 한국에서는 보통 투표의향 1단계(반드시) 또는 1·2단계(반드시+가능하면)를 떼어 쓰는 형태로 운용된다.
투표 가능성이 낮은 응답자를 미리 제외하니 실제 투표 결과와의 정합성이 1번보다 올라간다. 다만 적극투표층 자체가 정파성에 따라 편향될 수 있어, 적극·소극 구분 기준이 적절한지는 따로 검증해야 한다.
3. 정당지지도 또는 과거 투표 기반 비례배분
모름·없다 응답자를 지지정당, 이전 선거 투표 후보, 이념성향 같은 사전 정보에 따라 비율로 배분하는 방식이다. 모름 응답자 중 민주당 지지자는 민주당 후보 지지층 분포에, 국민의힘 지지자는 국민의힘 후보 지지층 분포에 비례해 분배.
미국 NYT/Siena, AP-NORC가 부분적으로 쓰고, 한국에서도 캠프 내부 추정에서는 종종 활용된다. 추가 문항 부담이 거의 없다는 게 강점이다. 정당지지도는 정치조사에서 거의 항상 같이 묻기 때문에 사후처리만으로 적용 가능하다.
운용 방식은 두 단계로 잡는 게 무난하다. 지지정당이 있는 응답자에 한해 배분하고, 정당 응답도 모름인 사람은 분모에서 그대로 제외. 셀이 너무 잘게 쪼개지면 셀당 N이 작아져 추정이 불안정해지니 정당지지 단변량으로 충분하다.
4. 강제선택 후속질문(leaners) 합산
설문 단계에서 한 번 더 묻는 방식이다. 1차에서 모름·없다를 고른 사람에게 "굳이 한 명 고른다면 누구를 지지하시겠습니까" 식의 후속 질문을 던지고, leaner 응답을 본 응답에 합산해 재백분율을 산출한다. AP-NORC, Pew 등이 표준으로 쓰는 형태.
설계 단계에서 분기 문항 한 줄만 추가하면 되고, 모델 추정이 아니라 직접 응답이라 정당성 시비가 적다. 단점은 문항수가 한 줄 늘어난다는 점. 모바일 웹서베이처럼 응답 부담이 응답률에 직결되는 환경에서는 비용 부담이 따른다.
웹서베이 UI 차원에서 변형도 가능하다. 모름·없다 선택 시 부드러운 경고창(soft prompt)을 띄우고 "조금이라도 마음이 가는 후보가 있다면 선택해 주세요. 정말 없으시면 그대로 진행하셔도 됩니다" 정도의 문구로 한 번만 환기. 진행은 허용하되 응답을 바꾼 사람은 leaner 플래그로 따로 기록한다. 문항수를 늘리지 않고 후속질문 효과를 UI 단에서 흡수하는 방법이다.
이때 강한 경고창(forced response)으로 응답을 강제하는 방식은 권하지 않는다. 무응답률은 낮아지지만 짜증 응답이 늘고 중도이탈도 증가해 응답품질이 오히려 떨어진다는 게 웹서베이 실증연구의 일관된 결과다.
5. 모델 기반 추정(다중대체 등)
인구통계, 정당지지, 이념성향, 정권평가, 투표의향 같은 변수를 독립변수로 두고 모름·없다 응답자의 후보 선택을 회귀 또는 다중대체(multiple imputation)로 추정해 채워 넣은 뒤 재계산하는 방식이다. 학술 분석이나 정밀 시뮬레이션에서 주로 사용된다.
가장 정교하지만 추정 모형의 설계 선택에 따라 결과가 달라질 수 있고, 응답자가 직접 답한 값이 아니라는 점이 신뢰성 측면의 약점이다. 한국 공표 본표에 반영하기는 사실상 불가능에 가깝고, 보조 분석이나 사후 시뮬레이션 트랙으로 분리해 운용된다.
어느 방법을 선택할 것인가
한국 공표 선거여론조사의 표준은 모름·없다를 분모에 둔 채 그대로 공개하는 원자료 방식이다. 여심위 환경, 업계 관행, 여론과 투표를 구분하는 방법론적 입장이 함께 작용한 결과. 본표 자체를 갑자기 손대는 건 권하지 않지만, 적어도 부속 분석 트랙은 별도로 운용해 표심 추정에 가까운 처리도 같이 보여주는 것이 정확성 시비에 대한 정공법이다.
분석 트랙에서는 1번이 가장 무난하다. 캠프 보고나 내부 검토에서 부동층을 분리하고 후보 간 격차를 또렷이 보고 싶을 때 적합. 부동층 처리를 한 단계 더 손보고 싶다면 3번을 추가로 적용. 추가 문항 없이 가능하고, 정당지지 정보로 부동층의 일부를 살릴 수 있다.
설문 설계 단계에서 손쓸 수 있다면 4번의 변형, soft prompt 방식이 균형 있다. 문항수를 늘리지 않으면서 leaner 정보를 데이터에 남기고, 강제 응답이 아니라 응답품질 저하나 중도이탈 위험도 낮다.
5번은 별도 분석 트랙으로 분리해 부동층 시나리오 분석이나 적중도 사후 검증에 활용하는 정도가 적절하다.
방법론적으로 한 가지 덧붙이자면, 어떤 방식을 쓰든 보고서에는 처리 방식을 명확히 기재해야 한다. 공표 본표는 여론 측정의 원자료, 부속 분석은 표심 예측을 위한 재계산이라는 두 트랙을 명시적으로 분리해서 보여주는 것이 결과 해석의 혼선을 막는 방법이다. 그리고 이 분리가 표심 예측 책임을 회피하는 도구로 쓰이지 않으려면, 적중도 사후 평가는 어떤 식으로든 정면으로 받는 자세가 같이 가야 한다.
댓글 없음:
댓글 쓰기