한국에서 여론조사 등급제는 왜 어려운가?

 

한국에서 여론조사 등급제는 왜 어려운가



미국의 폴스터 등급제가 작동하는 이유

538(FiveThirtyEight)이나 AAPOR 같은 기관이 조사회사를 등급화할 수 있는 건, 단순히 의지와 기준이 있어서가 아니다. 구조적 조건이 뒷받침되기 때문이다.

미국 선거조사에는 세 가지 응답자 베이스가 통용된다. 성인 전체(All Adults), 등록 유권자(RV, Registered Voters), 그리고 실제 투표 가능성이 높은 유권자(LV, Likely Voters). 선거가 임박할수록 LV 베이스가 핵심 예측 지표로 부각된다.

LV를 어떻게 정의하느냐는 기관마다 다르다. Gallup은 과거 투표 참여, 관심도, 등록 여부 등 7~8개 문항으로 점수를 매겨 커트라인을 정하고, NYT/Siena는 등록 데이터와 과거 투표 이력을 결합해 가중치로 처리한다. 중요한 건, 이 LV 베이스가 "예측치 vs 실제 결과" 비교를 깔끔하게 만들어준다는 점이다.

여기에 더해, 미국은 연방·주·지방 단위 선거가 연간 수백 건 쏟아진다. 조사회사별로 충분한 비교 관측치가 쌓이고, 방법론 정보는 표준화된 형식으로 공개되며, 538이 수십 년치 데이터를 아카이브로 관리한다.

등급제는 이 모든 조건 위에서 작동한다.


한국에서 같은 논리가 성립하지 않는 이유

비교 기준점이 없다

한국은 유권자 등록이 자동이다. 전 국민이 이미 등록 유권자이므로 RV 개념 자체가 없다. LV 필터를 도입한다 해도, "투표 의향 확실" 응답자를 걸러내는 것이 예측력을 얼마나 높이는지는 별도로 검증해야 할 문제다. 대선 투표율이 70~80%에 달하는 구조에서, "누가 나오느냐"의 변별력은 미국만큼 크지 않다.

선거 건수가 너무 적다

등급제의 논리는 충분한 반복 관측으로 편향과 분산을 추정하는 것이다. 한 조사회사가 대선에서 크게 틀렸을 때, 그것이 방법론 문제인지 그 선거의 특수성인지 구별하려면 반복 데이터가 필요하다. 그런데 한국의 전국 단위 선거는 대선·총선·지선 합쳐 2년에 한 번꼴이다. 회사별 비교 관측치가 현실적으로 n=3~5 수준에 머문다. 이 데이터로 등급을 산출하면 신뢰구간이 너무 넓어 의미가 없다.

오차 귀책이 불가능하다

공직선거법은 선거일 6일 전부터 조사 공표를 금지한다. 마지막으로 공표된 수치와 실제 결과 사이에 6일이라는 간격이 생긴다. 그 사이에 후보 단일화, 사퇴, 돌발 변수가 개입하면 조사 오차와 상황 오차를 분리할 방법이 없다. 오차의 귀책 자체가 불명확한 구조다.


그렇다면 정성적 평가로 보완하면 되지 않는가

여기서 핵심 질문이 나온다. 정량 평가가 어렵다면, 정성적 기준을 도입해 보완하면 되지 않을까?

물론 방법론적 투명성(응답률 공개 여부, 가중변수 명시 여부), 독립성·이해충돌(의뢰처 비중, 편향 패턴), 절차적 준수(심의위 규정 위반 이력) 같은 항목들은 기준을 만들 수 있다. 일부는 정량화도 가능하다.

그러나 정성 평가는 결국 "누가 평가하느냐" 문제로 귀결된다. 평가 주체가 업계와 이해관계가 없는 제3자여야 하는데, 한국의 현실에서 그 역할을 누가 맡을 수 있는지는 별도의 난제다. 538이 신뢰받는 이유 중 하나는 평가 주체의 독립성이다. 그 조건이 충족되지 않으면, 등급제는 외양만 있고 실질은 특정 기관을 배제하거나 보호하는 도구로 전락할 위험이 있다.


내 입장: 정량만 해야 한다, 그러나 한국에서 그 정량이 지금은 불가하다

나는 조사회사 평가는 정량적 기준으로만 이루어져야 한다고 생각한다. 정성이 끼어들면 심사위원회의 주관 평가가 되기 때문이다. 그런데 한국에서 그 정량이 구조적으로 성립하지 않는다.

  • LV 베이스 없음 → 비교 기준 불명확
  • 선거 건수 부족 → 통계적 유의성 없음
  • 공표 금지 기간 → 오차 귀책 불가
  • 단일화·사퇴 변수 → 노이즈 분리 불가

이 네 가지가 동시에 걸리는 한, 정량 등급제는 구조적으로 성립하지 않는다. 억지로 만들면 숫자의 외양을 한 주관 평가가 된다.


현실적 대안: 등급(Grade)이 아니라 인증(Certification)

그렇다면 한국에서 가능한 건 무엇인가. 나는 최소 기준 인증제가 현실에 맞는 형태라고 본다.

  • 이 조사는 응답률을 공개했는가
  • 가중변수를 명시했는가
  • 의뢰처를 공개했는가
  • 표본설계 방식을 기술했는가

이런 yes/no 항목들로 구성된 체크리스트 기반 인증이다. 등급을 매기는 게 아니라, 최소한의 투명성 기준을 충족했는지를 확인하는 것이다.

등급제는 "얼마나 잘하느냐"를 묻는다. 인증제는 "기본은 하느냐"를 묻는다. 지금 한국 여론조사 환경에서는 후자가 우선이다. 공시 의무 강화와 원데이터 공개가 선행되어야 그 위에 평가 체계를 논할 수 있다.

평가 체계의 수준은 데이터 인프라의 수준을 넘을 수 없다.

댓글

이 블로그의 인기 게시물

5점 척도 분석 시 (환산) 평균값이 최상일까?

이중차분법(DID)과 평행추세가정: 횡단 데이터로 정책 효과 측정하기

선거 여론조사 가중치 분석: 셀 가중 vs 림 가중, 무엇이 더 나은가?