편의와 과학의 위태로운 동거, 동시적 이중표집틀 혼합모드

 

서론: 편의와 과학의 위태로운 동거, 동시적 이중표집틀 혼합모드

2025년 현재, 여론조사 기관들은 ‘확률표집’이라는 과학적 이상과, 비용 및 응답률이라는 현실적 제약 사이에서 끊임없이 고민합니다. 이 고민에 대한 최신 해법 중 하나로, 확률표집의 대표주자인 전화 RDD(Random Digit Dialing) 조사와, 비확률표집의 대표주자인 액세스 패널 웹조사를 동시에 진행하여 결합하려는 시도가 이루어지고 있습니다.

하지만 이 두 방법론은 태생부터 다릅니다. 하나는 전 국민에게 동등한 기회를 부여하려는 ‘무작위’의 세계에서 왔고, 다른 하나는 자발적으로 참여한 사람들로 구성된 ‘선택’의 세계에서 왔습니다. 이는 마치 서로 다른 물리 법칙이 적용되는 두 개의 우주에서 온 데이터를 합치는 것과 같습니다. 이는 단순한 혼합이 아니라, 한쪽의 데이터를 다른 쪽의 데이터에 맞게 ‘보정’하고 ‘통합’하는 정교한 통계적 연금술을 요구합니다. 이제 그 복잡하고 도전적인 과정을 살펴보겠습니다.

1. 두 개의 세계: RDD 표본과 패널 표본의 근본적 차이

이 설계의 어려움을 이해하기 위해서는, 먼저 두 표집틀이 가진 근본적인 속성의 차이를 명확히 인지해야 합니다.

  • 전화 RDD(확률표집) 표본: 이동통신사가 제공하는 가상번호 등을 활용하여, 전화를 가진 모든 사람에게 이론적으로 동등한 선택 확률을 부여합니다. 따라서 이 표본은 모집단을 대표할 수 있는 강력한 이론적 기반을 가집니다. 하지만 낮은 응답률과 높은 조사 비용, 그리고 전화 응답을 기피하는 특정 계층의 존재라는 현실적 문제를 안고 있습니다.

  • 액세스 패널(비확률표집) 표본: 특정 리서치 회사의 패널에 ‘자발적으로’ 가입한 사람들로 구성됩니다. 이들은 일반인에 비해 설문조사에 더 익숙하고, 인터넷 활용에 능숙하며, 보상에 민감하게 반응하는 등, 관찰되거나 관찰되지 않는 수많은 특성에서 일반 국민과 다를 수밖에 없습니다. 이를 ‘선택 편향(Selection Bias)’이라고 부르며, 이는 패널 조사가 가진 원죄와도 같습니다.

이처럼 출발선부터 다른 두 데이터를, 단순히 인구통계학적 비율만 맞추어 합치는 것은 데이터의 신뢰도를 심각하게 훼손하는 행위입니다.

2. 첫 번째 난관: 질문지의 통일성, ‘Unimode’ 설계의 원칙

두 개의 다른 조사 모드를 동시에 사용할 때, 가장 먼저 직면하는 문제는 **‘측정의 동등성’**을 확보하는 것입니다. 동일한 질문이라도, 면접원이 음성으로 읽어주는 것(전화)과 응답자가 눈으로 읽는 것(웹)은 전혀 다른 인지적 경험을 유발합니다.

이를 극복하기 위해, 설문지는 ‘유니모드(Unimode)’ 원칙에 따라 설계되어야 합니다.

  • 간결하고 명확한 문장: 복잡한 문장 구조나 어려운 어휘를 피하고, 듣기만 해도, 혹은 보기만 해도 의미가 명확하게 전달되도록 작성해야 합니다.

  • 시각적 요소 배제: 웹에서는 가능하지만 전화에서는 불가능한 이미지, 영상, 복잡한 표(Matrix) 형태의 질문은 원칙적으로 사용하지 않습니다.

  • 응답 보기의 단순화: 너무 많거나 긴 응답 보기는 전화조사에서 응답자가 기억하기 어렵습니다. 양쪽 모드에서 모두 원활하게 응답할 수 있도록 보기의 개수와 길이를 최적화해야 합니다.

이러한 노력을 통해, 조사 방법에 따라 응답이 달라지는 **‘모드 효과(Mode Effect)’**를 최소화할 수 있습니다.

3. 두 번째 난관: ‘기름과 물’을 섞기 위한 통계적 연금술

서로 다른 표집틀에서 온 두 데이터를 하나로 합치는 과정은, 마치 기름과 물을 섞는 것과 같습니다. 단순히 병에 담고 흔드는 것(예: 인구통계에 맞춘 가중치 부여)만으로는 잠시 섞이는 것처럼 보일 뿐, 결국 다시 분리되고 맙니다. 이 둘을 진정으로 섞기 위해서는 ‘유화제’와 같은 특별한 중간 과정이 필요한데, 이것이 바로 **‘결합 가중치(Combined Weight)’**를 산출하는 통계적 모델링입니다.

이 과정의 핵심 철학은, 신뢰도 높은 확률표집(전화 RDD) 결과를 ‘기준점(Anchor)’ 또는 ‘벤치마크(Benchmark)’로 삼아, 비확률표집(웹 패널) 데이터의 편향을 보정하고 결합하는 것입니다. 즉, 웹 패널 표본을 최대한 확률표본처럼 보이도록 ‘성형’하는 과정이 포함됩니다.

4. ‘유화제’의 제조법 ①: 성향점수가중법(Propensity Score Weighting)

가장 대표적인 결합 가중치 산출 방법 중 하나가 성향점수가중법입니다.

  1. 두 개의 데이터(전화, 웹)를 하나로 합친 뒤, ‘전화 응답자=0, 웹 응답자=1’이라는 가상의 변수를 만듭니다.

  2. 성별, 연령, 지역, 학력, 소득, 이념 성향 등 두 조사에서 공통적으로 측정한 모든 변수를 사용하여, 특정 개인이 **‘웹 패널 응답자일 성향(Propensity)’**이 얼마나 되는지를 예측하는 로지스틱 회귀분석 모델을 만듭니다.

  3. 이 모델을 통해, 각 웹 패널 응답자에게 ‘성향 점수’가 부여됩니다.

  4. 이 성향 점수의 역수를 취하는 등의 방식을 통해, 각 웹 패널 응답자에게 **‘유사 설계 가중치(Pseudo-design Weight)’**를 부여합니다. 이는 각 웹 패널 응답자가 RDD 응답자와 얼마나 다른지를 보정해주는 역할을 합니다.

5. ‘유화제’의 제조법 ②: 통계적 매칭과 캘리브레이션

또 다른 정교한 방식은 **통계적 매칭(Statistical Matching)**이나 **캘리브레이션(Calibration)**입니다.

  • 매칭: RDD 응답자 한 명 한 명과, 인구통계학적·태도적으로 가장 유사한 특성을 가진 웹 패널 응답자들을 찾아내어 짝을 지어주는 방식입니다.

  • 캘리브레이션: 전화 RDD 조사에서 나타난 주요 변수들의 응답 분포(예: ‘정치 고관여층’ 40%, ‘중도층’ 30% 등)를 벤치마크 목표값으로 설정합니다. 그리고 웹 패널 데이터에 가중치를 부여하여, 이 벤치마크 목표값과 동일한 분포를 갖도록 보정합니다.

6. 최종 보정 단계: 모집단에 맞추는 림 가중

위의 과정(성향점수법 또는 캘리브레이션)을 통해 웹 패널 데이터의 1차 보정이 끝나면, 비로소 두 데이터를 완전히 하나로 합칠 수 있습니다.

  1. 보정된 웹 패널 데이터와, 기존의 전화 RDD 데이터를 합쳐 통합 데이터셋을 만듭니다.

  2. 이 통합 데이터셋을 대상으로, 최종적으로 통계청의 인구 총조사 기준(성별, 연령, 지역 등)에 맞춰 **림 가중(Raking)**을 실시하여, 표본의 인구통계학적 대표성을 최종적으로 확보합니다.

이처럼, 결합 가중치(1단계 보정)를 먼저 적용한 뒤, 림 가중(2단계 보정)을 적용하는 2단계 보정 절차를 거쳐야만, 비로소 두 데이터의 이질성이 최소화된 결과를 얻을 수 있습니다.

결론: 최선은 아니지만, 현실적인 차선을 향한 노력

결론적으로, 전화 RDD와 웹 패널이라는 서로 다른 표집틀을 동시에 사용하여 결합하는 하이브리드 샘플링은, 응답률 하락의 시대에 대표성 있는 표본을 얻기 위한 매우 의미 있고 진보된 노력임이 분명합니다. 이는 단순한 땜질식 처방이 아니라, 통계적 모델링에 기반한 정교한 과학적 접근입니다.

하지만 우리는 이것이 확률표집을 완벽하게 대체하는 ‘마법의 탄환’이 아님을 명확히 인지해야 합니다. 그 결과는 언제나 ‘우리가 통계 모델에 투입하여 통제할 수 있었던 변수들 하에서는 최선을 다해 편향을 보정했다’는 단서와 함께, 신중하게 해석되어야 합니다. 관찰되지 않은 변수(예: 설문 참여에 대한 내재적 동기)로 인한 편향은 여전히 데이터 속에 남아있을 수 있기 때문입니다.

결국 이 방법론은, 완벽한 이상을 추구하기 어려워진 현실 속에서, 최선은 아닐지라도 가장 합리적인 ‘차선’을 찾아내려는 연구자들의 치열한 고민이 담겨 있는, 현재 진행형의 도전이라 할 수 있습니다.

댓글

이 블로그의 인기 게시물

5점 척도 분석 시 (환산) 평균값이 최상일까?

NPS(Net Promoter Score)는 왜 간단한데 파워풀해졌을까? 척도 해석의 창의성에 대하여

우리나라는 조사회사가 너무 많고, 선거여론조사도 너무 많이 하는걸까?