한때 각광받던 성향점수 가중법, 왜 요즘 잘 쓰이지 않을까?
서론: 한때는 ‘마법의 탄환’, 지금은 ‘논쟁적 도구’, 성향점수 가중법의 퇴조
2010년대 초반, 온라인 패널을 이용한 웹조사가 급성장하면서, ‘과연 이 비확률표집 결과를 믿을 수 있는가?’라는 질문이 업계의 가장 큰 화두였습니다. 이때, 의학 등 다른 분야에서 인과 추론을 위해 사용되던 ‘성향점수(Propensity Score)’ 기법이 혜성처럼 등장했습니다. 이는 자발적으로 참여한 편향된 패널 표본을, 통계 모델을 이용해 마치 확률표집된 것처럼 보정할 수 있다는 점에서, 비확률표집의 ‘원죄’를 씻어줄 가장 과학적인 해결책으로 각광받았습니다.
하지만 10여 년이 지난 지금, 우리는 성향점수 가중법이 만병통치약이 아니라는 사실을 깨닫게 되었습니다. 최근 발간된 미국여론조사학회(AAPOR) 보고서를 비롯한 여러 문헌들은 이 기법의 근본적인 한계와 함께, 더 실용적인 대안들의 등장을 이야기하고 있습니다. 한때 웹조사의 구원투수로 여겨졌던 성향점수 가중법은 왜 이제 그 빛을 잃어가고 있을까요?
1. 성향점수 가중법(PSW)의 원리: 비확률표집을 확률표집처럼
성향점수 가중법(Propensity Score Weighting, PSW)의 퇴조를 이해하기 위해서는 먼저 그 원리를 알아야 합니다. 이 기법의 핵심 아이디어는, 어떤 특성을 가진 사람이 비확률적인 웹 패널에 속하게 될 ‘성향’ 또는 ‘확률’을 계산하고, 그 확률의 역수(inverse)를 가중치로 부여하여 편향을 보정하는 것입니다.
그 과정은 다음과 같습니다.
먼저, 인구총조사나 대규모 공공조사 데이터와 같이, 모집단을 잘 대표하는 고품질 **확률표본(Reference Sample)**을 준비합니다.
우리가 보정하고자 하는 비확률 웹 패널 표본과 이 확률표본을 합칩니다.
두 표본에 포함된 공통적인 보조 변수들(성별, 연령, 지역, 학력, 정치 이념 등)을 이용하여, 어떤 사람이 ‘웹 패널’에 속할 확률(성향점수)을 예측하는 로지스틱 회귀분석 모델을 만듭니다.
이 모델을 통해 계산된 각 개인의 성향점수를 바탕으로, 웹 패널에 속할 확률이 높은 사람(과대대표된 그룹)에게는 낮은 가중치를, 속할 확률이 낮은 사람(과소대표된 그룹)에게는 높은 가중치를 부여합니다.
이 과정을 통해, 웹 패널 표본의 인구통계학적, 사회심리학적 특성 분포를 고품질 확률표본의 분포와 유사하게 만들어주는 것입니다.
2. 첫 번째 균열: ‘관찰되지 않는 변수’라는 근본적 한계
성향점수 가중법이 점차 힘을 잃게 된 가장 큰 이유는, 이 방법론이 가진 근본적인 이론적 한계가 명확해졌기 때문입니다. 바로 **‘관찰되지 않은 변수(Unobserved Variables)’**의 문제입니다.
성향점수 모델의 핵심 가정은, 모델에 포함된 보조 변수들(Z)을 통제하고 나면, 웹 패널에 참여하는 성향이 우리가 측정하려는 결과 변수(Y)와는 관계가 없어진다는, 소위 ‘무시 가능한 선택(ignorable selection)’ 가정입니다.
하지만 만약, 우리가 모델에 포함시키지 못한, 관찰되지 않은 어떤 특성이 웹 패널 참여와 결과 변수 모두에 영향을 미친다면 어떻게 될까요? 예를 들어, ‘새로운 경험에 대한 개방성’이라는 성격 특성은 (1)온라인 패널에 가입하는 행동과도 관련이 있고, (2)‘신제품 구매 의향’이라는 결과 변수와도 관련이 있을 수 있습니다. 만약 이 ‘개방성’이라는 변수를 측정하여 모델에 넣지 못했다면, 성향점수 가중치를 아무리 정교하게 적용해도 이로 인한 편향은 전혀 제거되지 않습니다.
AAPOR 보고서가 지적하듯, 인구통계 변수만으로는 이러한 복잡한 선택 편향을 충분히 설명하지 못하며, 결국 성향점수 모델은 ‘알려지지 않은 편향’ 앞에서는 속수무책이라는 한계에 부딪히게 됩니다.
3. 더 단순하고 강력한 경쟁자의 부상: 레이킹(Raking)의 실용성
성향점수 가중법의 또 다른 문제는, 그 과정이 매우 복잡하고, 어떤 변수를 모델에 넣느냐에 따라 결과가 달라지는 등 불안정성이 존재한다는 점입니다. 이러한 상황에서, 훨씬 더 단순하고 직관적이면서도 안정적인 결과를 내는 ‘레이킹(Raking)’ 기법이 실용적인 대안으로 더욱 각광받게 되었습니다.
레이킹은 복잡한 모델링 과정 없이, 우리가 알고 있는 모집단의 변수별 비율(예: 남성 50.1%, 30대 18.5% 등)에 표본의 가중합을 직접적으로 맞춰나가는 방식입니다.
단순성과 안정성: 레이킹은 성향점수 모델처럼 어떤 변수를 넣고 뺄지에 대한 민감한 고민 없이, 알려진 모집단 목표값에 직접 맞추므로 과정이 훨씬 단순하고 결과도 안정적입니다.
실용적 효과: 여러 비교 연구에 따르면, 많은 경우에 복잡한 성향점수 모델을 사용한 결과와, 중요한 보조 변수들을 사용해 레이킹을 실시한 결과 사이에 정확성 차이가 크지 않거나, 오히려 레이킹이 더 나은 결과를 보여주기도 했습니다. 연구자들은 복잡하고 불안정한 성향점수 모델보다, 더 단순하고 견고한 레이킹을 선호하게 된 것입니다.
4. ‘만능 해결책’에서 ‘정교한 부품’으로, 변화된 위상
이러한 배경 속에서 성향점수 가중법의 위상은 변화했습니다. 더 이상 비확률표집의 모든 문제를 해결해주는 ‘만능 해결책(Panacea)’이 아니라, 더 큰 가중치 부여 과정의 한 단계를 구성하는 **‘정교한 부품(Component)’**으로 인식되기 시작한 것입니다.
실제로 AAPOR 보고서에서는 ‘이중으로 강건한(Doubly-robust)’ 추정 방식을 소개합니다. 이는 1단계에서 성향점수 가중법으로 초기 가중치를 생성한 뒤, 2단계에서 이 가중치를 다시 레이킹과 같은 보정(calibration) 기법에 적용하여 최종 가중치를 만드는 방식입니다. 즉, 성향점수 가중법이 사라진 것이 아니라, 단독 주연에서 다른 기법과 조화를 이루는 조연으로 그 역할이 변화하고 있는 것입니다.
결론: 왜 성향점수 기법은 예전만큼 쓰이지 않는가
결론적으로, 성향점수 가중법이 웹조사에서 과거만큼의 위상을 갖지 못하는 이유는 다음과 같이 요약할 수 있습니다.
이론적 한계: ‘관찰되지 않은 변수’로 인한 숨은 편향을 해결하지 못한다는 점이 명확해졌습니다.
실용적 대안의 부상: 레이킹과 같은 더 단순하고 안정적이며, 효과도 뒤지지 않는 대안적 방법이 널리 쓰이게 되었습니다.
역할의 변화: 단독적인 해결책이 아닌, ‘이중으로 강건한’ 방법론과 같이 더 큰 보정 체계의 한 부분으로 그 역할이 재정의되고 있습니다.
따라서 성향점수 가중법은 ‘사라져가는’ 기술이라기보다는, 과거의 과도한 기대를 벗고, 다른 방법론들과의 관계 속에서 자신의 적절한 위치를 찾아가는 과정에 있다고 보는 것이 2025년 현재의 가장 정확한 평가일 것입니다.
댓글
댓글 쓰기