메소드서베이: 재미있는 샘플매칭 이야기

재미있는 샘플매칭 이야기

약효를 재던 통계 도구가 어떻게 여론조사 표집 방법이 되었나

여론조사 업계에서 샘플매칭이라고 하면 보통 유고브(YouGov)의 간판 기술로 통한다. 비확률 온라인 패널을 가지고 전화조사 못지않은, 때로는 더 정확한 추정치를 만들어 낸다는 그 방법이다. 그런데 이 방법을 두고 흔히 오해하는 게 하나 있다. 유고브가 무에서 발명한 독자 기법이라는 생각이다. 사실은 그렇지 않다. 샘플매칭은 통계학에서 이미 수십 년간 쓰이던 도구를 옮겨 온 것이다.

더 흥미로운 것은 빌려 온 출처다. 우리가 표집을 배울 때 나오는 표본조사론이 아니다. 샘플매칭의 뿌리는 인과추론, 그중에서도 약이나 정책의 효과를 추정하는 관찰연구(observational study)에 있다. 무작위 실험이 불가능한 상황에서 편향을 걷어 내려고 만든 통계 도구가, 어느 순간 여론조사 표집 방법으로 변신했다. 이 변신이 어떻게 일어났는지, 그리고 그 변신이 성립하려면 무엇이 필요한지를 차례로 정리해 본다.

표집이 아니라 인과추론에서 왔다

관찰연구의 문제는 이렇게 생겼다. 어떤 약을 먹은 사람들과 먹지 않은 사람들의 건강 상태를 그냥 비교하면 약효를 알 수 없다. 약을 먹기로 한 사람들은 애초에 건강을 더 챙기는 사람들일 수도 있고, 반대로 이미 아파서 약을 먹은 사람들일 수도 있다. 두 집단이 출발선부터 다르기 때문에, 나중에 나타난 차이가 약 때문인지 원래 차이 때문인지 구분되지 않는다. 무작위 배정이라면 이 문제가 사라진다. 동전을 던져 약을 줄지 말지 정하면 두 집단이 평균적으로 같아지기 때문이다. 그러나 현실의 관찰 데이터에는 동전 던지기가 없다.

매칭은 이 곤란을 푸는 오래된 처방이다. 약을 먹은 사람 한 명마다, 먹지 않은 사람 중에서 나이, 성별, 소득, 평소 건강 상태처럼 관찰 가능한 특성이 비슷한 사람을 골라 짝지어 비교한다. 비슷한 사람끼리 비교하면 출발선의 차이가 줄어들고, 남는 차이를 약효로 읽을 수 있다는 발상이다.

이 발상을 통계 이론으로 세운 사람이 도널드 루빈(Donald Rubin)이다. 1973년 논문 “Matching to Remove Bias in Observational Studies”와 1974년의 잠재적 결과(potential outcomes) 틀이 출발선이고, 그 앞에는 윌리엄 코크런(William Cochran)이 1950~60년대에 다듬어 둔 관찰연구의 매칭과 층화 작업이 있다. 그리고 1983년, 폴 로젠바움(Paul Rosenbaum)과 루빈이 함께 쓴 성향점수(propensity score) 논문이 결정적이었다. 나이, 성별, 소득, 건강 상태 같은 특성을 하나하나 맞추는 대신, 처치를 받을 확률 하나로 요약해서 그 확률이 같은 사람끼리 짝지어도 편향이 제거된다는 사실을 증명한 것이다.

이 방법들이 똑같이 깔고 있는 가정이 하나 있다. 무작위성을 가정해도 좋다는 의미의 무시가능성(ignorability)이다. 관찰된 특성을 통제하고 나면, 처치를 받았는지 여부가 결과와 무관해진다는 가정이다. 기호로 쓰면 처치 여부와 잠재적 결과가 특성 X를 조건으로 독립이라는 뜻이다. 이 가정이 성립하는 한, 무작위 실험이 아니어도 매칭만으로 인과효과를 추정할 수 있다. 반대로 이 가정이 깨지면 아무리 정교하게 매칭해도 편향이 남는다. 뒤에서 보겠지만 샘플매칭의 운명도 바로 이 가정에 걸려 있다.

정치학자가 만든 표집 방법

이 인과추론 도구를 여론조사로 옮긴 사람이 더글러스 리버스(Douglas Rivers)다. 그의 이력에는 작은 반전이 있다. 통계 방법론을 자유자재로 다루는 사람이라 당연히 통계학 박사일 것 같지만, 그는 정치학자다. 컬럼비아대에서 학사를, 하버드대에서 1981년에 정치학 박사를 받았고, 칼텍과 UCLA를 거쳐 1989년부터 스탠퍼드대 정치학과 교수로 있다.

정치학자가 어떻게 표집 방법을 만들었을까 싶지만, 그가 발 담근 분야를 보면 이상한 일이 아니다. 리버스의 연구 영역은 정치학 안에서도 가장 계량적인 정치방법론(political methodology)이었다. 이산선택모형, 공간투표이론, 선거 데이터의 추정 문제처럼 사실상 계량경제학이나 통계학과 경계가 없는 주제들이다. 1980년대 정치방법론은 계량경제학에서 도구를 대거 빌려 오던 시기였고, 리버스는 그 한가운데에 있었다. 인과추론과 추정 이론에 깊이 들어가 있던 계량정치학자였기에, 루빈과 로젠바움의 매칭 도구를 자기 것처럼 쓸 수 있었다.

그는 학계에만 머물지 않았다. 1990년대 후반 실리콘밸리에서 회사를 두 개 세웠고, 이후 폴리메트릭스(Polimetrix)라는 여론조사 회사를 창업했다. 이 회사가 샘플매칭을 개발했으며, 2007년 유고브가 약 1,700만 달러에 인수했다. 리버스는 지금 유고브의 수석과학자(Chief Scientist)로 이 회사의 방법론 전반을 책임지고 있다. 방법의 원전은 그가 2007년 미국통계학회 연례회의(Joint Statistical Meetings)에서 발표한 논문 “Sampling for Web Surveys”다.

리버스가 알아챈 것은 이것이다. 옵트인 패널이 안고 있는 문제가 관찰연구의 문제와 구조가 똑같다는 사실이다. 관찰연구에서는 누가 처치집단에 들어갈지가 무작위로 정해지지 않아 모집단과 어긋난다. 옵트인 패널에서는 누가 패널에 가입할지가 무작위가 아니라 자기선택으로 정해져 모집단과 어긋난다. 두 문제는 화근이 같다. 무작위가 아닌 선택이다. 그래서 처방도 같다. 관찰된 특성으로 짝을 맞추고, 그 짝짓기를 무시가능성이라는 동일한 가정으로 떠받친다. 리버스는 패널 가입 자체를 일종의 처치로 본 셈이다. 누군가 온라인 패널에 자원해 들어왔다는 사실은, 관찰연구에서 누군가 약을 먹기로 했다는 사실과 통계적으로 같은 자리에 놓인다.

실제로 어떻게 매칭하는가

절차 자체는 의외로 깔끔하다. 네 단계로 정리된다.

1. 먼저 좋은 표집틀을 잡는다. 미국이라면 인구조사 자료(ACS)나 유권자 등록 파일처럼 모집단을 잘 대표하는 고품질 프레임이다.

2. 그 틀에서 확률표본을 뽑는다. 이것이 타깃 표본이다. 원래대로라면 면접하고 싶은 이상적인 응답자 명단이지만, 정작 이 사람들은 패널에 없어 면접할 수 없다.

3. 타깃 표본의 각 사람마다 패널 안에서 특성이 가장 가까운 패널원을 찾는다. 최근접 이웃 매칭이다.

4. 이렇게 매칭된 패널원들이 실제 응답자가 된다.

여기서 관건은 타깃 표본의 정체다. 타깃은 실제로 면접한 사람이 아니라, 모집단에서 무작위로 뽑은 가상의 명단이다. 일종의 합성된 확률표본인 셈이다. 인과추론의 매칭이 처치집단을 비교집단에 맞춘다면, 유고브는 거꾸로 손에 들고 있는 패널을 이 무작위 가상 명단에 맞춘다. 리버스와 베일리(Rivers & Bailey, 2009)는 여기서 한 걸음 더 나아가, 합성된 대표 표집틀을 만들고 거기서 타깃을 뽑는 방식을 정식화했다.

매칭 변수가 충분히 풍부해서 X를 조건으로 걸면 패널 가입 여부가 응답값과 무관해진다면, 다시 말해 무시가능성이 성립한다면, 이렇게 만든 표본은 확률표본처럼 작동한다. 리버스의 시뮬레이션이 보여 준 것이 그것이다. 매칭된 표본의 추정량은 패널에서 무작위로 일부를 뽑아 가중하는 방식보다 우수했고, 표본 분포는 모집단에서 단순무작위표집을 한 경우와 비슷했다. 2006년 미국 의회 선거에 적용했을 때는, 옵트인 웹 패널에서 샘플매칭으로 얻은 추정치가 RDD 전화면접 추정치보다 더 정확했다.

자주 헷갈리는 부분을 하나 정리하고 넘어가자. 유고브의 원래 샘플매칭은 성향점수 매칭과 같지 않다. 성향점수 매칭은 여러 특성을 점수 하나로 압축한 다음 그 점수가 비슷한 처치 대상과 비교 대상을 짝짓는다. 반면 유고브는 점수로 압축하지 않고 특성 거리로 직접 짝을 찾으며, 처치와 비교가 아니라 패널과 타깃을 짝짓는다. 다만 비확률표본을 다루는 또 다른 갈래인 유사가중(pseudo-weighting) 방식은 성향점수 모형을 그대로 가져다 쓴다. 비확률표본과 참조 확률표본을 합쳐 표본에 포함될 확률을 추정하고 그 역수로 가중하는 식이다. 그래서 비확률표집 추론이라는 큰 집안은 모두 로젠바움과 루빈의 후손이라 할 만한데, 유고브는 매칭이라는 갈래를, 발리언트나 엘리엇 같은 연구자들은 성향가중이라는 갈래를 택한 차이로 보면 된다.

작동을 좌우하는 두 조건

이론이 이렇게 깔끔해도, 실제로 작동하려면 패널이 두 가지를 갖춰야 한다. 매칭 변수가 풍부해야 하고, 그 정보가 현행화되어 있어야 한다. 둘은 비슷해 보이지만 서로 다른 종류의 요구이고, 각각 다른 종류의 실패를 막아 준다.

먼저 변수가 풍부해야 하는 까닭은 앞서 본 무시가능성 가정이 통째로 여기에 걸려 있기 때문이다. 패널 가입이 응답과 무관해지려면, 조건으로 거는 변수 X가 패널 가입과 응답값을 동시에 좌우하는 요인을 빠짐없이 담아야 한다. 변수가 빈약하면 조건을 걸어도 자기선택이 남는다. 인구통계 몇 개로만 매칭하면, 같은 40대 남성 안에서도 정치 고관여층만 패널에 들어와 있는 편향을 잡지 못한다. 유고브가 매칭에 쓰는 변수가 단순 인구통계를 훌쩍 넘어서는 까닭이다. 정당일체감, 과거 투표 행태, 이념 성향, 관심사, 미디어 소비 습관, 거기에 유권자 파일에서 끌어온 행정 변수까지 패널 프로필에 쌓아 둔다. 매칭 변수가 풍부할수록 무시가능성 가정도 그만큼 믿을 만해진다.

여기에는 긴장이 하나 숨어 있다. 변수를 늘릴수록 가정은 그럴듯해지지만, 동시에 차원의 저주 탓에 좋은 짝을 찾기가 어려워진다. 패널이 아무리 커도 변수가 수십 개로 늘어난 고차원 공간에서는 모든 타깃마다 가까운 이웃을 대 줄 수 없다. 그래서 실무는 가정을 강하게 만들 만큼 충분한 변수와 매칭이 실제로 가능한 차원 사이에서 타협한다. 거리함수를 어떻게 설계할지, 어떤 변수에 가중을 둘지, 근사 매칭을 어디까지 받아들일지가 모두 이 타협의 산물이다. 변수는 많아야 하지만 무한정 많을 수도 없다.

현행화가 필요한 까닭은 종류가 다르다. 매칭이 타당한가의 문제가 아니라, 매칭 변수를 언제 측정했는가의 문제다. 패널 프로필이 2년 전 값이라면, 매칭은 2년 전의 그 사람에게 맞춰진다. 정치 변수는 특히 시간에 민감하다. 2년 전 무당층이 지금은 특정 정당 지지자가 되어 있을 수 있고, 그사이 거주지나 직업이나 관심사가 바뀌었을 수 있다. 타깃 표본은 오늘의 모집단을 대표하는데 매칭 키가 과거 값이면, 오늘 기준으로는 엉뚱한 사람을 가까운 이웃으로 착각해 뽑게 된다. 측정 오차가 아니라 시점이 어긋나서 생기는 편향이다.

특히 고약한 것은 역설이다. 자주 변하는 변수일수록 매칭에서 가장 중요한 변수이기도 하다. 성별이나 출생연도는 변하지 않지만 매칭 정보로서의 가치는 낮다. 정당 지지, 후보 선호, 시사 관심, 정책 태도는 자주 변하면서 동시에 결과변수와 가장 강하게 연결된 변수다. 그러니 현행화 부담이 가장 큰 변수가 하필 매칭에 가장 절실한 변수에 몰린다. 유고브가 패널을 주기적으로 재접촉해 프로필을 갱신하고, 잘 변하지 않는 프레임 변수와 자주 갱신해야 하는 태도 변수를 따로 관리하는 것이 이 구조 때문이다.

두 조건을 한 문장으로 합치면 이렇게 된다. 풍부함은 올바른 차원에서 짝짓고 있는가를 보장하고, 현행성은 올바른 시점의 값으로 짝짓고 있는가를 보장한다. 둘 중 하나만 채워서는 다른 쪽 구멍으로 편향이 새어 든다. 변수가 풍부해도 낡았으면 과거에 대한 정밀한 매칭일 뿐이고, 최신이어도 빈약하면 현재에 대한 거친 매칭일 뿐이다.

매칭으로 잡히지 않는 것

샘플매칭의 한계는 대부분 무시가능성 가정으로 되돌아온다. 이 가정은 검증할 수가 없다. 패널 가입과 응답을 동시에 좌우하는 요인을 빠짐없이 담았는지를 데이터만 보고 확인할 방법이 없기 때문이다. 인구통계로 아무리 잘 매칭해도, 태도나 행동 차원의 자기선택까지 잡아 준다는 보장은 없다. 온라인 패널에 자원하는 사람은 인구통계로는 드러나지 않는 방식으로 일반 국민과 다를 수 있다. 정치에 관심이 유난히 많거나, 의견을 드러내고 싶은 욕구가 강하거나, 설문 보상에 민감하거나, 단지 남는 시간이 많은 사람일 수도 있다. 이것이 모든 비확률 방법을 향한 근본적인 비판이고, 샘플매칭도 예외가 아니다.

그래서 유고브도 매칭만으로 끝내지 않는다. 매칭으로 응답자를 고른 뒤, 사후층화 가중을 한 번 더 걸어 남은 불균형을 보정한다. 매칭이 일차 방어선이라면 가중이 이차 방어선인 셈이다. 그리고 이 방법이 늘 이기는 것도 아니다. 2006년 의회 선거에서는 전화조사를 앞섰지만, 이후 여러 선거에서 온라인 패널 기반 추정이 빗나간 사례도 적지 않다. 어떤 방법도 무시가능성이 깨지는 상황을 완전히 면제받지는 못한다.

한국에서는 무엇이 달라지는가

여기까지 오면 한국 적용의 문제가 보인다. 유고브 모델은 두 개의 인프라를 깔고 서 있다. 대규모 상시 패널과, 개인 단위 행정 정보를 담은 유권자 파일이다. 미국은 후자를 가지고 있다. 유권자 등록 파일에 인구통계와 과거 투표 참여 기록 같은 변수가 붙어 있어서, 패널원과 모집단 양쪽에 풍부한 매칭 키를 공급한다. 유고브 샘플매칭의 변수 풍부함은 상당 부분 이 외부 파일에서 나온다.

한국에는 이런 공개 프레임이 사실상 없다. 개인 단위 행정 변수를 외부에서 끌어다 매칭 키를 불릴 길이 막혀 있다는 뜻이다. 그러면 풍부함이라는 조건을 패널 내부에 프로필을 쌓아 올리는 방식만으로 채워야 한다. 가입 시점과 이후 조사에서 응답자에게 직접 물어 모은 정보가 거의 전부가 된다. 외부에서 사 오는 대신 내부에서 길러야 하는 구조다.

문제는 이 구조가 두 조건을 동시에 압박한다는 데 있다. 매칭 키를 내부 축적에만 의존하면, 변수의 풍부함도 패널 운영에 달리고 현행화 부담도 패널 운영에 달린다. 게다가 한국에서 가장 중요한 매칭 변수인 정치 변수는 가장 자주 변하는 변수이기도 해서, 갱신을 게을리하면 곧바로 시점 불일치 편향으로 이어진다. 미국에서는 외부 파일이 일부 떠받쳐 주던 짐을, 한국에서는 패널 운영 한 곳이 거의 다 떠안아야 한다.

여기에 통신사 마케팅 수신 동의 고객에게 SMS를 보내 모바일 웹조사로 응답을 받는 구조라면, 매칭 변수의 출처와 갱신 설계가 한층 더 중요해진다. 표집틀의 성격이 미국식 유권자 파일과 다른 만큼, 샘플매칭의 논리를 그대로 옮기기보다 어떤 변수를 어떻게 확보하고 언제 갱신할지를 한국 데이터 환경에 맞춰 다시 설계해야 한다. 방법을 수입하기는 쉽지만, 방법이 기대고 선 인프라까지 수입하기는 쉽지 않다.

샘플매칭의 이야기에서 오래 남는 것은 방법 자체보다 그 출신이다. 약효를 재려고 만든 도구가 여론조사 표집으로 건너온 것은, 두 문제가 같은 모양을 하고 있다는 사실을 알아본 한 사람의 눈 덕분이었다. 그리고 그 눈은 표집을 전공한 사람이 아니라 인과추론에 익숙했던 정치학자의 것이었다. 방법론에서 도약은 종종 분야와 분야 사이의 빈틈에서 나온다. 한국 조사 환경에 맞는 다음 도약도, 어쩌면 표집론 바깥에서 건너올지 모른다.

참고 문헌

Cochran, W. G., & Rubin, D. B. (1973). Controlling Bias in Observational Studies: A Review. Sankhyā: The Indian Journal of Statistics, Series A, 35(4), 417–446.

Rivers, D. (2007). Sampling for Web Surveys. Proceedings of the Joint Statistical Meetings, Section on Survey Research Methods. American Statistical Association.

Rivers, D., & Bailey, D. (2009). Inference from Matched Samples in the 2008 U.S. National Elections. Proceedings of the Joint Statistical Meetings, Section on Survey Research Methods.

Rosenbaum, P. R., & Rubin, D. B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika, 70(1), 41–55.

Rubin, D. B. (1973). Matching to Remove Bias in Observational Studies. Biometrics, 29(1), 159–183.

Rubin, D. B. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), 688–701.

메소드서베이

2026년 6월 27일 토요일

재미있는 샘플매칭 이야기

댓글 없음:

댓글 쓰기

재미있는 샘플매칭 이야기

블로그 보관함