푸시투웹을 둘러싼 오해와 한국 통계조사의 진짜 장벽
나는 오랫동안 한 가지를 잘못 알고 있었다. 미국이 우편으로 웹조사 초대장을 보내는 push-to-web을 할 수 있는 건, 표본으로 뽑은 사람의 이름과 연락처를 알기 때문이라고 생각했다. 주소에 이름이 붙어 있으니 "○○○님께"로 편지를 보내고, 응답이 없으면 전화를 걸어 독촉하는 그림을 떠올렸다.
틀렸다. 미국 push-to-web의 출발점에는 이름도 전화번호도 없다. 주소뿐이다.
이 사실 하나를 바로잡고 나니, 한국 통계조사가 왜 아직 조사원의 발품에 묶여 있는가에 대한 내 진단도 통째로 다시 그려야 했다. 오늘 정리하는 글은 그 다시 그리기의 기록이다.
미국은 주소로만 보낸다
미국 ABS(Address-Based Sampling)의 표집틀은 USPS(미국우정청)의 배달순서파일(DSF)을 상업적으로 복제한 주소 목록이다. 연구자는 이 목록을 USPS에서 직접 받지 못하고 MSG(Marketing Systems Group) 같은 민간 벤더에게서 산다. 거기 담긴 것은 거주지 주소와 지오코드다. 이름도 전화번호도 소득도 없다.
그러면 가구 안에서 누구를 응답자로 삼는가. 생일이다. Pew Research Center가 SSRS에 의뢰해 수행한 2025년 NPORS(National Public Opinion Reference Survey) 방법론 문서를 보면 이 설계가 그대로 드러난다. MSG가 USPS 전산 배달순서파일에서 뽑아 제공한 약 1만 8,800가구의 주소로, 일반우편(first-class mail)으로 초대장을 보낸다. 편지는 특정 개인이 아니라 그 가구의 한 사람에게 응답을 요청하고, 성인이 둘 이상이면 다음 생일을 맞는 성인이 응답하도록 안내한다. 전화도 우리가 흔히 떠올리는 추적 전화가 아니다. 편지에 무료 전화번호를 적어두고 원하는 응답자가 직접 걸어 면접원과 응답하는 inbound 방식이다. 최종 응답률(AAPOR RR1)은 29%였다.
여기서 두 가지가 분명해진다. 등기가 아니라 일반우편이라는 것, 그리고 이름으로 개인화하지 않는다는 것이다. 가구 앞으로 보내고, 가구 안에서는 생일로 한 명을 고른다.
연방정부의 ACS(American Community Survey)도 다르지 않다. 표본 주소로 먼저 인터넷 응답을 요청하는 우편물을 보내고, 응답이 없으면 종이 설문지를 보내고, 그래도 안 되면 조사원이 직접 방문한다. 한때 있던 전화(CATI) 단계는 2017년 9월에 폐지됐다. ACS의 우편물 역시 개인 이름이 아니라 그 주소의 거주자 앞으로 간다. 정부 조사인 ACS는 상업적으로 이름·전화를 매칭한 표본을 쓰지 않는다.
"이름이 있다"는 절반만 맞다
그렇다면 내가 알던 "미국엔 이름이 있다"는 완전한 착각이었나. 그렇지는 않다. 다만 그 이름은 다른 데서 온다.
MSG 같은 벤더는 ABS 주소 표본에 옵션으로 이름, 전화번호, 세대주의 연령·성별 같은 정보를 매칭해 붙여 판다. 그러나 이 매칭은 완전하지 않다. 변수에 따라 평균 매칭률이 65~75% 수준이라 표본 전체가 아니라 일부에만 이름·전화가 붙는다. 그리고 무엇보다 이건 사면 받는 선택 옵션이지 모든 조사가 쓰는 기본값이 아니다. 앞서 본 Pew NPORS는 이 옵션을 쓰지 않고 순수하게 주소와 생일법으로 갔다.
이름과 연락처가 풍부하게 붙는 건 오히려 선거 쪽이다. 미국의 voter file은 주 단위 선거인 등록자료를 L2, Catalist, TargetSmart 같은 업체가 모아 이름·주소·정당등록·투표이력에 전화번호와 인구통계 추정치까지 붙여 판매한다. 미국 정치 여론조사가 RDD에서 voter file 기반으로 옮겨간 까닭이다.
정리하면 이렇다. 미국의 기본 통계 인프라(Census MAF, USPS DSF)는 주소만 담는다. 이름·전화는 민간 벤더가 파는 선택적 강화이거나 voter file이라는 별도 자료에서 온다. "미국엔 이름이 있다"와 "미국엔 이름이 없다"가 둘 다 부분적으로 맞는 건, 어느 자료를 말하느냐가 다르기 때문이다.
미국도 지역확률을 버리지 않았다
한 걸음 더 들어가면 흥미로운 사실을 만난다. 미국이 ABS로 다 갈아탔다는 인상과 달리, 가장 정교한 확률 패널은 여전히 지역확률표집의 골격을 안고 있다.
NORC의 AmeriSpeak 패널이 그렇다. 이 패널의 표집틀인 NORC National Frame은 단순한 주소 목록이 아니다. 1차로 대도시권·카운티 규모의 추출단위를 뽑고, 2차로 센서스 트랙·블록그룹에서 정의한 세그먼트를 확률비례로 뽑은 뒤, 그 세그먼트 안의 가구를 USPS DSF로 목록화한다. 그리고 DSF 커버리지가 부족한 세그먼트는 현장 listing으로 보완한다. 2019년 모집에서는 1,514개 세그먼트 가운데 123개를 현장 listing으로 메웠고, 이렇게 8만 가구가량의 농촌 가구를 직접 명부에 더했다. 그 결과 순수 ABS면 92% 수준인 커버리지가 97%까지 올라간다.
접촉도 우편 하나가 아니다. 우편과 전화, 현장 면접원까지 동원하고, 초기 무응답 가구의 일부를 다시 뽑아 면접원이 직접 찾아가는 2단계 설계다. 청년층을 더 뽑기 위해 MSG나 TargetSmart가 "이 가구에 18~24세가 있다"고 표시한 정보를 활용하기도 한다. 앞서 말한 voter file·소비자 데이터 강화가 여기서 실제로 작동하는 것이다.
이 National Frame이 바로 GSS(General Social Survey) 같은 대표적 조사에 쓰여 온 지역확률표본이다. 다단계로 지역을 뽑고, 세그먼트 안에서 가구를 목록화하고, 일부는 현장에서 명부를 만든다. 한국의 조사구 방식과 같은 계보다. NORC는 조사구식 골격을 버린 게 아니라, 세그먼트 안 가구 목록을 현장 listing 대신 DSF로 현대화하고 그것을 재사용 가능한 패널로 만들었을 뿐이다.
그렇다면 한국은
이쯤 되면 "한국은 조사구를 쓰니 대면조사를 할 수밖에 없다"는 익숙한 명제가 흔들린다.
먼저 표집틀이 데이터 수집 모드를 결정하지 않는다. AmeriSpeak가 산 증거다. 조사구식 지역확률 프레임을 쓰면서도 응답은 대부분 웹으로 받는다. 프레임이 조사구냐 주소 목록이냐와, 응답을 대면으로 받느냐 웹으로 받느냐는 별개 문제다. "조사구라서 대면"은 인과를 잘못 잡은 진술이다.
여기에 더 결정적인 사실이 있다. 지금 한국의 조사구는 이미 가구 주소를 갖고 있다. 2015년부터 한국의 인구주택총조사는 등록센서스 방식으로 바뀌었다. 전국 가구를 일일이 방문하지 않고 주민등록부와 건축물대장 같은 행정자료를 연계해 인구·가구·주택을 파악한다. 통계청은 누가 어느 주소에 사는지를 행정자료로 이미 알고 있고, 그 인구주택총조사 결과가 각종 경상조사 표본틀의 기초자료가 된다. 그러니 "조사구는 경계선일 뿐 주소는 조사원이 가야 안다"는 말은 현장 listing 시대의 이야기지 지금 맞는 설명이 아니다.
실무는 더 분명하다. 통계청 승인통계의 경우 신청 기관에 목표 표본의 2배수에 해당하는 조사구를 제공한다. 발송할 주소가 부족하기는커녕 넉넉하다. 미국식 push-to-web을 시도할 재료가 이미 손에 있다는 뜻이다.
그러니 질문은 바뀌어야 한다. 주소가 있는데 왜 아직 방문면접인가.
진짜 장벽은 조사표다
답은 표집틀이 아니다. 조사표다.
한국의 승인통계 조사표는 조사원 면접을 전제로 최적화되어 있다. 자기기입으로 옮기는 순간, 조사원이 보이지 않게 처리하던 일들이 전부 응답자에게 넘어간다. 복잡한 분기를 대신 따라가 주고, 모르는 용어를 설명해 주고, 짧은 답에 한 번 더 캐묻고, 긴 보기 목록을 카드로 제시하던 그 모든 보조가 사라진다. 게다가 면접은 조사원이 응답자를 끝까지 끌고 가지만 자기기입에는 동기를 붙들어 줄 사람이 없다. 설문이 길수록, 특히 응답자 다수가 모바일을 쓰는 환경에서 중도이탈이 급증한다. 미국 ACS가 자기기입용으로 짧고 단순한 양식을 따로 둔 것은 우연이 아니다.
조사표가 가장 큰 장벽이라는 진단에는 역설이 하나 숨어 있다. 이것이 동시에 가장 손댈 수 있는 변수라는 점이다. 표집틀을 행정자료로 새로 짜거나 자료 접근의 법적 근거를 마련하는 일은 통계법 개정과 부처 간 협상을 요구한다. 그러나 조사표를 자기기입용으로 다시 쓰는 일은 통계청 자신의 권한 안에 있다. 입법 없이 내일이라도 착수할 수 있는, 거의 유일한 변수다.
다만 거기에는 청구서가 따라온다. 조사표를 자기기입용으로 다시 쓰면 모드효과로 응답 분포가 바뀐다. 그 순간 과거 시계열과의 비교가 흔들린다. 국가승인통계에서 시계열 단절은 작은 문제가 아니다. 미국도 ACS에 인터넷 응답을 도입할 때 수년간 병행조사로 모드효과를 측정하고 흡수했다. 자기기입용 재설계의 난도는 새 문항을 만드는 데 있는 게 아니라, 그 전환을 하면서 과거와의 비교 가능성을 어떻게 지키느냐에 있다.
다시 그린 결론
처음으로 돌아가자. 나는 미국이 이름과 연락처를 쥐고 있어서 push-to-web을 한다고 믿었다. 실제로는 주소만으로, 생일법으로 한 명을 골라 보내고 있었다. 그리고 한국은 등록센서스 덕분에 이미 그 주소를 갖고 있다. 승인조사라면 2배수 조사구로 충분한 주소를 받는다.
그래서 한국형 MAF를 새로 만들자던 예전의 내 결론은 과녁이 살짝 빗나가 있었다. 문제는 "인프라가 없다"가 아니다. 인프라는 거의 다 있다. 남은 것은 조사표를 자기기입에 맞게 다시 쓰는 일, 그리고 그 과정에서 생기는 모드효과와 시계열 단절을 관리하는 일이다.
표집틀 탓을 멈추고 조사표를 다시 보는 순간, 한국 통계조사의 웹 전환은 먼 제도 개혁의 이야기에서 당장 시작할 수 있는 설계의 이야기로 옮겨온다. 적어도 그 첫 페이지는 오늘 우리가 쥐고 있는 재료만으로도 넘길 수 있다.
댓글 없음:
댓글 쓰기