한국에 잠든 ABS 프레임 — 선거인명부, 풀리면 이렇게 쓸 수 있다
KGSS 방법론 보고서를 들추다 보면 한 가지 풍경이 매번 반복된다. 통계청 인구주택총조사 조사구를 1차 추출 단위로 삼고, 추출된 조사구에 면접원이 직접 들어가 가구를 접촉하고, 그 안에서 다시 한 명을 골라낸다. 다단계 지역확률표집의 정석이다. 동시에 면접원 인건비, 접촉 실패, 부재중 재방문, 그리고 해마다 떨어지는 응답률이라는 익숙한 부담을 함께 짊어지는 설계이기도 하다.
미국이 같은 자리에서 빠져나간 길이 ABS, 즉 Address-Based Sampling이다. USPS의 Delivery Sequence File을 베이스로 가구 단위 주소 프레임을 만들고, 거기에 등기 발송 invitation을 띄워 웹조사로 끌어들인다. 면접원을 거치지 않고도 확률표본을 유지하는 방식. Pew, GSS의 web push, AmeriSpeak의 충원까지 — 지난 십여 년 간 미국 사회조사가 비용 폭증과 응답률 추락 사이에서 찾아낸 절충점이다.
문제는 한국에 USPS 같은 통합 주소 파일이 없다는 게 아니다. 더 좋은 게 있다. 다만 잠겨 있을 뿐이다.
선거인명부라는 잠든 프레임
선거인명부는 만 18세 이상 대한민국 국민 전수를 담는다. 가구가 아니라 개인 단위다. 이름, 도로명주소, 생년월일이 갖춰져 있고, 행정안전부 주민등록 데이터를 모집단으로 삼아 선거 시기마다 갱신된다. 형식적 요건만 보면 사회조사용 표집틀로서 거의 흠잡을 데가 없다.
물론 한계도 분명하다. 층화에 쓸 만한 변수는 지역·성·연령 셋뿐이다. 학력도, 직업도, 소득도 없다. 미국 Voter File이 상업적 augmentation을 거쳐 정당지지·소비행태·인종 추정치까지 붙이며 풍부한 층화 변수를 갖게 된 것과는 정반대 방향이다. 하지만 사회조사의 표준 가중 셀이 결국 지역×성×연령으로 떨어지는 현실을 생각하면, 이 정도면 ABS의 출발점으로 충분하다. 모자라는 변수는 응답 단계에서 회수하면 된다.
풀리면 이렇게 쓸 수 있다
설계는 어렵지 않다. 선거인명부에서 지역×성×연령 셀별로 무작위 추출한다. 추출된 표본에게 등기우편으로 invitation letter를 발송한다. "○○○님께"로 시작하는 개인화된 편지, 조사 목적과 소요 시간을 분명히 적은 한 페이지짜리 안내문, QR코드와 짧은 URL, 모바일 웹서베이 링크. 응답 인센티브로 편의점 모바일 상품권을 걸고, 2주 뒤 미응답자에게 reminder를 보낸다. 필요하다면 SMS나 전화로 후속 접촉 단계를 추가하는 mixed-mode 설계도 가능하다.
숫자로 가늠해 보자. 등기우편 한 통은 인쇄·봉투·발송까지 합쳐 통당 4천 원 안팎이다. 1만 명에게 발송한다고 해도 우편 비용은 4천만 원 수준. 면접원이 가구를 직접 방문해 1,000명 표본을 채우는 KGSS급 조사의 인건비와 비교하면 자릿수가 다르다. 응답률은 미국 ABS-to-web 조사 사례를 참고하면 인센티브 설계와 reminder 횟수에 따라 10~25% 사이에서 형성된다. 한국 수신자의 등기 개봉률과 모바일 친화도를 감안하면 그 상단 — 20% 전후 — 을 기대해 볼 만하다. 1만 명 발송으로 2,000명 표본을 확보하는 셈이다. 같은 표본을 면접조사로 채우려면 들여야 할 자원과 시간을 떠올리면, 이 비교는 더 노골적으로 갈린다.
이 설계가 한국에서 작동할 조건은 이미 갖춰져 있다. 도로명주소 시스템은 성숙했고, 스마트폰 보급률은 사실상 천장에 닿았으며, 모바일 웹서베이 인프라는 통신사 기반으로 충분히 검증됐다. 등기우편에 대한 신뢰는 여전히 높고, "님께"라는 호명이 가지는 무게도 한국 수신자에게는 결코 가볍지 않다. 면접원 한 명이 가구 한 곳을 두세 번 방문하는 비용과, 등기 한 통의 비용을 비교하면 셈은 더 분명해진다.
장기적으로는 이 프레임이 가지는 또 다른 가치가 있다. 표본을 무작위로 뽑되 invitation을 받은 사람들 중 일부를 패널로 충원하는 설계 — 미국 NORC가 AmeriSpeak에서 쓰는 방식 — 도 같은 토대 위에 얹을 수 있다. 확률표본 기반의 온라인 패널을 한국에서도 마침내 만들 수 있다는 뜻이다. 지금까지 한국의 온라인 패널이 모두 비확률 옵트인이었다는 사실을, 우리는 너무 오래 자연스럽게 받아들여 왔다. 학술조사뿐 아니라 정부 통계, 정책 평가, 그리고 더 정직한 여론조사가 모두 이 토대 위에서 다시 그려질 수 있다.
물론 ABS-to-web 단일 모드만으로 모든 조사를 대체하자는 이야기는 아니다. 노년층, 디지털 접근성이 낮은 응답자, 긴 설문이 필요한 심층조사는 여전히 면접 모드가 더 적합하다. 핵심은 한국 사회조사가 지금 사실상 면접조사 외에는 확률표본 옵션을 못 가진 상태라는 점이다. 도구상자에 도구가 하나뿐이면 모든 못이 같은 망치를 부른다. 선거인명부 기반 ABS는 그 도구상자에 한 자리를 추가하는 일이다.
잠겨 있는 이유, 그리고 풀릴 수 있는 길
문제는 법이다. 공직선거법은 선거인명부를 선거 목적으로만 작성·이용하도록 한정한다. 학술 사회조사가 받아쓰는 경로는 열려 있지 않고, 출구조사 기관이 협조받는 것조차 매번 법적 근거를 따져야 한다. KGSS, 한국복지패널, 청소년패널이 다들 조사구 기반 설계를 고집하는 건 더 좋은 프레임이 없어서가 아니다. 있어도 못 쓰기 때문이다.
풀릴 수 있는 길이 아주 막혀 있는 것은 아니다. 통계법상 통계작성지정기관에 한해 익명화된 셀 단위로 표본추출 협조를 받는 방식, 행정안전부가 주민등록 데이터를 통계 목적 표집틀로 별도 가공해 제공하는 방식, 혹은 선관위가 학술 IRB 승인 조건 하에 제한적으로 표본을 추출해 우편 발송만 대행하는 방식 — 외국에서 작동하는 모델은 여럿 있다. 응답자 본인은 자신의 정보가 어떻게 표집에 쓰였는지 invitation letter를 통해 명시적으로 고지받고, 참여 여부를 선택할 수 있다. 사생활 보호와 사회조사의 공익성 사이에서 균형점을 찾는 일은 이미 다른 나라들이 한 세대에 걸쳐 다듬어 온 의제다. 한국이 새로 발명해야 할 문제가 아니다.
미국이 ABS로 넘어간 것 자체가 USPS와의 협력, 그리고 인구센서스 프레임 정비라는 행정 인프라의 결과였다는 점을 떠올리면, 한국이 가진 토대는 오히려 더 단단하다. 다만 그 토대를 사회조사가 사용할 수 있도록 허용하는 합의가 아직 만들어지지 않았을 뿐이다.
잠든 자원을 깨우는 일
표본조사를 오래 하다 보면, 좋은 프레임이 얼마나 귀한 것인지 매번 실감하게 된다. 우리는 지금 그 귀한 자원을 가진 채로, 면접원을 조사구에 들여보내고 있다. 미국이 부러워할 만한 인프라를 손에 쥔 채 미국식 다단계 표집의 비용을 치르고 있는 셈이다.
언젠가 이 자물쇠가 풀리는 날이 온다면, 한국 사회조사는 한 세대 만에 한 번 있을 도약을 맞을 것이다. 그날을 기다리며 설계도만이라도 미리 그려두는 것은, 방법론 하는 사람의 작은 의무가 아닐까 싶다.
댓글 없음:
댓글 쓰기