조사구 대신 한국형 MAF를 만들자: 통계조사 패러다임 전환을 위한 제언
조사구 대신 한국형 MAF를 만들자: 통계조사 패러다임 전환을 위한 제언
들어가며: 우리는 왜 아직 문을 두드리고 있나
매년 수십 개의 국가 승인 통계가 생산된다. 사회조사, 가계조사, 주거실태조사, 농림어업총조사…. 이 조사들은 하나같이 비슷한 방식으로 시작된다. 훈련받은 조사원이 지정된 구역을 찾아가고, 모르는 집의 초인종을 누르고, 때로는 여러 번 다시 찾아가며 응답을 구한다. 2025년, 스마트폰으로 주민등록을 갱신하고 병원 예약을 하는 나라에서.
왜 우리는 아직 문을 두드리고 있을까.
답은 간단하지 않다. 기술이 없어서가 아니다. 의지가 없어서도 아니다. 문제는 구조다. 정확히는 표집틀(Sampling Frame) 이라는 조사방법론의 가장 기초적인 개념에서 시작된다. 그리고 그 구조를 바꾸는 열쇠가 바로 우리가 이 글에서 이야기할 한국형 MAF(Master Address File) 다.
1. 표집틀이란 무엇이고, 왜 중요한가
통계조사에서 표집틀은 '누구를 뽑을 수 있는가'를 결정하는 모집단의 목록이다. 선거로 비유하면 유권자 명부다. 명부에 없는 사람은 애초에 선거에 참여할 수 없듯, 표집틀에 없는 가구는 조사 대상이 될 수 없다.
한국의 주요 국가 통계조사는 조사구(Enumeration District) 를 표집틀로 사용한다. 조사구는 전국을 약 60가구 규모의 지역 단위로 쪼갠 것이다. 통계청은 이 조사구를 1차로 뽑고, 현장에 조사원을 보내 그 안의 가구를 확인한 뒤 2차로 일부 가구를 표본으로 선정한다.
이 방식의 장점은 명확하다. 인터넷도 없고 전화번호도 모르는 가구까지 포함할 수 있고, 지역 단위로 층화(stratification)가 가능하다. 1950년대 이후 전 세계 대부분의 국가 통계가 이 방식으로 운영됐다.
그러나 결정적인 한계가 있다. 조사구는 지역 경계선일 뿐, 개별 가구의 연락처를 담고 있지 않다. 그래서 조사원이 직접 가야 한다. 가구를 확인하고, 목록을 만들고, 방문하고, 설득하고, 재방문하는 모든 과정이 사람의 발품을 전제로 설계되어 있다.
2. 미국은 어떻게 했나: MAF의 탄생과 진화
미국 인구조사국(Census Bureau)은 오래전부터 이 문제를 다른 방식으로 풀었다. MAF(Master Address File), 즉 주소 마스터 파일이다.
MAF는 미국 전역의 모든 거주지 주소를 통합한 데이터베이스다. 단순한 주소록이 아니다. 우편 배달 데이터(USPS), 건물 허가 정보, 지역 정부 기록 등을 지속적으로 연계해 '지금 실제로 사람이 살고 있는 주소'를 실시간에 가깝게 유지한다. 여기에 Title 13이라는 연방법이 뒷받침되어, 인구조사국은 다른 연방기관의 데이터를 통계 목적으로 활용할 수 있는 강력한 법적 권한을 갖는다.
이 MAF가 있기 때문에 미국의 미국지역사회조사(ACS)는 다음과 같은 방식이 가능하다. 표본으로 선정된 주소로 등기 우편을 발송한다. 우편 안에는 웹 응답 URL과 개인 고유 코드가 들어 있다. 응답자는 집에서 컴퓨터나 스마트폰으로 접속해 설문을 완성한다. 한 달이 지나도 응답이 없으면 종이 설문지를 다시 보낸다. 그래도 안 되면 전화, 그래도 안 되면 대면 방문이 따라온다.
결과적으로 ACS는 조사원이 직접 방문하지 않고도 전체 응답의 상당 부분을 웹과 우편으로 수집한다. 조사원 방문은 최후의 수단이다. 비용은 대폭 낮아지고, 응답자 편의는 높아지고, 응답 품질도 유지된다.
조사구 기반 한국 방식과의 차이는 단순히 '웹이냐 대면이냐'의 문제가 아니다. 표집 설계의 출발점 자체가 다르다. 한국은 지역 면적에서 시작하고, 미국은 주소에서 시작한다. 이 차이가 모든 것을 결정한다.
3. 한국의 조건: 재료는 이미 있다
흥미로운 사실이 있다. 기술적 관점에서 보면 한국은 MAF를 만들기에 미국보다 유리한 조건을 갖추고 있다.
미국이 MAF를 구축하기 위해 USPS와 수십 년에 걸쳐 협력 체계를 만들어야 했던 것과 달리, 한국에는 이미 개별 가구 단위의 행정 데이터가 여러 곳에 존재한다.
주민등록 주소(행정안전부) 는 전 국민의 거주지를 실시간으로 추적한다. 이사할 때마다 갱신이 의무화되어 있다. 건강보험 가입자 주소(국민건강보험공단) 는 사실상 전 국민을 커버한다. 도로명주소 전산 DB(행정안전부) 는 모든 건물과 호수를 디지털로 관리한다. 건축물대장(국토교통부) 은 용도, 층수, 가구 수까지 담고 있다.
이 네 가지를 연계하면 '지금 실제로 사람이 사는 주소 명부'는 이론적으로 내일이라도 만들 수 있다. 기술 개발 기간이 필요한 것이 아니다. 데이터는 이미 존재한다.
그렇다면 왜 안 되고 있는가.
4. 세 개의 벽: 법, 칸막이, 관성
첫 번째 벽은 법이다.
개인정보보호법은 정보 주체의 동의 없이 개인정보를 다른 목적으로 활용하는 것을 제한한다. 행안부가 주민등록 주소를 수집한 목적은 통계조사가 아니다. 따라서 통계청이 이를 활용하려면 별도의 법적 근거가 필요하다.
미국의 Title 13에 해당하는 조항이 현행 통계법에는 없다. 통계청이 다른 부처의 행정자료를 통계 목적으로 연계하는 것을 허용하는 규정은 일부 있지만, 강제성이 약하고 범위도 제한적이다. 진정한 한국형 MAF를 구축하려면 통계법 또는 별도 특별법 수준의 입법이 필요하다.
두 번째 벽은 부처 간 칸막이다.
행안부, 국토부, 복지부, 통계청은 각자의 데이터를 각자의 목적으로 관리한다. 부처 간 데이터 연계는 협력이 아니라 협상의 영역이다. 어느 부처가 주도권을 갖느냐, 데이터 품질 책임은 누가 지느냐, 보안 사고 발생 시 책임 소재는 어디냐 같은 문제들이 실무 협력을 어렵게 만든다.
이는 한국만의 문제가 아니다. 미국도 Census Bureau와 USPS의 데이터 협력 체계를 구축하는 데 수십 년이 걸렸다. 그러나 미국은 Title 13이라는 강제 규정이 있었다. 한국은 아직 그 수준의 제도적 기반이 없다.
세 번째 벽은 관성이다.
어떤 의미에서 이것이 가장 높은 벽일 수 있다. 조사구 방식은 70년 이상 운영되어 온 검증된 시스템이다. 그것을 기반으로 훈련된 조사원 네트워크가 있고, 설계된 조사표가 있고, 쌓인 시계열 데이터가 있다. 방식을 바꾸면 과거 데이터와의 비교 가능성이 흔들릴 수 있다는 우려도 있다.
무엇보다, 지금도 통계는 나오고 있다. 시급한 위기감이 없는 것이다. 패러다임 전환은 위기가 닥쳤을 때 일어나거나, 비전이 강력할 때 일어난다. 지금 한국 통계 인프라는 어느 쪽 압력도 충분하지 않은 상태다.
5. 비용 이야기: 사실 경제적 논리가 제일 강하다
여기서 잠깐 현실적인 이야기를 하자.
조사구 기반 대면 조사는 비싸다. 조사원 모집, 훈련, 현장 supervision, 재방문 비용, 그리고 조사원 인건비. 국가 주요 통계조사 하나를 수행하는 데 드는 비용은 억 단위를 쉽게 넘는다. 표본 규모가 수만 명에 달하는 사회조사 같은 경우는 더하다.
반면 MAF 기반 웹 우선 조사는 어떨까. 주소로 우편을 발송하는 비용, 웹 시스템 운영 비용, 무응답 가구에 대한 전화·방문 후속 비용. 미국 ACS의 경험에 따르면 웹 응답 1건의 비용은 대면 응답 1건 비용의 수분의 일에 불과하다. 전체 조사비용은 구조적으로 낮아진다.
물론 MAF 구축과 유지에도 비용이 든다. 그러나 이것은 일회성 투자가 아닌 인프라 투자다. MAF가 완성되면 그것을 활용하는 모든 조사에서 비용 절감 효과가 발생한다. 통계청의 수십 개 조사가 공통으로 혜택을 누린다.
장기적으로는 MAF 구축 비용을 조사비용 절감으로 충분히 상쇄할 수 있다는 것이 선진국들의 경험이다. 경제적 논리만으로도 한국형 MAF는 충분히 타당한 투자다.
6. 반론에 답하다
"조사구 주소로도 우편 발송이 가능하지 않나?"
조사구 기반 표집은 2단계다. 1단계에서 조사구를 뽑고, 2단계에서 그 안의 가구를 현장에서 확인한 후 표본을 선정한다. 조사구 경계는 알아도, '이 조사구 안에서 표본이 될 가구의 주소'는 현장 listing 작업 전까지 존재하지 않는다. 조사원이 가야 그 주소를 알 수 있다. 순서가 바뀌지 않는다.
"개인정보 침해 우려가 있지 않나?"
정당한 우려다. 그러나 MAF 자체는 통계 목적의 주소 명부이지 개인 식별 정보가 결합된 데이터베이스가 아니다. 미국 MAF도 이름, 성별, 소득 같은 개인정보는 담지 않는다. 주소라는 공간 정보만 관리한다. 법적 근거와 접근 통제를 제대로 설계하면 개인정보보호와 통계 목적 활용은 충분히 양립 가능하다.
"시계열 비교가 깨지는 문제는?"
실제로 중요한 방법론적 문제다. 수집 방식이 바뀌면 응답 패턴도 바뀌고, 과거 데이터와의 단절이 생길 수 있다. 그러나 이것은 전환을 하지 말자는 이유가 아니라, 전환을 어떻게 설계하느냐의 문제다. 미국도 ACS에 인터넷 응답을 도입할 때 수년간의 병행 테스트와 모드 효과(mode effect) 연구를 거쳤다. 급진적 전환이 아닌 점진적 전환이 답이다.
7. 어떻게 시작할 것인가: 단계적 로드맵
한국형 MAF는 하루아침에 만들어질 수 없다. 그러나 시작할 수는 있다.
1단계 (1~2년): 파일럿 연구와 법적 기반 마련
통계청이 주도해 행안부, 국토부, 건보공단의 주소 데이터를 연계한 시범 명부를 구축한다. 실제 통계조사 한두 개를 대상으로 기존 조사구 방식과 병행 테스트를 실시한다. 이 과정에서 데이터 품질, 커버리지, 연계 오류율 등을 점검한다. 동시에 통계법 개정 또는 특별법 제정을 위한 법률 검토를 시작한다.
2단계 (3~5년): 제도화와 확대
시범 연구 결과를 바탕으로 법적 근거를 마련하고, 부처 간 데이터 연계 협력 체계를 제도화한다. MAF를 활용한 웹 우선 조사를 일부 조사에 공식 도입하고, 조사원 역할을 점진적으로 재정의한다. 조사원은 현장 listing 담당에서 무응답 추적·디지털 취약 계층 지원으로 역할이 전환된다.
3단계 (5년 이후): 전면 전환
MAF가 모든 주요 통계조사의 공식 표집틀이 된다. 조사구는 지리적 층화 변수로만 활용된다. 웹·우편이 1차 수단이 되고, 전화·대면은 보완 수단이 된다.
맺으며: 패러다임 전환은 인프라에서 시작된다
통계조사 방법론의 역사는 인프라의 역사다. 전화가 보급되자 전화 조사가 생겨났고, 인터넷이 보급되자 웹 조사가 등장했다. 지금 우리는 데이터 인프라의 대전환기에 서 있다. 행정 데이터, 공공 데이터, 민간 데이터가 빠르게 디지털화되고 연계되고 있다.
한국형 MAF는 단순히 조사 방식 하나를 바꾸는 것이 아니다. 국가 통계 인프라의 기초를 다시 놓는 작업이다. 조사구라는 70년 된 표집틀에서 주소 명부라는 새로운 표집틀로의 전환, 조사원 중심에서 응답자 편의 중심으로의 전환, 일회성 현장 작업에서 지속 갱신 데이터베이스로의 전환.
기술은 준비되어 있다. 재료도 있다. 남은 것은 결단이다.
문을 두드리는 방식으로 20세기를 보낸 우리 통계가, 21세기의 방식으로 나아갈 준비가 되어 있는지 묻고 싶다.
댓글
댓글 쓰기