모집단과 표집틀: 25개 질문과 대답

Q28. 모집단은 누가 정의하는가? 연구자가 정의한다. 그리고 그 정의는 항상 선택의 결과다. '전국 성인'으로 할지, '만 18세 이상'으로 할지, '스마트폰 보유자'로 한정할지 — 이 결정이 이후 모든 설계를 규정한다. 모집단 정의가 느슨하면 표집틀도 가중치도 흔들린다. 조사의 첫 번째 결정이자 가장 중요한 결정이다.

Q29. '전국 만 18세 이상 성인'이라는 모집단 정의는 정확한가? 관행적으로 쓰이지만 허점이 많다. 외국인은 포함인가? 시설 거주자는? 노숙인은? 군인은? '성인'이라는 말도 법적 기준과 조사 기준이 다를 수 있다. 대부분의 조사는 이 질문을 그냥 넘긴다. 하지만 넘기는 순간 커버리지 오차가 조용히 쌓이기 시작한다.

Q30. 표집틀과 모집단이 일치하는 경우가 있는가? 현실에서는 거의 없다. 표집틀은 모집단의 근사치일 뿐이다. 전화번호부는 전화가 없는 사람을 빠뜨리고, 온라인 패널은 인터넷을 쓰지 않는 사람을 빠뜨린다. 일치에 가장 가까운 것은 주민등록부이지만, 이것도 사망 미신고, 장기 해외 체류자 등의 문제가 있다. 완전한 일치는 이상에 가깝다.

Q31. 한국에서 가장 좋은 표집틀은 무엇인가? 목적에 따라 다르다. 전화조사라면 무선전화 가상번호(RDD)가 현재 가장 넓은 커버리지를 갖는다. 온라인 조사라면 대형 패널이지만 자발적 참여 편향이 있다. 이론적으로 가장 우수한 것은 주민등록부 기반 주소 표집틀이지만 접근이 제한적이다. 완벽한 표집틀은 없고, 차선을 선택하는 것이 현실이다.

Q32. RDD(무작위전화걸기)의 표집틀은 무엇인가? 전화번호 공간 전체다. 존재하는 번호와 존재하지 않는 번호를 포함한 모든 가능한 번호 조합에서 무작위로 추출한다. 덕분에 전화번호부에 없는 번호도 커버할 수 있다. 하지만 전화를 아예 쓰지 않는 사람, 수신 거부를 설정한 사람은 커버하지 못한다. RDD도 완전하지 않다.

Q33. 온라인 패널의 표집틀 문제는 무엇인가? 패널에 등록된 사람들만 표집 대상이 된다는 것이다. 패널 가입은 자발적 행위이므로, 특정 성향(디지털 친화적, 설문 관심 있는, 인센티브 민감한)의 사람들이 과대 대표된다. 이것은 커버리지 오차가 아니라 자기선택 편향이다. 가중치로 일부 보정할 수 있지만 근본적 한계는 남는다.

Q34. 주민등록부를 표집틀로 쓸 수 있는가? 원칙적으로는 가능하지만 접근이 매우 제한적이다. 공공기관의 공익적 조사에는 허용되는 경우가 있으나, 민간 조사기관은 직접 접근할 수 없다. 이론적으로는 가장 포괄적인 표집틀이지만, 개인정보 보호법 강화 이후 활용 가능성은 더 좁아졌다. 한국 서베이 방법론의 구조적 한계 중 하나다.

Q35. 미국의 MAF(마스터주소파일)는 왜 한국에 없는가? MAF는 미국 인구센서스국이 관리하는 전국 주소 데이터베이스로, 주소 기반 표집의 근간이 된다. 한국은 주소 데이터가 여러 기관에 분산되어 있고, 통합 관리 체계가 없다. 행정안전부의 도로명주소 DB가 가장 가깝지만 조사 목적으로의 개방은 제한적이다. 표집틀 인프라에 대한 사회적 투자가 부족한 결과다.

Q36. 커버리지 오차와 표집 오차는 어떻게 다른가? 커버리지 오차는 표집틀이 모집단을 제대로 포함하지 못해 생기는 오차다. 처음부터 특정 집단이 조사 대상에서 빠진다. 표집 오차는 표집틀 안에서 표본을 뽑는 과정의 우연적 변동이다. 커버리지 오차는 n을 늘려도 해결되지 않는다. 처음부터 없는 사람은 아무리 많이 뽑아도 나오지 않는다.

Q37. 표집틀 오차는 어떻게 측정하는가? 직접 측정하기 어렵다. 표집틀에서 빠진 사람들의 특성을 알려면 그들을 조사해야 하는데, 표집틀에 없으니 접근할 수 없다. 간접적으로는 다른 출처의 인구 데이터와 비교하거나, 다른 표집틀을 사용한 조사 결과와 비교한다. 표집틀 오차는 눈에 보이지 않는 오차이기 때문에 더 위험하다.

Q38. 온라인 조사에서 노인은 왜 문제인가? 인터넷 이용률이 낮기 때문이다. 70대 이상은 스마트폰을 사용해도 설문 참여 경험이 적고, 온라인 패널 등록 비율도 낮다. 결과적으로 온라인 조사는 구조적으로 고령층을 과소 대표한다. 가중치로 수치를 맞출 수는 있지만, 실제로 응답한 노인이 전체 노인을 대표하는지는 별개 문제다.

Q39. 스마트폰 보급률이 높아지면 온라인 조사 커버리지 문제가 해결되는가? 부분적으로만 해결된다. 기기 보유와 설문 참여는 다른 문제다. 스마트폰이 있어도 온라인 패널에 가입하지 않으면 조사 대상이 되지 않는다. 또한 디지털 리터러시, 언어 장벽, 신뢰 부족 등 참여를 막는 다른 요인들이 남아 있다. 기기 보급은 필요조건이지 충분조건이 아니다.

Q40. 특정 집단을 의도적으로 제외하는 것은 허용되는가? 조사 목적에 따라 다르다. '서울 거주 20~40대'를 대상으로 한 조사라면 나머지 집단을 제외하는 것은 설계의 일부다. 문제는 포괄적 조사라고 표방하면서 특정 집단을 편의상 제외할 때다. 제외의 근거를 명시하지 않으면 커버리지 오차가 되고, 결과 해석의 범위도 좁아진다.

Q41. B2B 조사에서 모집단 정의는 왜 어려운가? 기업은 개인과 달리 경계가 모호하다. 어떤 기업을 포함할지(규모, 업종, 설립연도), 기업 내 누구에게 물을지(대표, 실무자, 구매담당자)가 모두 결정되어야 한다. 그리고 기업 목록 자체가 공개된 표집틀로 존재하지 않는 경우가 많다. B2B 조사의 대표성 문제는 B2C보다 훨씬 심각하다.

Q42. 희귀집단(rare population) 조사는 어떻게 접근해야 하는가? 일반 확률표집으로는 충분한 사례를 확보하기 어렵다. 스크리닝을 통해 대상자를 걸러내거나, 해당 집단이 모이는 장소·커뮤니티를 통한 표적 표집을 쓴다. 눈덩이 표집(snowball sampling)도 자주 쓰이지만 자기선택 편향이 크다. 희귀집단 조사에서는 대표성보다 접근 가능성이 현실적 제약이 된다.

Q43. 할당표집은 확률표집인가? 아니다. 할당표집은 인구통계 구조를 맞추지만 개별 선정 과정에서 무작위성이 없다. 조사원이나 시스템이 편의에 따라 응답자를 선택한다. 확률표집의 외양을 갖추지만 통계적 추론의 전제(무작위 선정)를 충족하지 못한다. 한국 여론조사의 대부분이 할당표집이면서 표집오차를 제시하는 것은 이 점에서 문제가 있다.

Q44. 층화표집이 단순무작위표집보다 항상 좋은가? 관심 변수와 관련된 층화 변수를 잘 선택했을 때만 그렇다. 층화는 각 층 내 동질성을 높여 추정 효율을 개선한다. 하지만 층화 변수가 결과 변수와 무관하면 효율 향상이 없다. 그리고 층화가 복잡해질수록 설계 효과(design effect) 관리도 어려워진다. 무조건 정교한 층화가 답은 아니다.

Q45. 군집표집의 최대 약점은 무엇인가? 같은 군집 내 응답자들이 서로 비슷하다는 것이다. 같은 학교, 같은 지역, 같은 직장 사람들은 유사한 특성을 공유한다. 이것이 설계 효과를 키운다. 즉, 같은 n이라도 군집표집의 실질적 정밀도는 단순무작위표집보다 낮다. 비용 절감을 위해 군집표집을 쓰면 정밀도를 포기하는 것이다.

Q46. 패널조사의 대표성 문제는 해결 가능한가? 완전히 해결하기는 어렵다. 자발적 가입, 장기 참여에 따른 패널 효과, 탈락으로 인한 구성 변화 등 구조적 편향이 있다. 가중치와 리프레시 표본(신규 패널 충원)으로 어느 정도 보정할 수 있지만 근본적 한계는 남는다. 패널 조사의 대표성은 달성 목표가 아니라 지속적 관리 대상이다.

Q47. 복수 패널을 병합하면 대표성이 좋아지는가? 반드시 그렇지는 않다. 각 패널의 편향이 서로 다른 방향이라면 병합이 균형을 만들 수 있다. 하지만 편향의 방향이 같다면 규모만 커지고 편향은 그대로다. 또한 패널 간 중복 가입자 문제, 패널별 응답 성향 차이도 고려해야 한다. 병합은 커버리지를 넓히는 도구이지 대표성을 보장하는 도구가 아니다.

Q48. 표본 크기가 클수록 좋은 조사인가? 표집오차 측면에서는 그렇다. 하지만 n이 크다고 다른 오차가 사라지지 않는다. 편향된 표집틀, 유도 질문, 불성실 응답 — 이런 문제는 n=10,000이어도 해결되지 않는다. 오히려 대규모 조사는 현장 관리가 어려워 처리 오차가 커질 수 있다. n은 표집오차 하나만 줄인다.

Q49. n=100과 n=1,000의 실질적 차이는 무엇인가? 표집오차로 보면 크다. n=100이면 ±9.8%p, n=1,000이면 ±3.1%p(95% 신뢰수준, 최대 표집오차 기준)다. 하지만 서브그룹 분석이 필요하다면 n=1,000도 작을 수 있다. 지역별, 연령대별로 쪼개면 각 셀의 n이 급격히 줄어든다. 조사 목적에 맞는 최소 n을 먼저 계산하는 것이 순서다.

Q50. 패널 피로(panel fatigue)는 데이터 품질에 어떤 영향을 미치는가? 응답 품질을 떨어뜨린다. 반복 참여에 지친 패널 응답자는 질문을 꼼꼼히 읽지 않고, 중립 응답이나 극단 응답을 늘리며, 직선 응답(straight-lining)을 한다. 또한 패널 참여 경험이 많을수록 '올바른 답'을 학습해 응답이 실제 태도와 달라질 수 있다. 장기 패널일수록 이 문제는 심각해진다.

Q51. 할당 기준이 많을수록 대표성이 높아지는가? 반드시 그렇지 않다. 할당 변수가 많아지면 각 셀의 목표 n이 작아져 현장 조달이 어려워지고, 임의 선정 압력이 높아진다. 또한 많은 변수를 동시에 통제한다고 해서 통제하지 않은 변수의 편향이 사라지지 않는다. 대표성은 할당 변수의 수가 아니라 핵심 변수와의 관련성으로 판단해야 한다.

Q52. 표본 설계서는 왜 필요한가? 조사의 설계 근거를 명시하고, 재현 가능성을 확보하기 위해서다. 누가 표본을 어떻게 뽑았는지, 할당 기준은 무엇인지, 가중치는 어떻게 산출했는지가 기록되지 않으면 결과를 검증할 수 없다. 표본 설계서는 방법론 투명성의 기본이다. 이것이 없는 조사는 결과를 신뢰하라고 요구할 자격이 없다.

댓글

이 블로그의 인기 게시물

5점 척도 분석 시 (환산) 평균값이 최상일까?

이중차분법(DID)과 평행추세가정: 횡단 데이터로 정책 효과 측정하기

선거 여론조사 가중치 분석: 셀 가중 vs 림 가중, 무엇이 더 나은가?