표본조사 실무를 하다 보면 "이건 집락이에요, 층화예요?"라는 질문을 자주 받는다. 두 개념이 헷갈리는 데는 이유가 있다. 둘 다 모집단을 부분집단으로 쪼개는 작업이고, 실제 조사에서는 거의 항상 같이 쓰이기 때문이다. 그런데 역할은 정반대다. 작동 방식이 다르고, 표본 효율에 미치는 영향도 반대 방향이다.
층화는 "모든 칸에서 다 뽑기"
층화(stratification)는 모집단을 나누는 변수다. 전국 성인 1,000명 조사를 한다고 하자. 시도·성별·연령대로 모집단을 칸으로 쪼개고, 각 칸에 표본을 배분한다. 서울 20대 남자 30명, 서울 20대 여자 30명, 서울 30대 남자 35명…. 이런 식이다. 어떤 칸도 빠지지 않는다. 모든 칸에서 정해진 인원을 뽑는다.
같은 칸 안에 들어가는 사람들이 비슷할수록(층 내 동질성↑) 표본의 분산이 줄어든다. 그 결과 단순임의추출보다 더 정확한 추정이 가능하다. 설계효과(deff)로 표현하면 deff < 1, 즉 표본 효율이 올라간다.
공무원 조사 예를 들어보자.
부처별로 인원에 비례해 표본 배분
직급(5급 이상 / 6~7급 / 8~9급)별로 다시 배분
부처×직급 칸마다 정해진 인원을 뽑음
이게 층화다. 칸을 빠뜨리지 않고 모든 칸에서 뽑는다는 것이 중요하다.
집락은 "일부 묶음만 뽑아서 그 안만 조사"
집락(cluster)은 모집단을 묶는 단위다. 가구조사를 생각해보자. 전국 모든 가구의 명부가 있다면 거기서 1,000가구를 임의로 뽑으면 된다. 그런데 그런 명부는 외부 조사기관이 통상 확보할 수 없다. 그래서 조사원이 현장에서 접근할 수 있는 지리적 단위, 곧 조사구를 먼저 뽑는다. 전국 조사구 중 200개를 뽑고, 뽑힌 조사구 각각에서 5가구씩 조사한다. 안 뽑힌 조사구의 가구들은 통째로 빠진다.
이게 집락이다. 묶음 중 일부만 뽑아서 그 안만 들여다본다. 한 조사구 안의 가구들은 같은 동네에 살기 때문에 소득 수준이나 생활양식이 유사한 경향이 있다(집락내 상관, ICC). 응답이 유사할수록 표본의 분산은 커진다. 같은 표본 크기여도 단순임의추출보다 추정치가 덜 정확하다. deff > 1, 즉 표본 효율이 떨어진다.
공무원 조사 예로 옮겨오면 이렇다.
100개 본부 중 20개 본부를 뽑음
뽑힌 20개 본부에서 각각 10명씩 조사
안 뽑힌 80개 본부 사람들은 조사 대상에서 빠짐
이게 집락추출이다. 같은 본부 사람들은 업무·상사·조직문화를 공유하기 때문에 응답이 비슷해질 가능성이 크다.
효율이 반대 방향으로 가는 이유
층화와 집락이 표본 분산에 미치는 영향은 정반대다.
층화는 칸 안이 동질적일수록 좋다. 칸 안이 비슷하면 적은 표본으로도 그 칸을 잘 대표할 수 있기 때문이다. 그래서 deff < 1.
집락은 묶음 안이 이질적일수록 좋다. 묶음 안이 다양하면 그 묶음만으로도 모집단의 다양성이 반영되기 때문이다. 그런데 현실의 집락은 대부분 동질적이다. 같은 조사구의 가구들은 비슷한 동네 가구들이고, 같은 본부 직원들은 비슷한 일을 한다. 그래서 deff > 1.
층화는 표본 분산을 줄이려고 쓰는 장치고, 집락은 비용 문제(현장 접근, 표집틀 확보) 때문에 분산 손해를 감수하고 쓰는 장치다. 목적 자체가 다르다.
같은 변수가 다르게 쓰일 수 있다
부처라는 변수를 보자. 부처를 어떻게 활용하느냐에 따라 역할이 갈린다.
모든 부처에서 인원에 맞춰 다 뽑으면: 층화 변수
일부 부처만 뽑아서 그 안에서 조사하면: 집락 단위
조사구도 마찬가지다. 통상 조사구는 집락으로 쓰이지만, 만약 모든 조사구에서 한두 가구씩 뽑는 설계라면(현실적으로는 거의 하지 않지만) 층화에 가까운 성격을 갖게 된다.
같은 변수도 "모든 칸에서 다 뽑느냐"와 "일부 묶음만 뽑느냐"에 따라 층화로도, 집락으로도 작동할 수 있다.
실무에서는 같이 쓴다
한국 가구조사 설계서를 보면 "층화 2단계 집락추출"이라는 표현이 흔히 등장한다. 한 설계 안에서 둘 다 쓰인다는 뜻이다.
층화: 시도 × 동읍면 구분으로 모집단을 칸으로 나눔
1차 추출(집락): 각 층 안에서 조사구를 PPS로 뽑음
2차 추출: 뽑힌 조사구 안에서 가구를 계통추출
층화로 표본 대표성을 확보하고, 집락으로 현장 비용을 절감한다. 두 장치는 경쟁 관계가 아니라 보완 관계다.
자주 하는 오해
"층화는 눈에 안 보이고 집락은 지리적이라 눈에 보인다"는 식의 구분은 정확하지 않다. 층화에 쓰이는 변수도 모두 관찰 가능한 정보다. 시도, 성별, 연령, 직급은 다 명부에 있는 값이다.
더 안전한 구분은 이거다.
층화: 모집단을 칸으로 나누고, 모든 칸에서 다 뽑는다
집락: 모집단을 묶음으로 만들고, 일부 묶음만 뽑아서 그 안만 조사한다
표본설계 문서를 읽을 때 "층화 변수"라고 적혀 있으면 칸을 만든 기준이고, "추출단위"나 "집락"이라고 적혀 있으면 묶어서 일부만 뽑은 단위다. 이 구분이 잡혀 있으면 어떤 조사 설계서를 봐도 구조가 보인다.
댓글 없음:
댓글 쓰기