중간 보기가 없는 2점이나 4점의 경우는 긍정비율(찬성, 만족 등)을 가지고 주로 분석을 한다. 그러나 중간 보기가 있는 3점이나 (특히) 5점의 경우 긍정비율보다는 평균값(3점 or 5점 만점, 아니면 이를 100점으로 환산)을 많이 활용한다. 왜 일까? 아마도 중간 보기의 해석이 어려워서일거다. 그러나 최근에 통계청 2018 사회조사 결과를 보면서 5점 척도의 경우 평균값을 활용하지 않는다는 것을 알게 되었다. 심지어 평균값 자체를 산출하지 않는다고 했다. 척도 간 등간성이 확실하지 않은 상황에서 평균을 내는 것은 결과치를 왜곡할 수 있다는 이유에서였다. 물론 1점에서 5점 사이의 주관식 값으로 응답을 받은 거라면 평균을 낼 것이라고 했다. (이 기회에 저의 취재(?)를 응해주신 사회조사 담당 통계청 직원분께 감사의 말씀을...^^) 사실 10여년 간 5점 척도를 활용한 문항을 분석할 때 비율을 쓸지 평균을 쓸지 고민을 많이 했었다. 물론 선배 리서처들의 보고서에서 대부분 평균을 활용했길래 그걸 따라했었다. 그러나 오늘부터는 평균과 이별해야겠다.
서론: 시간의 흐름 속 ‘스냅샷’으로 정책 효과 측정하기, 횡단조사와 이중차분법(DID) 어떤 정책이 시행된 후, 그 효과를 과학적으로 측정하고 싶다고 가정해 봅시다. 가장 이상적인 방법은 정책의 영향을 받은 사람들과 받지 않은 사람들을 수년간 추적하는 종단조사(패널조사)를 실시하는 것입니다. 하지만 이는 막대한 비용과 시간이 소요되어 현실적으로 불가능한 경우가 많습니다. 그렇다면 우리에게 주어진 것이 특정 정책 시행 **‘전(before)’**과 **‘후(after)’**에 각각 실시된, 서로 다른 사람들을 대상으로 한 두 번의 횡단 웹서베이 데이터뿐이라면 어떨까요? 마치 특정 장소의 풍경을 다른 시간대에 찍은 두 장의 ‘스냅샷 사진’만 가지고 그곳에서 일어난 ‘변화의 원인’을 추론해야 하는 상황과 같습니다. 바로 이러한 제약 속에서 정책의 순수한 효과를 분리해내는 통계적 현미경이 바로 ‘이중차분법(DID)’입니다. 1. 분석을 위한 준비물: 필요한 데이터의 구조와 요건 횡단조사 데이터로 DID 분석을 수행하기 위해서는, 단순히 두 시점의 데이터가 있는 것만으로는 부족합니다. 다음과 같은 데이터 구조가 반드시 필요합니다. 두 개 이상의 횡단조사 데이터 : 정책 시행 전 과 후 , 최소 두 번의 조사가 필요합니다. 물론, 정책 시행 전 여러 시점의 데이터가 있다면 분석의 신뢰도는 훨씬 더 높아집니다. 동일한 표집틀과 모집단 : 각 시점의 조사는 동일한 모집단(예: 대한민국 성인)을 대상으로, 일관된 표집틀(예: 휴대전화 가상번호)을 사용하여 수행되어야 합니다. 처치집단(Treatment Group)과 통제집단(Control Group)의 구분 : 조사 데이터 내에, 정책의 영향을 받은 ‘처치집단’과 받지 않은 ‘통제집단’을 명확하게 구분할 수 있는 변수가 있어야 합니다. 예를 들어, ‘서울시’에만 특정 청년수당 정책이 도입되었다면, ‘거주 지역’ 변수를 통해 서울 거주자는 처치집단, 그 외 지역 거주자는 통제집단으로 나눌 수 있습니다. 일관된 결과변...
서론: 표본을 ‘유권자 전체’로 만드는 마법, 가중치와 두 가지 해법 선거여론조사는 보통 1,000여 명의 표본을 통해 수천만 명에 달하는 전체 유권자의 민심을 추정하는 작업입니다. 하지만 우리가 무작위로 추출한 1,000명의 인구통계학적 특성(성별, 연령, 지역 등)은 실제 유권자 전체의 구성비와 정확히 일치하지 않을 가능성이 높습니다. 예를 들어, 조사에 더 적극적인 60대 이상 응답자가 20대 응답자보다 더 많이 표집될 수 있습니다. 이때, 각 응답자에게 특정 ‘가중값’을 부여하여, 표본 내 각 그룹의 비율을 실제 유권자 비율과 동일하게 인위적으로 조정하는 과정을 **‘가중치 부여(Weighting)’**라고 합니다. 이는 마치 사진의 색감을 실제 풍경과 똑같이 맞추는 ‘색 보정’ 작업과 같습니다. 이 중요한 보정 작업을 수행하는 대표적인 두 가지 기법이 바로 셀 가중과 림 가중이며, 두 기법은 서로 다른 철학과 장단점을 가집니다. 1. 가장 직관적인 저울, 셀 가중(Cell Weighting)의 원리와 한계 셀 가중은 가장 이해하기 쉽고 직관적인 가중치 부여 방식입니다. 가중치를 부여하려는 모든 변수들을 동시에 교차시켜 다차원의 ‘셀(Cell)’을 만들고, 각 셀의 표본 비율을 모집단 비율과 일치시키는 방법입니다. 원리 : 한국 선거조사의 표준인 ‘성별-연령-지역’ 3가지 변수로 가중치를 준다고 가정해 봅시다. 셀 가중은 이 3가지 변수를 모두 결합한 ‘남자-20대-서울’, ‘여자-50대-경기/인천’과 같은 매우 구체적인 셀을 만듭니다. 그리고 각 셀마다 [실제 유권자 구성비(%)] / [표본 내 구성비(%)] 공식을 적용하여 가중값을 계산합니다. 예를 들어, 실제 ‘남자-20대-서울’ 유권자가 전체의 3%인데, 우리 표본에서는 2%만 차지했다면, 이 셀에 속한 모든 응답자에게는 3 / 2 = 1.5 의 가중치가 부여됩니다. 장점 : 원리가 명확하고, 각 셀의 인구 구성비를 정확히 알고 있으며, 셀마다 충분한 표본 수가 확보된다면 이론적으로...
댓글
댓글 쓰기