분석과 해석: 24개 질문과 대답
Q207. 기술통계와 추론통계를 혼동하면 어떤 문제가 생기는가? 기술통계는 수집된 데이터 자체를 요약하고, 추론통계는 표본에서 모집단을 추정한다. 혼동하면 표본의 특성을 모집단의 사실인 양 단정하거나, 반대로 추론이 필요한 상황에서 기술통계만으로 결론을 내린다. 가장 흔한 오류는 표본 내 차이를 통계적 검정 없이 모집단 차이로 서술하는 것이다. "20대의 47%가 찬성했다"는 기술이고, "20대는 찬성하는 경향이 있다"는 추론이다. 이 두 문장이 다르다는 것을 모르면 분석 전체가 흔들린다.
Q208. 교차분석에서 무엇을 봐야 하는가? 단순히 셀 비율만 볼 것이 아니라 세 가지를 함께 봐야 한다. 첫째, 집단 간 차이의 방향과 크기. 둘째, 그 차이가 통계적으로 유의한지. 셋째, 셀 빈도가 검정에 충분한지다. 카이제곱 유의확률만 보고 끝내는 분석은 반쪽짜리다. 차이가 어느 셀에서 왔는지, 표준화 잔차가 큰 셀이 어디인지 확인해야 한다. 또한 행 퍼센트로 볼지 열 퍼센트로 볼지를 분석 목적에 맞게 선택해야 한다. 방향을 바꾸면 다른 이야기가 나온다.
Q209. 통계적으로 유의하지 않은 차이를 보고해야 하는가? 보고해야 한다. 유의하지 않다는 것은 차이가 없다는 것이 아니라, 주어진 표본 크기에서 차이가 있다고 확신하기 어렵다는 것이다. 유의하지 않은 결과를 숨기면 출판 편향과 같은 구조적 왜곡이 생긴다. 특히 탐색적 조사에서는 유의하지 않은 결과도 향후 설계에 중요한 정보다. 단, 유의하지 않은 차이를 서술할 때는 "차이가 없다"가 아니라 "차이가 확인되지 않았다"고 표현해야 정확하다.
Q210. 소수점 몇 자리까지 보고해야 하는가? 측정의 정밀도를 넘어서는 소수점은 의미가 없다. 응답자 1,000명 기준 퍼센트는 0.1%p 단위가 의미 있는 최소 단위다. 소수점 둘째 자리(0.01%p)는 표집오차(±3.1%p)에 비해 무의미하게 정밀하다. 그럼에도 보고서에 42.37% 같은 숫자가 등장하는 것은 정밀도가 아니라 과신의 신호다. 평균값은 소수점 한 자리, 퍼센트는 정수 또는 소수점 한 자리가 실무에서 적절한 기준이다. 더 많은 자릿수는 숫자의 권위를 빌리는 장식이다.
Q211. 퍼센트와 퍼센트포인트는 어떻게 다른가? 퍼센트(%)는 비율 자체이고, 퍼센트포인트(%p)는 비율 간의 차이다. 지지율이 40%에서 50%로 올랐을 때 10%p 상승이다. 이것을 10% 상승이라고 하면 틀렸다. 10% 상승은 40%의 10%, 즉 4%p 증가를 의미한다. 언론 보도에서 이 두 용어는 자주 혼용된다. 의도적이든 실수든 혼용은 변화의 크기를 왜곡한다. 서베이 결과를 다룰 때 이 구분은 기본 중의 기본이다.
Q212. 응답 비율의 분모는 항상 전체 응답자인가? 아니다. 문항 구조에 따라 분모가 달라진다. 해당자에게만 물은 문항이라면 분모는 해당 필터를 통과한 응답자다. 복수응답 문항이라면 분모는 응답자 수이지만 분자의 합이 100을 넘는다. 특정 경험 보유자에게만 물은 만족도라면 전체 응답자가 분모가 되면 안 된다. 분모 설정이 잘못되면 비율 자체가 왜곡된다. 표를 만들기 전에 이 문항의 올바른 분모가 무엇인지 먼저 확인해야 한다.
Q213. 모름·무응답을 분모에서 빼면 어떤 일이 생기는가? 비율이 높아진다. 찬성 40%, 반대 40%, 모름 20%일 때 모름을 빼면 찬성 50%, 반대 50%가 된다. 이것은 사실과 다른 그림이다. 더 중요한 것은 모름 응답 자체가 의미 있는 정보라는 점이다. 20%가 모른다는 것은 이슈 인지도가 낮거나 태도가 형성되지 않았다는 신호다. 이것을 제거하면 현실을 왜곡한다. 모름을 빼고 보고하는 관행은 결과를 더 선명하게 보이게 하려는 편의적 선택이다.
Q214. 복수응답 문항의 퍼센트는 어떻게 계산하는가? 분모는 전체 응답자 수이고, 각 항목을 선택한 응답자 수를 분자로 한다. 따라서 각 항목의 퍼센트 합계가 100을 넘는 것이 정상이다. 선택한 항목 수를 분모로 해서 합계를 100으로 맞추는 것은 잘못된 방법이다. 그렇게 하면 각 항목의 퍼센트가 전체 응답자 대비 비율이 아니라 선택 건수 대비 비율이 되어 해석이 달라진다. 복수응답 결과 표에는 반드시 사례수(n)와 함께 합계가 100을 초과함을 명시해야 한다.
Q215. 평균과 중앙값 중 어느 것을 써야 하는가? 분포 형태에 따라 다르다. 정규분포에 가깝다면 평균이 적합하다. 분포가 한쪽으로 치우치거나 극단값이 있다면 중앙값이 더 대표적이다. 소득, 재산, 응답 시간처럼 극단값이 있는 변수에서 평균은 왜곡된 인상을 준다. 소득 평균이 높아 보여도 중앙값이 낮다면 상위 소수가 평균을 끌어올린 것이다. 서베이 보고서에서 척도 평균을 보고할 때는 평균과 함께 분포(표준편차 또는 분포 그래프)를 함께 제시하는 것이 좋다.
Q216. 시계열 비교에서 주의할 점은? 측정 조건이 동일해야 한다. 문항 문구, 척도, 선택지 순서, 조사 모드, 조사 시기, 가중치 기준이 바뀌면 시계열 변화가 실제 태도 변화인지 측정 조건 변화인지 구분할 수 없다. 또한 사회적 맥락이 응답에 영향을 미쳤는지도 고려해야 한다. 조사 직전 특정 사건이 있었다면 그것이 트렌드인지 일시적 반응인지 판단해야 한다. 시계열 비교는 단순히 숫자를 나란히 놓는 것이 아니라 조건의 동일성을 검증하는 작업이다.
Q217. 동일한 문항이 아니면 시계열 비교가 가능한가? 원칙적으로 불가능하다. 문항이 다르면 측정하는 것이 다를 수 있기 때문이다. 단어 하나, 선택지 순서 하나가 응답 분포를 바꾼다. 불가피하게 비교해야 한다면 두 문항 버전을 동시에 사용한 분할표본 연구로 두 문항의 결과 차이를 먼저 추정하고, 그것을 시계열 비교에 반영해야 한다. 그런 검증 없이 다른 문항의 결과를 같은 추세선에 올리는 것은 측정의 차이를 실제 변화로 오독하는 것이다.
Q218. 상관관계를 인과관계로 해석하는 오류는 왜 생기는가? 두 변수가 함께 움직이면 하나가 다른 하나의 원인이라고 생각하는 것이 인지적으로 자연스럽기 때문이다. 하지만 서베이 데이터는 대부분 횡단면 데이터로, 인과의 방향과 제3변수 영향을 통제하기 어렵다. 보수적 응답자가 특정 정책을 지지하는 것과, 특정 정책 지지가 보수적 태도를 만드는 것은 전혀 다른 주장이다. 서베이 데이터에서 "A가 B에 영향을 미친다"는 표현은 항상 신중해야 한다. 관계가 있다는 것과 원인이 된다는 것은 다르다.
Q219. 회귀분석 결과를 서베이 보고서에서 어떻게 서술해야 하는가? 계수값과 유의확률만 나열하는 것으로는 부족하다. 다른 변수를 통제했을 때 해당 변수의 순수한 연관성이 어떠한지, 그 크기가 실질적으로 의미 있는지를 함께 서술해야 한다. "연령이 1세 증가할 때 지지율이 0.3%p 증가한다"처럼 구체적 언어로 번역해야 한다. 표준화 계수를 통해 변수 간 상대적 영향력을 비교하는 것도 유용하다. 수식과 계수를 그대로 제시하면 분석을 보고한 것이 아니라 수식을 붙여넣은 것이다.
Q220. 군집분석으로 응답자 유형을 나눌 때 주의할 점은? 군집 수 결정이 자의적이 될 수 있다는 것이 첫 번째 문제다. k-means는 k를 사전에 지정해야 하는데, 이 선택에 따라 결과가 크게 달라진다. 또한 군집분석 결과는 재현 가능성이 낮다. 초기값이나 표본 구성이 조금 바뀌어도 군집이 달라진다. 군집에 이름을 붙이는 과정도 주관적이다. 분석자가 원하는 유형을 데이터에서 발견했다고 착각하기 쉽다. 군집분석은 탐색 도구이지 확증 도구가 아니다.
Q221. LLM으로 개방형 응답을 분석하면 어떤 문제가 있는가? 일관성과 투명성이 핵심 문제다. 동일한 응답을 다른 시점에 분석하면 다른 결과가 나올 수 있다. 분류 기준이 명시적이지 않아 재현이 어렵다. 또한 LLM이 훈련 데이터의 편향을 반영해 특정 응답을 체계적으로 다르게 해석할 수 있다. 긍정·부정 감성 분류는 비교적 안정적이지만, 주제 분류나 의도 해석은 오류가 많다. 사용했다면 프롬프트, 모델 버전, 검증 방법을 명시해야 한다. 블랙박스 분석은 신뢰하기 어렵다.
Q222. 데이터 시각화에서 가장 흔한 오류는? y축을 0에서 시작하지 않는 것이다. y축을 40에서 시작하면 41%와 45%의 차이가 시각적으로 4배로 부풀어 보인다. 실제로는 4%p 차이가 극적인 변화처럼 보인다. 두 번째는 파이차트 남용이다. 파이차트는 구성비 비교에 약하고, 항목이 많아지면 해석이 불가능해진다. 세 번째는 3D 그래프다. 3D는 시각적 왜곡을 만들고 정확한 비교를 방해한다. 시각화는 데이터를 명확히 보여주는 도구여야지, 인상을 만드는 도구가 되어서는 안 된다.
Q223. 척도 데이터를 긍정/부정으로 이분화하는 것은 정당한가? 편의를 위한 정보 손실이다. 5점 척도를 긍정(4~5점)과 부정(1~2점)으로 나누면 중간값(3점) 처리가 문제가 되고, 4점과 5점의 차이, 1점과 2점의 차이가 사라진다. 집단 간 비교에서 이분화는 통계적 검정력을 낮춘다. 다만 커뮤니케이션 목적에서는 유용하다. "응답자의 63%가 긍정적으로 평가했다"는 문장이 "평균 3.8점"보다 이해하기 쉽다. 분석은 원래 척도로 하고, 보고는 이분화로 하는 것이 현실적 절충이다.
Q224. Top2box와 Top3box 중 어느 것을 써야 하는가? 척도 구조와 분포에 따라 다르다. 5점 척도에서 Top2box는 4~5점, Top3box는 3~5점이다. 분포가 위쪽에 집중되어 있고 3점이 실제로 긍정 응답에 가깝다면 Top3box가 적절하다. 분포가 고르다면 Top2box가 더 변별력 있다. 문제는 의뢰인에게 유리한 쪽을 사후에 선택하는 것이다. 만족도가 낮게 나왔을 때 Top3box로 바꾸면 숫자가 높아진다. 기준을 사전에 정하고 일관되게 쓰는 것이 원칙이다.
Q225. 분석 결과를 보고서에 옮길 때 왜곡이 생기는 지점은? 여러 지점이 있다. 유의하지 않은 차이를 단정적으로 서술할 때, 모름 응답을 제거하고 비율을 높일 때, 전체 추세에 맞지 않는 서브그룹 결과를 부각할 때, 긍정적 결과만 선택적으로 제시할 때다. 수치는 정확하지만 맥락을 제거해 인상을 왜곡하는 경우도 많다. "A 지지율 51%"는 사실이지만 "오차범위 내 접전"이라는 맥락을 빼면 다른 메시지가 된다. 데이터와 보고서 사이의 거리가 왜곡이 숨는 공간이다.
Q226. 분석 계획을 사전에 명시해야 하는가? 학술 연구에서는 반드시 그래야 하고, 실무에서도 가능한 한 그래야 한다. 데이터를 본 후 분석 방향을 정하면 원하는 결과를 찾아가는 방향으로 흐르기 쉽다. 어떤 변수를 주요 분석 대상으로 볼지, 어떤 집단 비교를 할지, 어떤 통계 방법을 쓸지를 사전에 정해두면 데이터 기반 의사결정이 아니라 결과 기반 분석을 막을 수 있다. 실무에서도 분석 계획을 조사 설계 단계에 포함시키는 것이 왜곡을 방지하는 구조적 장치다.
Q227. 같은 데이터로 다른 결론이 나올 수 있는가? 충분히 가능하다. 가중치 방식, 모름 처리, 이분화 기준, 비교 집단 설정, 시각화 방법 중 어느 하나만 달라도 결론의 방향이 바뀔 수 있다. 이것이 서베이 분석에서 분석자의 선택이 중요한 이유다. 같은 데이터를 두 명의 분석자에게 주었을 때 다른 결론이 나왔다면, 둘 중 하나가 틀렸을 수도 있지만 분석 과정의 선택이 달랐을 가능성이 더 높다. 분석의 재현 가능성과 투명성이 중요한 이유가 여기 있다.
Q228. 서베이 데이터로 인과 추론을 할 수 있는가? 제한적으로 가능하다. 일반적인 횡단면 서베이로는 인과 추론이 어렵다. 변수 간 선후 관계를 알 수 없고, 교란변수를 통제하기 어렵다. 하지만 서베이 실험 설계(무작위 문항 배분, 정보 처리 실험)를 활용하면 인과 추론의 가능성이 열린다. 종단 패널 조사에서는 시간적 선후 관계를 부분적으로 확인할 수 있다. 인과 추론을 하려면 설계 단계에서 그 목적을 반영해야 한다. 일반 서베이 데이터에서 사후에 인과를 주장하는 것은 무리다.
Q229. 서베이 결과를 얼마나 정확하게 일반화할 수 있는가? 표본이 모집단을 대표할 때, 그리고 그 모집단의 범위 안에서만 일반화할 수 있다. 온라인 패널로 조사한 결과를 전체 국민에게 일반화하는 것은 무리다. 특정 지역, 특정 연령대, 특정 이슈 관심자를 조사했다면 그 범위 안에서만 결론을 내려야 한다. 일반화의 범위는 표본의 대표성과 정확히 일치한다. 보고서에서 일반화 범위를 명시하지 않는 것은 독자가 스스로 과잉 일반화하도록 방치하는 것이다.
Q230. 분석가의 선택이 결과에 얼마나 영향을 미치는가? 생각보다 훨씬 크다. 분석 소프트웨어마다 기본 설정이 다르고, 결측값 처리, 이상값 제거, 집단 분류, 시각화 축 설정 등 수십 개의 미시적 선택이 최종 결과에 누적적으로 영향을 미친다. 멀티버스 분석(multiverse analysis) 연구들은 동일 데이터에서 분석자에 따라 결과가 유의하기도 하고 아니기도 하다는 것을 보여준다. 분석가의 선택은 데이터가 말하는 것을 도와주는 것이 아니라, 데이터가 어떤 말을 하게 되는지를 결정하는 경우가 많다.
댓글
댓글 쓰기