서베이, 300번 묻다 : 총조사오차의 눈으로 본 서베이 방법론 문답집
서베이, 300번 묻다
총조사오차의 눈으로 본 서베이 방법론 문답집
________________________________________
서문
서베이는 쉬운 일처럼 보인다. 질문을 만들고, 사람을 모으고, 숫자를 낸다. 그런데 그 각각의 단계가 얼마나 복잡하고 민감한 작업인지를 아는 사람은 많지 않다. 누구에게 물을 것인가, 어떻게 물을 것인가, 결과를 어떻게 읽을 것인가 — 이 세 질문 중 하나라도 허술하면 서베이는 현실이 아니라 왜곡을 생산한다.
이 글은 서베이에 관한 300개의 질문으로 이루어져 있다. 입문자가 던지는 질문도 있고, 20년 경력의 조사자가 여전히 고민하는 질문도 있다. 정답이 명확한 것도 있고, 트레이드오프만 있을 뿐 정답이 없는 것도 있다. 공통점은 하나다. 모두 서베이를 제대로 이해하려면 반드시 통과해야 하는 질문들이다.
총조사오차(Total Survey Error) 프레임이 이 책의 뼈대다. 커버리지, 표집, 무응답, 측정, 처리, 가중, 분석 — 서베이의 모든 단계에서 오차가 생기고, 그 오차들은 서로 얽혀 있다. 좋은 서베이란 오차를 0으로 만드는 것이 아니라, 오차의 존재를 알고 관리하는 것이다.
300번의 질문 끝에 남는 것은 하나다. 서베이는 어렵고, 그 어려움을 아는 사람이 더 좋은 서베이를 만든다.
________________________________________
1부. 서베이의 정의와 경계
Q1. 서베이는 정량조사인가? 일반적으로 그렇게 여겨지지만, 정확하지 않다. 서베이는 '체계적 수집'의 방법론이지 '정량'이라는 형식이 본질이 아니다. IDI나 FGD도 체계적으로 설계되면 서베이의 범주에 들어올 수 있다. 정량과 정성의 구분은 서베이를 이해하는 출발점이지, 서베이의 정의가 아니다.
Q2. IDI(심층인터뷰)는 서베이인가? 넓은 의미에서는 서베이다. 표본을 선정하고, 구조화된 질문을 통해 태도·경험·인식을 수집하는 행위는 서베이의 본질과 다르지 않다. 다만 표준화 수준이 낮고 통계적 집계를 목적으로 하지 않는다는 점에서 좁은 의미의 서베이와 구별된다. 경계는 생각보다 흐릿하다.
Q3. FGD(포커스그룹)는 서베이인가? FGD는 서베이의 인접 영역이다. 응답자를 표집하고, 질문 가이드를 설계하고, 결과를 분석한다는 점에서 서베이 방법론의 언어로 평가할 수 있다. 실무에서는 설문지 개발 전 탐색 단계로 쓰이며, 정량 서베이와 하나의 연구 설계 안에 공존한다. 완전히 다른 세계가 아니다.
Q4. 빅데이터가 있으면 서베이가 필요 없는가? 빅데이터는 행동 데이터다. 사람들이 무엇을 했는지는 알 수 있지만, 왜 했는지, 어떻게 생각하는지는 알 수 없다. 태도·의견·가치관은 물어봐야만 알 수 있는 영역이다. 빅데이터 시대에 서베이는 오히려 더 중요해진다. 측정할 수 없는 것을 측정하는 유일한 도구이기 때문이다.
Q5. 행정데이터로 서베이를 대체할 수 있는가? 일부는 가능하다. 소득, 의료 이용, 복지 수급 등 행정 기록이 있는 영역에서는 서베이보다 정확할 수 있다. 하지만 행정데이터는 제도에 포착된 것만 기록한다. 제도 밖의 삶, 주관적 경험, 숨겨진 태도는 행정데이터에 없다. 대체가 아니라 보완 관계로 봐야 한다.
Q6. SNS 데이터는 서베이를 대신할 수 있는가? SNS 데이터는 표집 편향이 극심하다. 활발히 발언하는 사람, 특정 플랫폼 이용자, 알고리즘이 노출시킨 콘텐츠로 가득하다. 침묵하는 다수의 목소리는 없다. 텍스트 감성 분석은 의견의 방향을 보여줄 수 있지만, 누구의 의견인지를 말해주지 못한다. 그것이 결정적 한계다.
Q7. 서베이는 현실을 반영하는가, 아니면 구성하는가? 둘 다다. 서베이는 이미 형성된 의견을 측정하기도 하지만, 질문을 통해 응답자가 전에 없던 의견을 갖게 만들기도 한다. 특히 잘 모르는 주제에 대한 질문은 의견을 측정하는 것이 아니라 즉석에서 만들어내게 한다. 서베이는 중립적 거울이 아니다.
Q8. 서베이 결과가 여론을 반영한다고 볼 수 있는가? 조건부로 그렇다. 대표성 있는 표본, 편향 없는 문항, 정직한 응답이 전제될 때만 여론의 근사값이 된다. 현실에서는 이 세 조건 중 하나 이상이 빠지는 경우가 많다. 여론조사 결과가 여론 그 자체는 아니다. 여론의 스냅샷이고, 그 스냅샷은 항상 찍는 방식에 영향을 받는다.
Q9. 여론조사와 시장조사는 다른 학문인가? 방법론적으로는 같은 뿌리다. 표집, 설문지 설계, 척도, 가중치, 분석 — 모두 공유한다. 다른 것은 목적과 의뢰인이다. 여론조사는 공중의 의견을 파악하고, 시장조사는 소비자의 행동과 선호를 파악한다. 학문적으로는 하나의 방법론이 두 개의 산업으로 분화한 것이다.
Q10. 학술조사와 상업조사의 기준이 달라야 하는가? 목적이 다르면 기준도 달라진다. 학술조사는 재현 가능성, 측정 타당도, 이론적 엄밀함을 우선한다. 상업조사는 납기, 비용, 의사결정 가능한 결과를 우선한다. 문제는 상업조사가 학술 기준을 흉내 낼 때다. 표집오차를 붙이고 과학적 외양을 갖추지만, 내부는 허술한 경우가 많다.
Q11. 공론조사는 서베이인가? 구조적으로는 서베이를 포함한다. 표본을 추출하고, 설문지로 사전·사후 의견을 측정한다. 하지만 공론조사의 핵심은 측정이 아니라 숙의 과정이다. 서베이가 있는 의견을 재는 도구라면, 공론조사는 의견을 형성시킨 후 재는 설계다. 서베이를 포함하지만 서베이보다 크다.
Q12. 신세틱 서베이는 서베이인가? 이것이 가장 논쟁적인 경계 질문이다. 신세틱 서베이는 실제 응답자 없이 AI가 응답을 생성한다. 측정의 대상이 인간이 아니라 언어모델이다. 서베이의 본질이 '사람의 의견을 묻는 것'이라면, 신세틱 서베이는 서베이가 아니다. 하지만 방법론적 검증 도구로는 가치가 있다.
Q13. AI가 생성한 응답 데이터는 서베이 데이터인가? 아니다. 서베이 데이터는 실제 사람이 자신의 경험과 판단으로 응답한 결과여야 한다. AI 생성 데이터는 훈련 데이터의 패턴을 반영할 뿐이며, 특정 인구집단의 실제 태도라고 볼 수 없다. 그러나 서베이 설계 검증이나 파일럿 대용으로 쓰일 수 있는지는 별개의 질문이다.
Q14. 서베이는 측정 도구인가, 사회적 행위인가? 동시에 둘 다다. 도구로서 서베이는 태도와 의견을 수량화한다. 사회적 행위로서 서베이는 어젠다를 설정하고, 집단 정체성을 확인하고, 정책을 정당화하는 데 쓰인다. 이 이중성을 모르면 서베이를 중립적 측정기로만 오해한다. 서베이는 항상 맥락 안에 있다.
Q15. 좋은 서베이의 기준은 무엇인가? 총조사오차(TSE) 관점에서 보면, 커버리지·표집·무응답·측정·처리 오차 중 어느 하나도 심각하게 어긋나지 않아야 한다. 그리고 분석과 보고 과정에서 의도적 왜곡이 없어야 한다. 좋은 서베이는 모든 오차를 0으로 만드는 것이 아니라, 오차의 크기와 방향을 알고 관리하는 것이다.
Q16. 서베이 방법론은 사회과학인가, 통계학인가? 둘의 교차점이다. 표집 이론과 추정은 통계학에서, 측정과 질문 설계는 사회과학에서 온다. 좋은 서베이 방법론자는 통계도 알고 사람도 안다. 수식만 잘 하는 사람이 만든 설문지, 현장 감각은 있지만 추정을 모르는 사람이 만든 가중치 — 둘 다 위험하다.
Q17. 서베이 결과는 얼마나 믿을 수 있는가? 설계를 봐야 안다. 누가 물었는지, 누구에게 물었는지, 어떻게 물었는지, 결과를 어떻게 처리했는지가 모두 신뢰성에 영향을 미친다. '전국 1,000명 조사'라는 말만으로는 아무것도 판단할 수 없다. 방법론을 공개하지 않는 조사는 신뢰할 이유도, 의심할 근거도 없다. 그냥 모르는 것이다.
Q18. 서베이 응답은 태도를 측정하는가, 태도를 만드는가? 질문 구성에 따라 다르다. 평소부터 강하게 갖고 있던 태도라면 측정에 가깝다. 하지만 잘 모르는 주제, 처음 접하는 이슈에 대한 질문은 응답자가 그 자리에서 태도를 즉흥적으로 구성하게 만든다. 서베이는 태도를 측정하면서 동시에 태도를 만드는 양면적 행위다.
Q19. 총조사오차(TSE)란 무엇인가? 서베이에서 발생하는 모든 오차를 하나의 프레임으로 묶은 개념이다. 커버리지 오차, 표집 오차, 무응답 오차, 측정 오차, 처리 오차가 모두 포함된다. 각각의 오차는 서로 독립적이지 않고, 한 오차를 줄이려다 다른 오차가 커지는 트레이드오프가 생긴다. 어느 하나만 잘해도 나머지에서 무너질 수 있다.
Q20. 오차가 없는 서베이가 가능한가? 불가능하다. 완전한 모집단 파악은 불가능하고, 모든 사람이 응답하지도 않으며, 질문은 언어의 한계를 갖는다. 목표는 오차를 0으로 만드는 것이 아니라, 오차의 방향과 크기를 파악하고 연구 목적에 비추어 허용 가능한 수준으로 관리하는 것이다. 이것이 서베이 방법론의 현실적 지향점이다.
Q21. 서베이의 오차와 편향은 어떻게 다른가? 오차는 참값과의 차이 전체를 말하며, 무작위 오차와 체계적 오차를 포함한다. 편향은 그 중 체계적으로 한 방향으로 쏠린 오차다. 무작위 오차는 표본 크기를 늘리면 줄어들지만, 편향은 아무리 n을 늘려도 사라지지 않는다. 잘못된 질문으로 만든 편향은 n=10,000이어도 편향이다.
Q22. 서베이 품질을 어떻게 정의할 것인가? 단일 기준으로 정의하기 어렵다. TSE 관점에서는 오차의 총합이 작을수록 좋다. 실무 관점에서는 목적에 맞는 정보를 제공하는지가 기준이다. 윤리 관점에서는 응답자 보호와 결과의 정직한 보고가 포함된다. 좋은 서베이는 방법론적 엄밀함, 실용적 유용성, 윤리적 책임이 동시에 충족될 때 가능하다.
Q23. 서베이와 센서스의 차이는? 센서스는 모집단 전체를 조사하고, 서베이는 표본을 뽑아 모집단을 추정한다. 센서스는 표집오차가 없는 대신 측정오차와 커버리지 오차가 크다. 서베이는 표집오차가 있지만 자원을 집중해 측정 품질을 높일 수 있다. 더 많이 조사한다고 더 정확한 것이 아니다.
Q24. 서베이에서 대표성이란 정확히 무엇을 의미하는가? 표본의 특성이 모집단의 특성을 정확히 반영하는 것이다. 그런데 어떤 특성을 반영해야 하는지는 조사 목적에 따라 달라진다. 성별·연령·지역을 맞췄다고 대표성이 보장되는 것이 아니다. 관심 변수와 관련된 특성이 왜곡되지 않아야 한다. 대표성은 인구통계의 문제가 아니라 측정 목적의 문제다.
Q25. 서베이는 진실을 말해주는가? 서베이는 응답자가 그 순간 그 질문에 대해 표현한 것을 말해준다. 그것이 진짜 태도인지, 기억이 정확한지, 사회적 압력 없이 응답했는지는 별개다. 서베이는 진실에 가장 가까이 다가가는 도구 중 하나지만, 진실 자체는 아니다. 그 한계를 인정하는 것이 서베이를 제대로 읽는 시작이다.
Q26. 서베이 비용과 품질은 비례하는가? 어느 정도까지는 그렇다. 면접조사는 비싸고 데이터 품질이 높다. 저가 온라인 패널은 싸지만 품질 리스크가 크다. 하지만 비용이 많다고 품질이 반드시 좋지는 않다. 설계가 잘못됐거나 분석에서 왜곡이 생기면 비싼 조사도 나쁜 데이터가 된다. 비용은 필요조건이지 충분조건이 아니다.
Q27. 조사 설계는 어디서 시작해야 하는가? 연구 질문에서 시작해야 한다. 무엇을 알고 싶은지가 명확하지 않으면 모드도, 표본도, 설문지도 결정할 수 없다. 실무에서 흔한 실수는 방법론 결정을 먼저 하고 연구 질문을 나중에 끼워 맞추는 것이다. 좋은 조사 설계는 목적 → 모집단 정의 → 측정 내용 → 방법 선택의 순서로 흐른다.
________________________________________
2부. 모집단과 표집틀
Q28. 모집단은 누가 정의하는가? 연구자가 정의한다. 그리고 그 정의는 항상 선택의 결과다. '전국 성인'으로 할지, '만 18세 이상'으로 할지, '스마트폰 보유자'로 한정할지 — 이 결정이 이후 모든 설계를 규정한다. 모집단 정의가 느슨하면 표집틀도 가중치도 흔들린다. 조사의 첫 번째 결정이자 가장 중요한 결정이다.
Q29. '전국 만 18세 이상 성인'이라는 모집단 정의는 정확한가? 관행적으로 쓰이지만 허점이 많다. 외국인은 포함인가? 시설 거주자는? 노숙인은? 군인은? '성인'이라는 말도 법적 기준과 조사 기준이 다를 수 있다. 대부분의 조사는 이 질문을 그냥 넘긴다. 하지만 넘기는 순간 커버리지 오차가 조용히 쌓이기 시작한다.
Q30. 표집틀과 모집단이 일치하는 경우가 있는가? 현실에서는 거의 없다. 표집틀은 모집단의 근사치일 뿐이다. 전화번호부는 전화가 없는 사람을 빠뜨리고, 온라인 패널은 인터넷을 쓰지 않는 사람을 빠뜨린다. 일치에 가장 가까운 것은 주민등록부이지만, 이것도 사망 미신고, 장기 해외 체류자 등의 문제가 있다. 완전한 일치는 이상에 가깝다.
Q31. 한국에서 가장 좋은 표집틀은 무엇인가? 목적에 따라 다르다. 전화조사라면 무선전화 가상번호(RDD)가 현재 가장 넓은 커버리지를 갖는다. 온라인 조사라면 대형 패널이지만 자발적 참여 편향이 있다. 이론적으로 가장 우수한 것은 주민등록부 기반 주소 표집틀이지만 접근이 제한적이다. 완벽한 표집틀은 없고, 차선을 선택하는 것이 현실이다.
Q32. RDD(무작위전화걸기)의 표집틀은 무엇인가? 전화번호 공간 전체다. 존재하는 번호와 존재하지 않는 번호를 포함한 모든 가능한 번호 조합에서 무작위로 추출한다. 덕분에 전화번호부에 없는 번호도 커버할 수 있다. 하지만 전화를 아예 쓰지 않는 사람, 수신 거부를 설정한 사람은 커버하지 못한다. RDD도 완전하지 않다.
Q33. 온라인 패널의 표집틀 문제는 무엇인가? 패널에 등록된 사람들만 표집 대상이 된다는 것이다. 패널 가입은 자발적 행위이므로, 특정 성향(디지털 친화적, 설문 관심 있는, 인센티브 민감한)의 사람들이 과대 대표된다. 이것은 커버리지 오차가 아니라 자기선택 편향이다. 가중치로 일부 보정할 수 있지만 근본적 한계는 남는다.
Q34. 주민등록부를 표집틀로 쓸 수 있는가? 원칙적으로는 가능하지만 접근이 매우 제한적이다. 공공기관의 공익적 조사에는 허용되는 경우가 있으나, 민간 조사기관은 직접 접근할 수 없다. 이론적으로는 가장 포괄적인 표집틀이지만, 개인정보 보호법 강화 이후 활용 가능성은 더 좁아졌다. 한국 서베이 방법론의 구조적 한계 중 하나다.
Q35. 미국의 MAF(마스터주소파일)는 왜 한국에 없는가? MAF는 미국 인구센서스국이 관리하는 전국 주소 데이터베이스로, 주소 기반 표집의 근간이 된다. 한국은 주소 데이터가 여러 기관에 분산되어 있고, 통합 관리 체계가 없다. 행정안전부의 도로명주소 DB가 가장 가깝지만 조사 목적으로의 개방은 제한적이다. 표집틀 인프라에 대한 사회적 투자가 부족한 결과다.
Q36. 커버리지 오차와 표집 오차는 어떻게 다른가? 커버리지 오차는 표집틀이 모집단을 제대로 포함하지 못해 생기는 오차다. 처음부터 특정 집단이 조사 대상에서 빠진다. 표집 오차는 표집틀 안에서 표본을 뽑는 과정의 우연적 변동이다. 커버리지 오차는 n을 늘려도 해결되지 않는다. 처음부터 없는 사람은 아무리 많이 뽑아도 나오지 않는다.
Q37. 표집틀 오차는 어떻게 측정하는가? 직접 측정하기 어렵다. 표집틀에서 빠진 사람들의 특성을 알려면 그들을 조사해야 하는데, 표집틀에 없으니 접근할 수 없다. 간접적으로는 다른 출처의 인구 데이터와 비교하거나, 다른 표집틀을 사용한 조사 결과와 비교한다. 표집틀 오차는 눈에 보이지 않는 오차이기 때문에 더 위험하다.
Q38. 온라인 조사에서 노인은 왜 문제인가? 인터넷 이용률이 낮기 때문이다. 70대 이상은 스마트폰을 사용해도 설문 참여 경험이 적고, 온라인 패널 등록 비율도 낮다. 결과적으로 온라인 조사는 구조적으로 고령층을 과소 대표한다. 가중치로 수치를 맞출 수는 있지만, 실제로 응답한 노인이 전체 노인을 대표하는지는 별개 문제다.
Q39. 스마트폰 보급률이 높아지면 온라인 조사 커버리지 문제가 해결되는가? 부분적으로만 해결된다. 기기 보유와 설문 참여는 다른 문제다. 스마트폰이 있어도 온라인 패널에 가입하지 않으면 조사 대상이 되지 않는다. 또한 디지털 리터러시, 언어 장벽, 신뢰 부족 등 참여를 막는 다른 요인들이 남아 있다. 기기 보급은 필요조건이지 충분조건이 아니다.
Q40. 특정 집단을 의도적으로 제외하는 것은 허용되는가? 조사 목적에 따라 다르다. '서울 거주 20~40대'를 대상으로 한 조사라면 나머지 집단을 제외하는 것은 설계의 일부다. 문제는 포괄적 조사라고 표방하면서 특정 집단을 편의상 제외할 때다. 제외의 근거를 명시하지 않으면 커버리지 오차가 되고, 결과 해석의 범위도 좁아진다.
Q41. B2B 조사에서 모집단 정의는 왜 어려운가? 기업은 개인과 달리 경계가 모호하다. 어떤 기업을 포함할지(규모, 업종, 설립연도), 기업 내 누구에게 물을지(대표, 실무자, 구매담당자)가 모두 결정되어야 한다. 그리고 기업 목록 자체가 공개된 표집틀로 존재하지 않는 경우가 많다. B2B 조사의 대표성 문제는 B2C보다 훨씬 심각하다.
Q42. 희귀집단(rare population) 조사는 어떻게 접근해야 하는가? 일반 확률표집으로는 충분한 사례를 확보하기 어렵다. 스크리닝을 통해 대상자를 걸러내거나, 해당 집단이 모이는 장소·커뮤니티를 통한 표적 표집을 쓴다. 눈덩이 표집(snowball sampling)도 자주 쓰이지만 자기선택 편향이 크다. 희귀집단 조사에서는 대표성보다 접근 가능성이 현실적 제약이 된다.
Q43. 할당표집은 확률표집인가? 아니다. 할당표집은 인구통계 구조를 맞추지만 개별 선정 과정에서 무작위성이 없다. 조사원이나 시스템이 편의에 따라 응답자를 선택한다. 확률표집의 외양을 갖추지만 통계적 추론의 전제(무작위 선정)를 충족하지 못한다. 한국 여론조사의 대부분이 할당표집이면서 표집오차를 제시하는 것은 이 점에서 문제가 있다.
Q44. 층화표집이 단순무작위표집보다 항상 좋은가? 관심 변수와 관련된 층화 변수를 잘 선택했을 때만 그렇다. 층화는 각 층 내 동질성을 높여 추정 효율을 개선한다. 하지만 층화 변수가 결과 변수와 무관하면 효율 향상이 없다. 그리고 층화가 복잡해질수록 설계 효과(design effect) 관리도 어려워진다. 무조건 정교한 층화가 답은 아니다.
Q45. 군집표집의 최대 약점은 무엇인가? 같은 군집 내 응답자들이 서로 비슷하다는 것이다. 같은 학교, 같은 지역, 같은 직장 사람들은 유사한 특성을 공유한다. 이것이 설계 효과를 키운다. 즉, 같은 n이라도 군집표집의 실질적 정밀도는 단순무작위표집보다 낮다. 비용 절감을 위해 군집표집을 쓰면 정밀도를 포기하는 것이다.
Q46. 패널조사의 대표성 문제는 해결 가능한가? 완전히 해결하기는 어렵다. 자발적 가입, 장기 참여에 따른 패널 효과, 탈락으로 인한 구성 변화 등 구조적 편향이 있다. 가중치와 리프레시 표본(신규 패널 충원)으로 어느 정도 보정할 수 있지만 근본적 한계는 남는다. 패널 조사의 대표성은 달성 목표가 아니라 지속적 관리 대상이다.
Q47. 복수 패널을 병합하면 대표성이 좋아지는가? 반드시 그렇지는 않다. 각 패널의 편향이 서로 다른 방향이라면 병합이 균형을 만들 수 있다. 하지만 편향의 방향이 같다면 규모만 커지고 편향은 그대로다. 또한 패널 간 중복 가입자 문제, 패널별 응답 성향 차이도 고려해야 한다. 병합은 커버리지를 넓히는 도구이지 대표성을 보장하는 도구가 아니다.
Q48. 표본 크기가 클수록 좋은 조사인가? 표집오차 측면에서는 그렇다. 하지만 n이 크다고 다른 오차가 사라지지 않는다. 편향된 표집틀, 유도 질문, 불성실 응답 — 이런 문제는 n=10,000이어도 해결되지 않는다. 오히려 대규모 조사는 현장 관리가 어려워 처리 오차가 커질 수 있다. n은 표집오차 하나만 줄인다.
Q49. n=100과 n=1,000의 실질적 차이는 무엇인가? 표집오차로 보면 크다. n=100이면 ±9.8%p, n=1,000이면 ±3.1%p(95% 신뢰수준, 최대 표집오차 기준)다. 하지만 서브그룹 분석이 필요하다면 n=1,000도 작을 수 있다. 지역별, 연령대별로 쪼개면 각 셀의 n이 급격히 줄어든다. 조사 목적에 맞는 최소 n을 먼저 계산하는 것이 순서다.
Q50. 패널 피로(panel fatigue)는 데이터 품질에 어떤 영향을 미치는가? 응답 품질을 떨어뜨린다. 반복 참여에 지친 패널 응답자는 질문을 꼼꼼히 읽지 않고, 중립 응답이나 극단 응답을 늘리며, 직선 응답(straight-lining)을 한다. 또한 패널 참여 경험이 많을수록 '올바른 답'을 학습해 응답이 실제 태도와 달라질 수 있다. 장기 패널일수록 이 문제는 심각해진다.
Q51. 할당 기준이 많을수록 대표성이 높아지는가? 반드시 그렇지 않다. 할당 변수가 많아지면 각 셀의 목표 n이 작아져 현장 조달이 어려워지고, 임의 선정 압력이 높아진다. 또한 많은 변수를 동시에 통제한다고 해서 통제하지 않은 변수의 편향이 사라지지 않는다. 대표성은 할당 변수의 수가 아니라 핵심 변수와의 관련성으로 판단해야 한다.
Q52. 표본 설계서는 왜 필요한가? 조사의 설계 근거를 명시하고, 재현 가능성을 확보하기 위해서다. 누가 표본을 어떻게 뽑았는지, 할당 기준은 무엇인지, 가중치는 어떻게 산출했는지가 기록되지 않으면 결과를 검증할 수 없다. 표본 설계서는 방법론 투명성의 기본이다. 이것이 없는 조사는 결과를 신뢰하라고 요구할 자격이 없다.
________________________________________
3부. 표집오차와 통계적 추론
Q53. 표집오차 ±3.1%p는 어디서 나오는가? n=1,000, 신뢰수준 95%, 응답 비율 p=0.5일 때 공식 1.96×√(0.5×0.5/1000)을 계산하면 약 ±3.1%p가 나온다. 여기서 p=0.5를 쓰는 이유는 이때 분산이 최대가 되기 때문이다. 즉 가능한 모든 응답 비율 중 가장 큰 오차를 보수적으로 제시하는 것이다. n=1,000이라는 관행도 이 숫자를 목표로 역산한 결과다.
Q54. 왜 최대 표집오차를 제시하는가? 실제 조사에서는 문항마다 응답 비율이 다르다. 60%가 찬성하면 표집오차는 ±3.1%p보다 작아진다. 하지만 조사 결과를 발표할 때 문항별로 다른 오차를 제시하면 복잡하다. 그래서 모든 비율에 적용 가능한 최대값, 즉 p=0.5 기준의 오차를 단일 대표값으로 쓴다. 보수적이지만 간명한 선택이다.
Q55. 95% 신뢰수준이란 무엇을 의미하는가? 같은 방식으로 100번 반복 조사하면 그 중 95번은 신뢰구간 안에 모집단 참값이 포함된다는 의미다. 이번 조사 결과가 95% 확률로 맞다는 뜻이 아니다. 이 구분은 중요하다. 현재 손에 든 조사 결과가 그 95번 안에 드는지, 아닌 5번 안에 드는지는 알 수 없다. 신뢰수준은 방법에 대한 장기적 보장이다.
Q56. 표집오차가 없어도 조사가 틀릴 수 있는가? 얼마든지 가능하다. 표집오차는 TSE의 일부일 뿐이다. 표집 과정이 완벽해도 편향된 질문, 낮은 응답률, 특정 집단의 과소 대표, 가중치 오류가 있으면 결과는 왜곡된다. 표집오차를 줄이는 데 집중하면서 다른 오차를 방치하는 것은 문을 잠갔는데 창문을 열어두는 것과 같다.
Q57. 비확률표집에서 표집오차를 제시해도 되는가? 엄밀히는 안 된다. 표집오차는 확률표집을 전제로 하는 개념이다. 무작위 선정이 없으면 표본 분포 이론이 성립하지 않고, 그 토대 위에서 계산되는 표집오차도 의미를 잃는다. 그러나 현실에서 온라인 패널 조사에 ±3.1%p를 붙이는 관행이 광범위하다. 수치는 있지만 의미는 없는 숫자다.
Q58. 온라인 패널 조사에 ±3.1%p를 붙이는 것은 맞는가? 맞지 않다. 온라인 패널은 자발적 가입자 집단으로 확률표집의 전제를 충족하지 않는다. 이론적으로 표집오차를 계산할 수 없다. 그럼에도 관행적으로 오차를 제시하는 것은 과학적 권위를 빌리는 행위다. 공직선거법이 이를 요구하는 구조도 문제지만, 방법론 공개 없이 숫자만 내세우는 것은 더 큰 문제다.
Q59. 유의수준 5%는 왜 관행이 됐는가? 1920년대 통계학자 피셔(Fisher)가 편의상 제안한 기준이 그대로 굳어진 것이다. 과학적 근거가 있는 절대 기준이 아니다. 분야에 따라 물리학은 0.00003%, 심리학은 5%를 쓰기도 한다. 5%라는 숫자는 '틀릴 위험을 얼마나 감수할 것인가'에 대한 판단이지, 자연이 정해준 경계선이 아니다.
Q60. p-value 0.049와 0.051은 실질적으로 다른가? 통계적으로는 다르다. 하나는 유의하고 하나는 그렇지 않다. 하지만 실질적으로는 거의 같다. 두 값의 차이는 표집의 우연적 변동 수준이다. 0.05라는 경계를 넘었는지 여부로 결과를 이분화하는 것은 연속적인 불확실성을 인위적으로 단절시킨다. p-value는 이분 판단의 도구가 아니라 불확실성의 크기를 보여주는 연속값이다.
Q61. 통계적 유의성과 실질적 중요성은 어떻게 다른가? 표본이 크면 아주 작은 차이도 통계적으로 유의해진다. n=100,000이면 1%p 차이도 유의할 수 있다. 하지만 1%p 차이가 정책적, 상업적으로 의미 있는지는 별개 문제다. 반대로 표본이 작으면 실질적으로 큰 차이도 유의하지 않게 나올 수 있다. 유의성 검정 결과만 보고 중요성을 판단하면 안 된다.
Q62. 서브그룹 분석에서 표집오차는 어떻게 달라지는가? 서브그룹의 n이 줄어들면 표집오차는 급격히 커진다. 전체 n=1,000이어도 20대 남성만 보면 n=80 수준일 수 있고, 이때 표집오차는 ±11%p에 가까워진다. 서브그룹 분석 결과를 전체 결과처럼 단정적으로 해석하는 것은 위험하다. 서브그룹 분석을 계획했다면 처음부터 충분한 n을 확보해야 한다.
Q63. 교차분석에서 셀 빈도가 작으면 어떤 문제가 생기는가? 카이제곱 검정의 전제가 흔들린다. 일반적으로 각 셀의 기대빈도가 5 미만이면 검정 결과를 신뢰하기 어렵다. 실제 빈도가 0인 셀이 있으면 더 심각하다. 이때는 범주를 통합하거나 피셔의 정확검정을 쓰는 것이 적절하다. 셀 빈도를 확인하지 않고 p-value만 보고하는 것은 기초를 건너뛰는 것이다.
Q64. 선거 여론조사에서 오차범위 내 접전이란 무슨 의미인가? 두 후보의 지지율 차이가 표집오차 이내에 있다는 뜻이다. 예를 들어 A 45%, B 43%이고 오차가 ±3.1%p라면, 실제로는 B가 앞설 가능성도 통계적으로 배제할 수 없다. 그러나 이것은 확률의 문제이지 동률을 의미하지 않는다. 오차범위 내라도 A가 앞설 가능성이 더 높다. 미디어는 이 뉘앙스를 자주 놓친다.
Q65. 여론조사 집계(aggregation)는 왜 개별 조사보다 정확한가? 여러 조사를 평균하면 각 조사의 무작위 오차가 상쇄되기 때문이다. 개별 조사는 표본 추출의 우연에 따라 실제보다 높거나 낮게 나올 수 있지만, 여러 조사를 모으면 그 우연들이 평균으로 수렴한다. 미국 대선 예측에서 FiveThirtyEight 같은 집계 사이트가 개별 조사보다 정확한 이유다. 단, 편향이 모든 조사에 공통이면 집계도 편향된다.
Q66. 베이지안 접근법은 서베이에서 어떻게 쓰이는가? 사전 정보(prior)를 활용해 추정을 개선한다. 예를 들어 과거 선거 결과나 인구통계 정보를 사전분포로 넣으면, 작은 표본에서도 안정적인 추정값을 얻을 수 있다. 소지역 추정, 다층 회귀 및 사후층화(MrP) 등에 활용된다. 빈도주의 접근이 데이터만 보는 것이라면, 베이지안은 우리가 이미 아는 것에서 출발한다.
Q67. 작은 지역 단위 추정(small area estimation)이란 무엇인가? 전체 표본에서 특정 소지역의 n이 너무 작아 직접 추정이 불안정할 때, 다른 지역 정보나 보조 데이터를 빌려와 추정 정밀도를 높이는 방법이다. 다층 회귀와 사후층화(MrP)가 대표적이다. 전국 1,000명 조사로 시군구 단위 추정을 하거나, 소수집단의 의견을 추정할 때 유용하다. 모델 의존성이 높다는 것이 한계다.
Q68. 반복조사에서 변화량의 오차는 어떻게 계산하는가? 두 시점의 추정값 차이에는 각 시점의 오차가 누적된다. 1차 조사 오차와 2차 조사 오차가 독립적이라면 변화량의 표준오차는 각각의 표준오차를 제곱합 후 제곱근으로 계산한다. 이 때문에 변화량의 오차는 단일 시점보다 항상 크다. 작은 변화를 의미 있는 트렌드로 해석하기 전에 변화량의 오차를 반드시 확인해야 한다.
Q69. 분할표본실험(split-ballot)은 왜 유용한가? 동일 조사에서 서로 다른 버전의 질문을 무작위로 배분해 응답 차이를 실험적으로 검증할 수 있기 때문이다. 질문 프레이밍, 척도 형식, 선택지 순서 등이 응답에 미치는 영향을 측정하는 데 최적의 방법이다. 무작위 배분 덕분에 집단 간 비교가 인과적으로 해석될 수 있다. 설문지 설계 연구의 핵심 도구다.
Q70. 신뢰구간이 겹쳐도 통계적으로 유의한 차이가 있을 수 있는가? 그렇다. 두 집단의 신뢰구간이 겹친다고 해서 반드시 차이가 유의하지 않은 것이 아니다. 신뢰구간 겹침은 유의성 검정보다 보수적인 기준이다. 차이의 신뢰구간이 0을 포함하는지 여부가 정확한 판단 기준이다. 신뢰구간 시각화를 보고 '겹치니까 차이 없다'고 결론 내리는 것은 흔한 오류다.
Q71. 표본오차와 비표본오차 중 어느 것이 더 큰 문제인가? 실무에서는 비표본오차가 더 큰 문제인 경우가 많다. 표본오차는 수식으로 계산되고 n으로 통제할 수 있다. 비표본오차(측정 오차, 무응답 오차, 커버리지 오차 등)는 측정 자체가 어렵고, n을 늘려도 해결되지 않는다. 그러나 보고서에는 표본오차만 명시되고 비표본오차는 언급조차 없는 경우가 대부분이다.
Q72. 효과크기(effect size)를 왜 같이 보고해야 하는가? 통계적 유의성은 차이가 존재하는지를 말해주지만, 그 차이가 얼마나 큰지는 말해주지 않는다. 효과크기(Cohen's d, η², Cramér's V 등)는 차이의 실질적 크기를 표준화된 방식으로 표현한다. n이 크면 작은 효과도 유의해지므로, 유의성만 보고하면 작은 차이를 과장하게 된다. 유의성과 효과크기를 함께 봐야 완전한 그림이 나온다.
Q73. n이 클수록 표집오차는 무한히 줄어드는가? 수학적으로는 그렇지만 실용적으로는 한계가 있다. n=1,000과 n=10,000의 표집오차 차이는 크지만, n=10,000과 n=100,000의 차이는 이미 무시할 만한 수준이다. 표집오차는 n의 제곱근에 반비례하므로 감소 폭이 점점 작아진다. 그 수준을 넘어서면 비용만 늘고 정밀도 개선은 미미하다. 수익체감의 법칙이 적용된다.
Q74. 오차범위를 줄이는 방법은 n을 늘리는 것뿐인가? 아니다. 층화표집을 잘 설계하면 같은 n으로도 더 작은 오차를 얻을 수 있다. 관심 변수와 강하게 관련된 변수로 층화하면 층 내 분산이 줄어들어 추정 효율이 높아진다. 또한 보조 정보를 활용하는 비율 추정이나 회귀 추정도 효율을 높이는 방법이다. n만이 답이 아니라 설계가 답이다.
Q75. 표집오차와 측정오차 중 어느 쪽이 더 통제하기 어려운가? 측정오차다. 표집오차는 확률 이론에 따라 계산되고 n으로 통제 가능하다. 하지만 측정오차는 질문 문구, 응답자 인지, 사회적 바람직성, 맥락 효과 등 수많은 요인이 얽혀 있고, 크기를 수식으로 계산할 수도 없다. 그런데 대부분의 조사는 측정오차는 방치하고 표집오차만 관리한다. 관리하기 쉬운 것만 관리하는 것이다.
Q76. 신뢰수준 99%와 95%는 어떤 차이를 만드는가? 신뢰수준을 높이면 신뢰구간이 넓어진다. 95%에서 99%로 바꾸면 z값이 1.96에서 2.576으로 커지고, 표집오차는 약 31% 늘어난다. n=1,000이면 ±3.1%p가 ±4.1%p로 커진다. 더 확실하게 보장받으려면 더 큰 불확실성 범위를 감수해야 한다. 신뢰수준은 공짜로 높일 수 없다.
Q77. 표집오차는 왜 표본 크기의 제곱근에 반비례하는가? 표본 평균의 분산이 모분산을 n으로 나눈 값이기 때문이다. 표준오차는 그것의 제곱근이므로 √n에 반비례한다. 이것이 의미하는 바는 오차를 절반으로 줄이려면 n을 4배로 늘려야 한다는 것이다. 정밀도를 높이는 비용이 선형이 아니라 기하급수적으로 증가한다. 이것이 표본 크기 결정에서 트레이드오프가 생기는 이유다.
________________________________________
4부. 무응답 오차
Q78. 응답률과 데이터 품질은 비례하는가? 비례하지 않는다. 응답률이 높아도 응답자와 무응답자의 특성이 비슷하다면 편향이 작다. 반대로 응답률이 낮아도 무응답이 무작위적이라면 데이터 품질은 유지된다. 핵심은 응답률 자체가 아니라 무응답이 어떤 패턴을 갖는가다. 응답률 70%인 편향된 조사보다 응답률 20%인 무작위 무응답 조사가 나을 수 있다.
Q79. 응답률 10%와 50%의 데이터 중 어느 것이 더 믿을 만한가? 단정할 수 없다. 응답률 10%여도 무응답자와 응답자의 특성이 유사하다면 편향이 없다. 응답률 50%여도 특정 집단이 체계적으로 응답을 거부했다면 편향이 크다. 중요한 것은 응답률이 아니라 무응답 메커니즘이다. 다만 응답률이 낮을수록 무응답 메커니즘이 랜덤일 가능성은 줄어든다. 낮은 응답률은 경고 신호다.
Q80. 무응답 오차와 무응답률은 어떻게 다른가? 무응답률은 조사에 참여하지 않은 비율이다. 무응답 오차는 그로 인해 추정값이 실제와 달라지는 정도다. 무응답률이 높아도 오차가 작을 수 있고, 무응답률이 낮아도 오차가 클 수 있다. 무응답 오차는 무응답률과 응답자·무응답자 간 특성 차이의 곱으로 결정된다. 둘을 혼동하면 잘못된 진단이 나온다.
Q81. 단위 무응답과 항목 무응답은 어떻게 다른가? 단위 무응답은 조사 자체에 참여하지 않는 것이다. 전화를 끊거나, 설문 링크를 열지 않거나, 동의를 거부한 경우다. 항목 무응답은 조사에는 참여했지만 특정 문항에 답하지 않은 것이다. 소득, 나이, 정치 성향처럼 민감한 문항에서 자주 발생한다. 두 유형은 발생 원인과 처리 방법이 다르다.
Q82. 무응답이 랜덤하면 문제가 없는가? 완전히 랜덤한 무응답(MCAR)이라면 편향은 없다. 하지만 현실에서 완전 랜덤 무응답은 드물다. 더 중요한 것은, 무응답이 랜덤인지 아닌지를 확인하기가 매우 어렵다는 점이다. 무응답자의 데이터가 없기 때문이다. MCAR은 가정이지 확인된 사실이 아닌 경우가 많다.
Q83. MAR(무작위 결측)과 MNAR(비무작위 결측)은 어떻게 다른가? MAR은 결측이 다른 관측된 변수들로 설명될 수 있는 경우다. 예를 들어 고학력자가 소득 문항을 덜 건너뛰는 패턴은 학력이라는 변수로 설명된다. MNAR은 결측 자체가 그 변수의 값에 달린 경우다. 소득이 높은 사람이 소득 문항을 회피한다면 이는 MNAR이다. MNAR은 어떤 통계적 보정으로도 완전히 해결할 수 없다.
Q84. 결측값 대체(imputation)는 언제 해야 하는가? 항목 무응답이 무작위적이거나 관측된 변수로 설명 가능할 때(MAR) 유효하다. 전체 응답자의 5% 미만이 결측이면 단순 처리로도 무방하지만, 그 이상이면 체계적 대체를 고려해야 한다. 단, 대체는 있는 데이터를 그럴듯하게 채우는 것이지 없는 정보를 만드는 것이 아니다. 대체 방법과 그 전제를 명확히 보고해야 한다.
Q85. 핫덱 대체법이란 무엇인가? 결측값이 있는 응답자와 인구통계적으로 유사한 다른 응답자의 실제 응답값으로 채우는 방법이다. 같은 성별·연령·지역의 응답자 중 무작위로 '기증자(donor)'를 선택한다. 실제 관측된 값을 쓰기 때문에 응답 범위를 벗어나지 않는다는 장점이 있다. 다중 대체(multiple imputation)에 비해 단순하지만 실무에서 널리 쓰인다.
Q86. 무응답 가중치 조정이란 무엇인가? 응답자에게 무응답자를 대표하는 추가 가중치를 부여하는 방법이다. 응답자와 무응답자의 인구통계 특성 차이를 이용해, 무응답이 많은 집단의 응답자에게 더 높은 가중치를 준다. 기본적인 인구 비례 가중치에 더해 무응답 편향을 보정하는 2단계 가중치 구조다. 그러나 관측되지 않는 특성의 차이는 보정할 수 없다.
Q87. 콜백(callback)은 무응답 오차를 어떻게 줄이는가? 처음 연락에 응답하지 않은 대상자에게 다시 접촉하는 것이다. 첫 번째 접촉에서 응답하는 사람은 집에 있는 시간이 많거나, 전화를 잘 받는 특성이 있다. 콜백을 통해 이런 편향을 줄일 수 있다. 연구에 따르면 응답자의 특성은 1차 응답자와 콜백 응답자 사이에 유의미한 차이가 있다. 최소 3회 이상의 시도가 권고된다.
Q88. 인센티브가 높으면 응답 품질이 좋아지는가? 응답률은 높아지지만 품질이 반드시 좋아지지는 않는다. 인센티브가 높으면 인센티브를 목적으로 하는 동기 없는 응답자가 유입된다. 이들은 질문을 꼼꼼히 읽지 않고, 빨리 끝내려 한다. 응답률과 응답 품질은 다른 문제다. 적정 수준의 인센티브는 필요하지만, 과도한 인센티브는 표본 구성 자체를 왜곡할 수 있다.
Q89. 패널 조사에서 탈락(attrition)은 어떻게 다뤄야 하는가? 탈락이 무작위적인지 먼저 확인해야 한다. 특정 집단(고연령, 저학력, 정치적 무관심층)이 체계적으로 탈락하면 종단 분석 결과가 편향된다. 탈락자의 기저 특성을 초기 웨이브 데이터로 확인하고, 탈락 패턴을 보고해야 한다. 가중치 조정으로 어느 정도 보정할 수 있지만, 탈락 자체를 줄이는 것이 근본적 해결책이다.
Q90. 조기 종료(break-off)는 무응답인가? 부분적 무응답이다. 조사를 시작했지만 끝까지 완료하지 않은 경우다. 단위 무응답(조사 자체를 안 한 것)과 항목 무응답(특정 문항만 건너뛴 것)의 중간 형태다. 조기 종료 지점이 어디인지가 중요하다. 초반에 종료하면 단위 무응답에 가깝고, 후반 특정 문항에서 종료하면 해당 문항의 항목 무응답으로 볼 수 있다.
Q91. 직선 응답(straight-lining)은 어떻게 탐지하는가? 행렬형 문항에서 모든 항목에 동일한 응답 값을 준 경우를 찾는다. 예를 들어 10개 항목 배터리 전체에 '3'만 찍은 응답자다. 분산이 0이거나 매우 낮은 응답자를 스크리닝하거나, 동일 응답 연속 횟수가 임계값을 넘는 경우를 탐지한다. 그러나 실제로 중립적 태도를 가진 응답자와 구별하기 어렵다는 것이 함정이다.
Q92. 스피더(speeder) 응답자는 어떻게 처리하는가? 평균 응답 시간의 일정 비율(보통 30~50%) 미만으로 완료한 응답자를 식별한다. 제거 기준은 조사마다 다르지만, 단순히 빠른 것만으로 제거하면 인지 능력이 높거나 해당 주제에 익숙한 응답자를 잘못 걸러낼 수 있다. 응답 시간과 함께 응답 패턴(직선 응답, 무작위 응답)을 같이 확인하는 것이 더 정확하다.
Q93. 무성의 응답을 제거하면 데이터가 좋아지는가? 제거 기준이 명확하고 일관적이라면 그렇다. 그러나 '무성의'의 기준이 주관적이거나 자의적이면 오히려 특정 집단을 체계적으로 제거하는 결과가 생긴다. 또한 제거 자체가 새로운 선택 편향을 만든다. 무성의 응답 제거 기준과 제거 규모는 반드시 보고해야 한다. 숨겨진 제거는 데이터 조작과 경계가 모호하다.
Q94. 응답자 피로는 설문지 어느 지점에서 시작되는가? 일반적으로 설문지 후반부로 갈수록 피로가 쌓이지만, 시작 시점은 설문 길이와 난이도에 따라 다르다. 연구에 따르면 온라인 조사에서 15~20분이 넘어가면 응답 품질이 저하되기 시작한다. 피로는 중립 응답 증가, 응답 시간 감소, 개방형 문항 답변 길이 감소 등으로 나타난다. 중요한 문항은 앞에 배치하는 것이 원칙이다.
Q95. 설문 길이와 응답 품질의 관계는? 역의 관계가 있다. 설문이 길수록 응답 품질은 저하되는 경향이 있다. 다만 모든 응답자에게 동일하게 적용되지 않는다. 주제에 관심 있는 응답자는 긴 설문에도 품질을 유지하고, 인센티브 목적의 응답자는 초반부터 품질이 낮다. 설문 길이는 탈락률과 항목 무응답률에도 직접 영향을 미친다. 필요한 문항만 남기는 것이 최선이다.
Q96. 모름·무응답을 분석에서 어떻게 처리해야 하는가? 제거와 포함 모두 위험이 있다. 분모에서 빼면 비율이 달라지고, 포함하면 해석이 복잡해진다. 중요한 것은 처리 방식을 명시하고 일관되게 적용하는 것이다. 특히 '모름'이 많은 문항은 그 자체가 의미 있는 정보다. 모른다는 응답이 많다는 것은 이슈 인지도가 낮다는 신호일 수 있다. 제거하면 이 정보를 잃는다.
Q97. 무응답자의 특성을 어떻게 파악하는가? 직접 파악하기 어렵다는 것이 무응답 문제의 본질이다. 간접적으로는 행정 데이터나 인구총조사와 비교해 응답자 집단의 과소·과대 대표 여부를 확인한다. 일부 조사에서는 무응답자에게 짧은 추적 조사(follow-up)를 실시해 기본 특성을 수집한다. 콜백 응답자 분석도 유용하다. 나중에 응답한 사람이 무응답자에 더 가깝다는 가정 하에 비교한다.
Q98. 응답하지 않은 사람들이 응답한 사람들과 다르다는 것을 어떻게 아는가? 완전히 알 수는 없다. 하지만 간접 증거는 있다. 인구통계 분포 비교, 동일 표집틀의 다른 조사와 비교, 행정 데이터와 비교 등을 통해 응답자 집단의 왜곡 여부를 추론한다. 또한 응답 의향 자체가 특정 태도(예: 정치 관심, 사회 신뢰)와 연관되어 있다는 연구 결과가 축적되어 있다. 무응답은 랜덤이 아닌 경우가 더 많다.
Q99. 온라인 조사에서 중도 이탈은 어떻게 다루는가? 먼저 중도 이탈 응답자를 분석에 포함할지 결정해야 한다. 초반 이탈은 사실상 무응답으로 처리한다. 일정 비율 이상 완료한 응답자는 부분 포함하되, 미응답 문항을 결측으로 처리하거나 대체한다. 이탈 지점 분석은 설문지 문제를 진단하는 데 유용하다. 특정 문항에서 이탈이 집중된다면 그 문항이 응답 부담이나 민감도 문제를 갖고 있다는 신호다.
Q100. 무응답 오차는 어떻게 사전에 최소화할 수 있는가? 설계 단계에서 접근이 가능하다. 관심을 끄는 도입부, 적절한 인센티브, 짧고 명확한 설문지, 응답하기 쉬운 모드 선택이 응답률을 높인다. 더 중요한 것은 무응답이 체계적 편향을 만들지 않도록 표집틀과 접촉 방법을 설계하는 것이다. 응답률 목표보다 무응답 패턴 관리가 더 본질적인 목표여야 한다.
________________________________________
5부. 설문지 설계와 맥락
Q101. 설문지 설계는 과학인가, 기술인가? 둘 다지만 순서가 있다. 인지심리학, 언어학, 측정 이론 등 과학적 원리가 토대가 되고, 그 위에 현장 경험과 감각이 기술로 쌓인다. 원리만 아는 사람은 교과서적 설문지를 만들고, 감각만 있는 사람은 검증되지 않은 관행을 반복한다. 좋은 설문지는 원리를 이해하고 현장을 아는 사람이 만든다. 과학이 토대고 기술이 실행이다.
Q102. 문항 순서가 응답에 영향을 미치는가? 결정적으로 영향을 미친다. 앞 문항이 뒤 문항의 해석 틀을 만든다. 대통령 국정운영 평가를 먼저 묻고 경제 만족도를 물으면, 순서를 바꿨을 때와 다른 결과가 나온다. 이것은 응답자가 부주의해서가 아니라 인간 인지의 정상적인 작동 방식이다. 문항 순서는 설계의 일부가 아니라 측정의 일부다.
Q103. 일반적인 것에서 구체적인 것 순서가 항상 맞는가? 원칙으로는 그렇지만 예외가 있다. 구체적 사례를 먼저 물으면 응답자가 특정 프레임에 갇혀 이후 일반적 질문에 편향된 응답을 할 수 있다. 반대로 너무 추상적인 질문을 먼저 던지면 응답자가 맥락을 잡지 못하고 무의미한 응답을 한다. 원칙은 기준이지 규칙이 아니다. 조사 목적과 응답자 특성에 따라 판단해야 한다.
Q104. 민감한 문항은 어디에 배치해야 하는가? 중반부 이후가 일반적 원칙이다. 너무 앞에 두면 응답자가 경계심을 갖고 조기 이탈하거나 이후 문항 전체에 방어적으로 응답한다. 너무 뒤에 두면 응답 피로와 겹쳐 무응답이 증가한다. 신뢰가 어느 정도 쌓인 중반부가 적절하다. 단, 민감한 문항 직전에 친밀감을 높이는 전환 문항을 두는 것도 효과적이다.
Q105. 인구통계 문항을 마지막에 두는 이유는? 두 가지 이유가 있다. 첫째, 조사 시작부터 나이, 소득, 학력을 물으면 응답자가 심문받는 느낌을 받아 이탈률이 높아진다. 둘째, 인구통계는 분석의 보조 변수이지 핵심 측정 내용이 아니다. 핵심 문항을 앞에 배치해 응답 품질을 확보하는 것이 우선이다. 단, 스크리닝 목적의 인구통계(예: 연령 기준 대상자 선별)는 앞에 와야 한다.
Q106. 앞 문항이 뒤 문항을 오염시키는 메커니즘은? 크게 두 가지다. 첫째는 점화(priming) 효과다. 앞 문항이 특정 개념이나 감정을 활성화해 뒤 문항의 해석에 영향을 준다. 둘째는 일관성 동기다. 사람들은 자신의 이전 응답과 일관된 방향으로 이후 응답을 맞추려는 경향이 있다. 이 두 메커니즘은 의도하지 않은 맥락 효과를 만들고, 문항 배치만으로 결과를 바꿀 수 있다.
Q107. 맥락 효과와 순서 효과는 어떻게 다른가? 순서 효과는 문항의 물리적 위치(앞/뒤)가 응답에 미치는 영향이다. 맥락 효과는 더 넓은 개념으로, 앞 문항의 내용, 설문지 전체 주제, 조사 상황 등이 응답의 방향과 해석에 영향을 미치는 모든 현상을 포함한다. 순서 효과는 맥락 효과의 하위 유형이다. 실무에서는 둘을 구분하지 않고 쓰는 경우가 많지만, 원인 진단을 위해서는 구분이 필요하다.
Q108. 스크리너 문항의 역할은? 조사 대상자를 걸러내는 것이다. 특정 제품 이용자, 특정 경험 보유자, 특정 연령대 등 조사 목적에 맞는 응답자만 본 조사에 진입하게 한다. 스크리너가 부정확하면 엉뚱한 사람의 응답을 수집하거나, 정작 필요한 응답자를 놓친다. 스크리너 문항은 짧고 명확해야 하며, 정답을 예측할 수 없도록 설계해야 응답자의 의도적 통과를 막을 수 있다.
Q109. 필터 문항과 분기 설계는 어떻게 해야 하는가? 필터 문항은 특정 응답자에게만 해당하는 후속 문항으로 안내하는 역할을 한다. 분기 설계가 복잡해질수록 응답자 혼란과 프로그래밍 오류 가능성이 높아진다. 온라인 조사에서는 자동 분기가 가능하지만, 면접조사에서는 조사원 오류의 원천이 된다. 분기는 필요 최소한으로 유지하고, 건너뛰기 지시가 명확해야 한다.
Q110. 이중부정 문항은 왜 피해야 하는가? 응답자의 인지 부담을 과도하게 높이기 때문이다. "이 정책에 반대하지 않는다"에 '매우 동의'한다는 것은 무슨 의미인가? 이중부정은 응답자가 실제로 무엇에 동의하는지 스스로도 헷갈리게 만든다. 결과적으로 응답이 태도를 반영하는 것이 아니라 문장 해독 능력을 반영하게 된다. 특히 교육 수준이 다양한 응답자 집단에서 문제가 심각해진다.
Q111. 이중질문(double-barreled question)이란 무엇인가? 하나의 문항에 두 가지 내용을 동시에 묻는 것이다. "이 제품의 품질과 가격에 만족하십니까?"가 대표적 예다. 품질에는 만족하지만 가격에는 불만족한 응답자는 어떻게 응답해야 하는가? 응답이 두 요소 중 어느 것을 반영하는지 알 수 없다. 발견이 쉽지 않은 것이 문제인데, '그리고', '또한', '및'이 들어간 문항을 의심해볼 필요가 있다.
Q112. 유도질문은 어떻게 탐지하는가? 특정 응답을 암시하거나 유발하는 단서가 있는지 확인한다. 감정적 언어("위험한 정책에 찬성하십니까?"), 일방적 프레이밍("전문가들이 권고하는 이 방안을 지지하십니까?"), 전제가 깔린 문장("이미 실패한 정책을 계속 유지해야 한다고 생각하십니까?") 등이 신호다. 분할표본실험으로 다른 프레이밍 버전과 결과를 비교하는 것이 가장 확실한 탐지 방법이다.
Q113. 균형잡힌 문항(balanced question)이란 무엇인가? 찬반 또는 대립하는 입장을 동등하게 제시해 응답자가 어느 방향으로도 쏠리지 않도록 설계된 문항이다. "찬성 입장과 반대 입장이 있습니다. 귀하는 어느 쪽에 가깝습니까?" 형태가 대표적이다. 균형 잡힌 문항은 사회적 바람직성 편향을 줄이고, 특히 민감한 정치·사회 이슈에서 중립적 측정을 가능하게 한다. 다만 실제 여론에 편향이 있다면 균형 문항이 오히려 현실을 왜곡할 수 있다.
Q114. 긍정적 프레이밍과 부정적 프레이밍이 결과를 어떻게 바꾸는가? 동일한 내용도 어떻게 표현하느냐에 따라 응답이 달라진다. "생존율 90%"와 "사망률 10%"는 같은 정보지만 전자에 더 긍정적으로 반응한다. 정책 문항에서도 "지원을 늘리는 것"과 "지출을 확대하는 것"은 다른 응답 분포를 만든다. 이 현상은 카너먼과 트버스키의 전망 이론으로 설명된다. 프레이밍 효과는 없애기 어렵고, 인식하고 통제하는 것이 현실적 접근이다.
Q115. 응답 선택지 순서는 응답에 영향을 미치는가? 미친다. 특히 자기기입식 조사(온라인)에서는 목록의 앞쪽 선택지가 선택될 가능성이 높다(초두효과). 면접조사에서는 마지막에 읽힌 선택지가 선택될 가능성이 높다(최신효과). 이것은 응답자가 선택지를 충분히 검토하지 않고 응답하는 경향 때문이다. 중요한 조사에서는 선택지 순서를 무작위로 배치하거나 버전을 분할해 순서 효과를 통제해야 한다.
Q116. 초두효과와 최신효과 중 어느 것이 더 강한가? 조사 방식에 따라 다르다. 자기기입식에서는 목록을 위에서 아래로 훑기 때문에 초두효과가 강하다. 전화면접에서는 마지막에 들은 것이 기억에 남기 때문에 최신효과가 강하다. 중요한 것은 두 효과 모두 실재한다는 점이다. 어느 선택지가 앞에 오느냐가 결과에 영향을 미치는 구조라면, 그 조사 결과는 선택지 순서에 부분적으로 오염되어 있다.
Q117. 온라인 조사에서 응답 선택지 무작위 배치가 항상 옳은가? 아니다. 자연스러운 순서가 있는 선택지(예: 매우 만족 → 매우 불만족 같은 척도)는 무작위 배치하면 혼란을 준다. 또한 논리적 흐름이 있는 선택지(예: 시간 순서, 규모 순서)도 무작위 배치가 오히려 응답 부담을 키운다. 무작위 배치는 선택지 간 순서 효과를 통제하는 도구이지, 모든 상황에 적용할 원칙이 아니다.
Q118. 개방형 문항은 언제 써야 하는가? 가능한 응답 범주를 사전에 알 수 없을 때, 응답자의 언어와 논리로 의견을 수집해야 할 때, 폐쇄형 문항의 보완이 필요할 때다. 단, 개방형 문항은 응답 부담이 크고 코딩 비용이 높으며 분석이 복잡하다. 온라인 조사에서 개방형 문항 응답률은 폐쇄형보다 현저히 낮다. 많이 쓰는 것이 능사가 아니라, 꼭 필요한 곳에 전략적으로 배치해야 한다.
Q119. 폐쇄형 문항의 기타 항목은 왜 중요한가? 선택지 설계의 완전성을 확인하는 창구이기 때문이다. 기타 응답이 많다는 것은 제시된 선택지가 실제 응답 분포를 커버하지 못하고 있다는 신호다. 기타 응답의 내용을 분석하면 다음 조사에서 선택지를 개선할 수 있다. 기타 항목 없이 폐쇄형만 두는 것은 설계자의 가정이 완전하다는 오만이다. 기타는 선택지이자 품질 지표다.
Q120. 복수응답 문항의 함정은? 응답자가 '해당하는 것을 모두 선택'하는 지시를 얼마나 충실히 따르느냐에 달려 있다. 일부는 가장 중요한 하나만 고르고, 일부는 조금이라도 관련 있으면 모두 고른다. 결과적으로 응답 수가 응답자 간에 크게 달라진다. 또한 선택지 수가 많으면 앞에 있는 항목이 과다 선택된다. 복수응답 결과의 퍼센트 합계가 100을 넘는다는 점도 해석 시 자주 혼동을 일으킨다.
Q121. 행동 의도와 실제 행동 간 괴리는 왜 생기는가? 서베이는 의도를 측정하지만 행동은 상황에 영향을 받기 때문이다. 투표하겠다고 했지만 당일 비가 오면 집에 있는다. 제품을 구매하겠다고 했지만 실제 가격을 보면 망설인다. 사회적 바람직성도 의도를 부풀린다. 환경 친화적 행동 의도는 실제 행동보다 항상 높게 측정된다. 의도와 행동의 간극을 인식하고 해석에 반영해야 한다.
Q122. 회상 편향(recall bias)은 어떻게 최소화하는가? 회상 기간을 최대한 짧게 설정하는 것이 기본이다. "지난 1년간"보다 "지난 한 달간"이 더 정확하다. 구체적 기준점(anchor)을 제공하는 것도 도움이 된다. "추석 이후로" 같은 기억 도우미 사건을 활용하는 방식이다. 일기식 조사나 경험표집법(ESM)은 회상 없이 실시간 측정하므로 회상 편향을 원천 차단한다. 회상 기간이 길어질수록 과소 보고 경향이 강해진다.
Q123. 소셜 데저빌리티 바이어스는 어떻게 탐지하는가? 사회적으로 바람직한 응답이 과다하게 나타나는지 확인한다. 실제 행정 통계나 행동 데이터와 비교했을 때 서베이 응답이 지나치게 긍정적이라면 편향이 의심된다. 투표율 과다 보고, 음주량 과소 보고, 독서량 과다 보고가 전형적 예다. 익명성이 보장된 자기기입식과 면접조사 결과를 비교하는 방법도 유효하다. 민감한 행동일수록 이 편향은 커진다.
Q124. 인지 사전조사(cognitive pretesting)란 무엇인가? 소수의 응답자(보통 5~15명)와 심층 인터뷰를 통해 문항을 어떻게 해석하고 어떤 과정으로 응답하는지 파악하는 방법이다. 소리 내어 생각하기(think-aloud), 탐침 질문(probing), 응답 후 설명 요청 등의 기법을 쓴다. 설문지 초안에서 예상치 못한 문항 해석, 혼란스러운 표현, 어려운 용어를 발견하는 데 효과적이다. 대규모 파일럿보다 비용이 적고 통찰이 깊다.
Q125. 파일럿 테스트는 언제 어떻게 해야 하는가? 본조사 전 소규모(n=30~100)로 실시한다. 단순히 설문지가 작동하는지 확인하는 수준을 넘어, 응답 시간, 문항별 무응답률, 응답 분포의 쏠림, 코딩 가능성까지 확인해야 한다. 특히 척도 문항의 경우 분산이 너무 작으면(모두 같은 응답) 변별력이 없다는 신호다. 파일럿을 건너뛰는 것은 본조사를 파일럿으로 쓰는 것이다.
Q126. 문항 수는 얼마나 되어야 적당한가? 목적에 따라 다르지만, 응답자가 집중력을 유지할 수 있는 범위가 기준이다. 온라인 자기기입식 기준으로 15~20분이 넘지 않도록 설계하는 것이 일반적 원칙이다. 문항 수보다 중요한 것은 문항의 밀도다. 쉬운 단답형 10개보다 복잡한 매트릭스 3개가 더 부담스럽다. 필요한 정보를 얻는 최소한의 문항으로 구성하는 것이 원칙이다. 없애도 되는 문항을 찾는 연습이 필요하다.
Q127. 설문지 도입부(인트로)가 응답률에 미치는 영향은? 첫인상이 결정적이다. 도입부는 응답자가 조사에 참여할지 말지를 결정하는 순간이다. 조사 목적, 소요 시간, 익명성 보장, 의뢰 기관에 대한 정보가 명확하게 제시될수록 응답률이 높다. 길고 딱딱한 동의서 형식은 이탈을 높인다. 반대로 너무 짧고 정보가 없으면 신뢰가 낮아진다. 도입부는 응답자와의 첫 번째 신뢰 계약이다.
________________________________________
6부. 척도 설계
Q128. 척도와 문항은 어떻게 다른가? 문항은 하나의 질문이고, 척도는 하나의 개념을 측정하기 위해 설계된 문항들의 체계다. 단일 문항으로 측정하는 경우도 있지만, 복잡한 개념(이념 성향, 삶의 만족도, 번아웃)은 여러 문항을 묶어 척도로 측정해야 신뢰도와 타당도가 확보된다. 문항은 척도의 구성 요소이고, 척도는 측정의 도구다. 이 구분을 모르면 단일 문항으로 측정한 결과를 척도인 양 보고하는 오류를 범한다.
Q129. 리커트 척도의 정확한 정의는? 1932년 렌시스 리커트가 개발한 방법으로, 동일한 개념을 측정하는 여러 문항에 대해 동의 정도를 응답하고 그 합산 점수로 태도를 측정하는 방식이다. 핵심은 개별 문항이 아니라 문항들의 합산이 측정값이 된다는 것이다. 그러므로 5점 척도 단일 문항 하나를 리커트 척도라고 부르는 것은 엄밀히 틀렸다. 그것은 리커트형 응답 형식일 뿐이다.
Q130. 리커트 척도와 리커트형 척도는 어떻게 다른가? 리커트 척도는 복수 문항의 합산으로 하나의 개념을 측정하는 척도 구성 방식이다. 리커트형 척도는 '매우 동의'에서 '전혀 동의 안 함'까지 동의 정도를 묻는 응답 형식 자체를 말한다. 전자는 측정 설계의 개념이고, 후자는 응답 포맷이다. 실무에서는 두 용어를 혼용하지만, 연구 맥락에서는 구분이 필요하다. 5점 리커트형 문항 하나가 리커트 척도가 되려면 유사한 문항들과 묶여야 한다.
Q131. 5점 척도와 7점 척도 중 어느 것이 더 좋은가? 정답은 없다. 7점이 더 세밀한 변별을 가능하게 하지만, 응답자가 7개 범주를 실제로 구분할 수 있는지가 전제다. 연구에 따르면 인간이 안정적으로 구분할 수 있는 범주는 5~7개 수준이다. 조사 목적이 집단 간 차이를 세밀하게 보는 것이라면 7점, 빠른 응답이 중요하고 응답자 부담을 줄여야 한다면 5점이 낫다. 맥락 없는 선택은 의미 없다.
Q132. 척도점 수가 많을수록 좋은가? 아니다. 10점이나 100점 척도는 심리적으로 세밀해 보이지만, 응답자가 6점과 7점의 차이를 실제로 구분하는지는 의심스럽다. 척도점이 많아질수록 응답자의 인지 부담이 커지고, 실제로는 응답이 몇 개 지점에 집중되는 경향이 있다. 척도점 수는 측정하려는 구성 개념의 복잡성, 응답자 특성, 조사 방식을 함께 고려해서 결정해야 한다.
Q133. 짝수 척도와 홀수 척도 중 무엇을 선택해야 하는가? 측정 대상의 성격에 달려 있다. 개념적으로 중립이 존재하는 태도(찬반, 이념, 만족·불만족)라면 홀수 척도로 중립점을 두는 것이 적절하다. 반면 방향성이 없는 단극 개념(빈도, 정도)이나 응답자가 반드시 입장을 취해야 하는 상황이라면 짝수 척도로 강제 선택을 유도할 수 있다. 중립점 유무는 척도 구조의 핵심 결정이지 편의의 문제가 아니다.
Q134. 중립점은 왜 논쟁이 되는가? 중립 응답이 무엇을 의미하는지 해석이 모호하기 때문이다. 진정한 중립 태도일 수도 있고, 모르겠다는 의미일 수도 있고, 귀찮아서 중간을 찍는 것일 수도 있다. 세 가지 의미가 같은 숫자 안에 섞이면 분석 결과의 해석이 흐려진다. 그렇다고 중립점을 없애면 진짜 중립인 사람에게 거짓 입장을 강요하는 문제가 생긴다. 답은 없고 트레이드오프가 있을 뿐이다.
Q135. 모르겠다와 중간이다는 어떻게 다른가? 완전히 다른 인지 상태다. '중간이다'는 양쪽 입장을 모두 알고 있으며 그 사이 어딘가에 있다는 의미다. '모르겠다'는 판단할 정보나 의견이 없다는 의미다. 이 두 응답을 같은 선택지로 묶으면 데이터 해석이 왜곡된다. 이슈 인지도가 낮은 주제에서 '모르겠다'가 많은 것은 여론 공백의 신호인데, 이를 중립 여론으로 오해하면 분석이 완전히 틀어진다.
Q136. 중립점 제거가 데이터 품질을 높이는가? 상황에 따라 다르다. 중립점 제거는 응답자를 양방향 중 하나로 밀어내는 효과가 있어 변별력이 높아 보인다. 하지만 진정한 중립 태도를 가진 응답자에게 왜곡된 응답을 강요한다. 이슈에 대한 인지가 낮거나 태도가 형성되지 않은 집단이 많은 조사에서 중립점 제거는 오히려 데이터를 오염시킨다. 제거의 목적이 편리함이 아니라 측정 타당성에 근거해야 한다.
Q137. 단극척도와 양극척도는 언제 구분해야 하는가? 개념의 구조에 따라 결정해야 한다. 양극척도는 반대되는 두 극이 존재하는 개념에 쓴다. 진보-보수, 찬성-반대, 긍정-부정이 대표적이다. 단극척도는 없음에서 많음으로 가는 개념, 즉 한 방향으로만 증가하는 개념에 쓴다. 빈도, 강도, 만족도(논란 있음)가 여기 해당한다. 양극 개념을 단극으로 측정하면 반대 방향의 정보를 잃고, 단극 개념을 양극으로 측정하면 구조적으로 맞지 않는 응답을 강요한다.
Q138. 만족도는 단극인가, 양극인가? 논쟁이 있는 질문이다. 전통적으로 만족도는 '불만족'이 반대 극에 있는 양극 개념으로 본다. 그러나 허츠버그의 2요인 이론 관점에서는 만족과 불만족이 별개의 차원이다. 즉 만족이 없다고 불만족인 것이 아닐 수 있다. 실무에서는 대부분 양극척도로 측정하지만, 고객 경험이나 서비스 품질 연구에서는 단극으로 측정하는 것이 더 적합한 경우도 있다. 맥락에 따라 판단해야 한다.
Q139. 이념 성향은 단극으로 측정해야 하는가, 양극으로 해야 하는가? 이것이 한국 여론조사에서 가장 중요한 척도 설계 논쟁 중 하나다. 양극척도(진보-보수)로 측정하면 진보와 보수를 하나의 연속선으로 보는 것이다. 하지만 진보 성향과 보수 성향이 독립적인 차원이라면 각각 단극으로 측정해야 한다. 단일 양극 문항은 응답자를 강제로 진보 혹은 보수로 분류한다. 복합적 이념 구조를 가진 한국 20대를 측정할 때 이 선택은 결과를 크게 바꾼다.
Q140. VAS(시각적 아날로그 척도)는 언제 유용한가? 응답자가 선택지 경계 없이 연속적 판단을 표현해야 할 때 유용하다. 0mm에서 100mm 사이의 선 위에 표시하는 방식으로, 이론적으로 무한히 세밀한 측정이 가능하다. 통증 강도, 감정 강도처럼 연속적이고 미묘한 차이를 포착해야 할 때 적합하다. 그러나 온라인 조사에서는 마우스·터치 정밀도에 따라 응답이 달라질 수 있고, 응답자가 선택지 없이 판단하는 것을 불편해하기도 한다.
Q141. 온도계 척도(feeling thermometer)란 무엇인가? 0에서 100 사이의 온도계 모양 척도로 특정 대상(정치인, 집단, 정책)에 대한 호감도를 측정하는 방법이다. 50이 중립, 100이 가장 호감, 0이 가장 비호감을 의미한다. 미국 선거 연구(ANES)에서 오랫동안 써온 척도로, 집단 간 감정적 거리를 비교하는 데 유용하다. 숫자 척도보다 직관적이고, 연속적 판단을 가능하게 한다. 한국 정치 연구에서도 활용 가능성이 높다.
Q142. 순위척도와 평정척도는 어떻게 다른가? 평정척도(rating scale)는 각 항목을 독립적으로 평가한다. 모든 항목이 동점을 받을 수 있다. 순위척도(ranking scale)는 항목들 사이의 상대적 순서를 매긴다. 1등이 하나뿐이다. 평정척도는 항목 간 절대적 평가 수준을 알 수 있지만 관대화 편향이 생긴다. 순위척도는 변별력이 높지만 항목 수가 많아지면 응답 부담이 급격히 커진다. 목적에 따라 선택해야 한다.
Q143. 강제선택(forced choice) 척도는 왜 쓰는가? 사회적 바람직성 편향을 줄이기 위해서다. 응답자에게 모두 긍정적이거나 모두 중립적으로 보이는 선택지들 중 하나를 강제로 고르게 함으로써, 사회적으로 바람직한 방향으로 응답이 몰리는 것을 막는다. 인사 선발이나 성격 측정에서 자주 쓰인다. 단점은 응답자가 어느 선택지도 자신에게 해당하지 않는다고 느낄 때 불만이 생기고, 데이터 해석이 복잡해진다는 점이다.
Q144. 최대차별화척도(MaxDiff)란 무엇인가? 여러 항목 중 가장 중요한 것과 가장 중요하지 않은 것을 동시에 선택하게 하는 방법이다. 일반적인 중요도 평정에서 발생하는 관대화 편향과 척도 사용 방식 차이를 극복할 수 있다. 응답자는 매번 일부 항목들의 부분집합을 보고 최고·최저를 선택하며, 이 결과를 집계해 전체 항목의 상대적 중요도를 도출한다. 마케팅 조사에서 특히 유용하며, 우선순위 파악이 목적일 때 평정척도보다 변별력이 높다.
Q145. 척도의 신뢰도와 타당도는 어떻게 다른가? 신뢰도는 동일한 측정을 반복했을 때 일관된 결과가 나오는 정도다. 타당도는 측정하려는 개념을 실제로 측정하고 있는지의 문제다. 신뢰도가 높아도 타당도가 낮을 수 있다. 체중계로 키를 일관되게 잴 수 있지만 그것이 키 측정은 아닌 것과 같다. 타당도 없는 신뢰도는 의미 없고, 신뢰도 없는 타당도는 불안정하다. 좋은 척도는 둘 다 필요하다.
Q146. 크론바흐 알파가 높으면 좋은 척도인가? 높은 알파는 문항들이 내적으로 일관된다는 것을 보여주지만, 그것만으로 좋은 척도가 되지는 않는다. 알파는 문항 수가 늘어날수록 자동으로 높아지는 경향이 있다. 또한 알파가 높다는 것은 문항들이 너무 비슷해 사실상 같은 것을 중복 측정할 가능성도 있다. 더 중요한 것은 타당도다. 알파가 0.9라도 엉뚱한 개념을 측정하고 있다면 쓸모없는 척도다.
Q147. 단일 문항 척도는 언제 쓸 수 있는가? 개념이 단순하고 명확하며, 응답자가 즉각적으로 이해할 수 있을 때 가능하다. "전반적인 삶의 만족도는?" 같은 문항은 단일 문항으로도 타당한 측정이 된다는 연구가 있다. 반면 번아웃, 정치적 냉소, 신뢰 같은 다차원적 개념을 단일 문항으로 측정하면 개념의 복잡성을 포착하지 못한다. 설문 길이 제약이 있을 때 단일 문항을 쓰더라도, 그 한계를 인식하고 해석해야 한다.
Q148. 복합 지표(composite index)를 만들 때 주의할 점은? 구성 문항들이 실제로 같은 개념을 측정하는지 확인해야 한다. 이론적 근거 없이 관련 있어 보이는 문항들을 합산하면 의미 없는 숫자가 된다. 문항 간 상관관계 확인, 요인분석을 통한 차원 구조 파악이 선행되어야 한다. 또한 문항별 가중치를 어떻게 설정할지도 결정해야 한다. 단순 합산이 기본이지만, 중요도가 다른 문항들을 동일 가중치로 더하는 것이 항상 옳지는 않다.
Q149. 응답 선택지 레이블은 어떻게 정해야 하는가? 심리적 거리가 균등해야 한다. '매우 동의', '동의', '보통', '비동의', '매우 비동의'에서 각 단계 간 거리가 응답자에게 동등하게 느껴져야 한다. 레이블이 비대칭이면 척도의 중심이 틀어진다. 형용사 선택도 중요하다. '약간'과 '다소'가 같은 강도인지, '매우'와 '극히'가 다른지 검토해야 한다. 레이블은 단순히 이름을 붙이는 것이 아니라 응답자의 인지 구조를 설계하는 행위다.
Q150. 숫자 레이블을 쓰면 응답이 달라지는가? 달라진다. 1~5 대신 -2~+2로 표시하면 응답 분포가 바뀐다. 음수가 포함된 척도에서는 중립점이 0이 되어 응답자가 음수 선택에 더 강한 거부감을 보인다. 또한 1~10 척도에서 1~7에 레이블을 붙이느냐 전체에 붙이느냐에 따라서도 달라진다. 숫자 그 자체가 의미를 전달하기 때문이다. 척도를 설계할 때 숫자의 의미와 레이블의 의미가 충돌하지 않도록 해야 한다.
Q151. 척도 문항을 역코딩할 때 주의할 점은? 역코딩 대상 문항을 정확히 식별하고, 실수 없이 처리했는지 확인해야 한다. 역코딩 후 문항 간 상관관계가 의도한 방향으로 바뀌었는지 검증하는 것이 기본이다. 흔한 실수는 역코딩해야 할 문항을 빠뜨리거나, 이미 역코딩된 문항을 다시 역코딩하는 이중 역코딩이다. 또한 중립점이 있는 홀수 척도에서 역코딩을 할 때 중립값은 그대로 유지되는지도 확인해야 한다.
Q152. 한국어 척도 레이블의 특수한 문제는? 영어 척도를 번역할 때 동등한 심리적 거리를 가진 한국어 표현을 찾기 어렵다는 점이다. 예를 들어 'strongly agree'와 'agree'의 차이가 '매우 동의'와 '동의'로 번역되었을 때 영어 원본과 동일한 심리적 거리를 갖는지 불확실하다. 또한 한국어에는 정도를 나타내는 부사가 풍부해 선택지가 불필요하게 세분화되거나 뉘앙스가 겹치는 문제도 있다. 한국 맥락에 맞는 레이블을 독자적으로 검증할 필요가 있다.
Q153. 번역된 척도를 그대로 쓸 수 있는가? 원칙적으로는 번역·역번역 절차와 인지 사전조사를 거쳐야 한다. 번역자가 원문의 의미를 정확히 옮겼는지, 한국 응답자들이 번역된 문항을 원래 의도대로 해석하는지 확인해야 한다. 특히 심리·사회적 개념은 문화마다 의미가 다를 수 있다. 그냥 번역해서 쓰면 구성 타당도를 잃을 수 있다. 척도 도입의 편의성과 측정 타당도 사이의 트레이드오프를 인식해야 한다.
Q154. 척도 응답을 연속형으로 분석해도 되는가? 통계학적으로는 논쟁이 있지만 실무에서는 널리 허용된다. 엄밀히 말하면 5점 리커트형 척도는 순서형 데이터다. 간격이 동등하다고 가정할 수 없다. 그러나 문항 수가 충분하고 응답 분포가 정규분포에 가깝다면 연속형으로 처리해도 결과에 큰 차이가 없다는 연구가 많다. 단일 문항은 순서형으로, 여러 문항의 합산 점수는 연속형으로 분석하는 것이 현실적 타협점이다.
Q155. 척도 불변성(measurement invariance)이란 무엇인가? 같은 척도가 서로 다른 집단에서 동일한 방식으로 작동하는지를 검증하는 개념이다. 예를 들어 '삶의 만족도' 척도가 남성과 여성에게 동일한 의미를 갖는지, 응답 방식이 같은지 확인하는 것이다. 불변성이 확보되지 않으면 집단 간 평균 비교가 의미 없다. 형태 불변성, 측정 불변성, 스칼라 불변성 순으로 단계적으로 검증한다. 비교 연구에서 반드시 선행되어야 할 절차다.
Q156. 집단 간 척도 비교는 어떤 전제가 필요한가? 척도 불변성이 확보되어야 한다. 최소한 측정 불변성(factor loading 동일)이 확인되어야 평균 차이를 비교할 수 있고, 스칼라 불변성(절편 동일)이 확인되어야 평균 수준 비교가 유효하다. 이 검증 없이 집단 간 평균을 비교하는 것은, 같은 자를 쓴다고 가정하고 비교하는 것과 같다. 실무 조사에서 이 검증은 거의 이루어지지 않는다. 비교 연구의 숨겨진 취약점이다.
Q157. 척도 설계에서 가장 많이 범하는 실수는? 단극·양극 구분 없이 관행적으로 5점 척도를 쓰는 것이다. 개념의 구조를 먼저 생각하지 않고 형식부터 결정한다. 그 다음으로 흔한 실수는 중립점과 모름 응답을 구분하지 않는 것, 레이블의 심리적 거리가 균등한지 검토하지 않는 것이다. 더 근본적인 실수는 단일 문항으로 복잡한 개념을 측정하면서 타당도를 검증하지 않는 것이다. 척도 설계의 가장 큰 적은 관행이다.
________________________________________
7부. 모드와 조사 방식
Q158. 조사 모드는 왜 중요한가? 모드는 단순한 전달 방식이 아니라 측정 환경 자체다. 같은 질문도 전화로 물으면 면접조사와 다른 응답이 나오고, 온라인으로 물으면 또 달라진다. 조사원의 존재, 익명성 수준, 응답 속도, 시각적 정보 제공 여부가 모두 모드에 따라 달라진다. 모드는 커버리지 오차, 측정 오차, 무응답 오차에 동시에 영향을 미친다. TSE 관점에서 모드 선택은 설계의 핵심 결정이다.
Q159. 전화조사와 온라인조사 결과는 왜 다를 수 있는가? 여러 메커니즘이 동시에 작동한다. 커버리지가 다르고(전화는 온라인 비이용자 포함, 온라인은 패널 가입자 한정), 사회적 바람직성 편향의 강도가 다르며(조사원 있는 전화조사에서 더 강함), 응답 속도도 다르다. 정치 성향, 이념, 민감한 사회 이슈에서 모드별 차이가 특히 크다. 두 조사 결과가 다를 때 어느 것이 더 정확한지는 단정할 수 없다.
Q160. 면접조사는 왜 비싼가? 조사원 훈련, 이동, 면접 시간, 현장 관리 비용이 모두 포함되기 때문이다. 응답자 한 명을 만나기 위해 조사원이 이동하고, 거부당하고, 다시 방문하는 과정이 필요하다. 온라인 조사와 비교하면 응답자 1인당 비용이 수십 배 차이가 난다. 그러나 면접조사는 복잡한 문항 처리, 시각 보조 자료 활용, 응답 품질 통제가 가능하다는 장점이 있다. 비용은 품질에 대한 투자다.
Q161. 전화조사에서 유선과 무선의 비중은 어떻게 정해야 하는가? 모집단 구조를 반영해야 한다. 유선전화 가구 비율이 계속 줄고 있으므로, 무선 비중을 높이는 것이 커버리지 확보에 유리하다. 현재 한국 여론조사에서 무선 70~80%가 일반적이다. 그러나 유선만 사용하는 고령층이 있어 유선을 완전히 배제하면 이들이 누락된다. 유무선 비중 결정은 단순한 비용 계산이 아니라 커버리지 전략이다.
Q162. ARS 조사는 여론조사로 인정받을 수 있는가? 방법론적으로 한계가 명확하다. ARS는 자동 응답 시스템으로 조사원 없이 진행되며, 응답률이 매우 낮고 자발적 참여자에 편중된다. 특히 특정 이슈에 강한 관심을 가진 집단이 과다 응답하는 경향이 있다. 공직선거법상 여론조사로 등록은 가능하지만, 방법론적 대표성은 다른 모드보다 현저히 낮다. ARS 결과를 다른 조사와 동일선상에서 비교하는 것은 무리다.
Q163. 온라인 패널 조사의 최대 약점은 무엇인가? 자발적 가입에서 오는 구조적 편향이다. 온라인 패널은 설문 참여에 관심 있고, 디지털 환경에 익숙하며, 인센티브에 반응하는 사람들로 구성된다. 이들이 일반 모집단을 대표한다고 보기 어렵다. 가중치로 인구통계를 맞출 수 있지만, 심리적·행동적 특성의 편향은 가중치로 교정되지 않는다. 겉으로는 대표성이 있어 보이지만 내부는 편향된 표본이다.
Q164. CAPI, CATI, CAWI는 어떻게 다른가? 컴퓨터 보조 방식의 차이다. CAPI(Computer Assisted Personal Interviewing)는 면접조사원이 태블릿·노트북으로 응답을 입력한다. CATI(Computer Assisted Telephone Interviewing)는 전화면접에서 조사원이 화면을 보며 질문하고 입력한다. CAWI(Computer Assisted Web Interviewing)는 응답자가 직접 웹에서 응답하는 자기기입식이다. 조사원 개입 여부와 접촉 방식이 핵심 차이이며, 이것이 데이터 품질과 오차 구조를 결정한다.
Q165. 조사원이 있으면 데이터 품질이 항상 좋아지는가? 반드시 그렇지 않다. 조사원이 있으면 복잡한 질문 처리, 무응답 설득, 맥락 파악이 가능하다는 장점이 있다. 하지만 사회적 바람직성 편향을 키우고, 조사원 특성(성별, 연령, 억양)이 응답에 영향을 미치는 조사원 효과가 발생한다. 조사원이 데이터를 조작하거나 가짜 응답을 만드는 부정 문제도 있다. 조사원의 존재는 일부 오차를 줄이고 다른 오차를 키우는 트레이드오프다.
Q166. 조사원 효과(interviewer effect)란 무엇인가? 조사원의 특성이나 행동이 응답자의 답변에 영향을 미치는 현상이다. 조사원의 성별, 인종, 연령, 말투, 태도가 응답 방향에 영향을 준다. 예를 들어 여성 조사원이 젠더 이슈를 물으면 응답자가 다른 방향으로 응답하는 경향이 있다. 조사원 훈련으로 일부 통제 가능하지만 완전히 제거할 수 없다. 조사원 효과는 측정 오차의 중요한 원천 중 하나이며, 조사원이 많을수록 결과의 분산이 커진다.
Q167. 모드 효과(mode effect)를 어떻게 통제하는가? 완전한 통제는 어렵다. 분할표본실험(split-ballot)으로 동일 문항을 다른 모드로 측정해 차이를 정량화할 수 있다. 혼합 모드 조사에서는 모드 지시변수를 분석 모형에 포함해 모드 차이를 통계적으로 조정한다. 하지만 모드 효과의 원인이 커버리지 차이인지 측정 차이인지 구분하기 어렵다. 모드 효과를 완전히 없애려면 단일 모드를 고수해야 하지만, 그러면 커버리지가 제한된다.
Q168. 혼합 모드 조사(mixed-mode survey)의 장단점은? 장점은 커버리지를 넓힐 수 있다는 것이다. 온라인으로 접근하기 어려운 집단에는 전화나 면접을 추가해 포괄성을 높인다. 단점은 모드 간 응답 차이가 생겨 데이터를 단순 합산하기 어렵다는 것이다. 모드별로 측정 오차 구조가 다르므로 비교 분석이 복잡해진다. 비용 절감과 커버리지 향상이라는 실용적 이점이 있지만, 방법론적 복잡성이라는 대가를 치른다.
Q169. 혼합 모드에서 모드별 응답 차이는 어떻게 처리하는가? 크게 두 가지 접근이 있다. 설계 단계에서 모드 간 동등성을 확보하도록 설문지를 조정하는 방법과, 분석 단계에서 모드를 공변량으로 넣어 차이를 통계적으로 보정하는 방법이다. 전자는 근본적 해결이지만 모드별 최적화를 포기해야 한다. 후자는 편의적이지만 모드 효과와 실제 차이를 완전히 분리하기 어렵다. 혼합 모드 조사에서는 모드 차이를 무시하는 것이 가장 나쁜 선택이다.
Q170. 웹-전화 순차 조사는 대표성을 높이는가? 커버리지 측면에서는 그렇다. 웹으로 먼저 응답 기회를 주고, 미응답자에게 전화로 추가 접촉하는 방식은 온라인 비이용자를 포함시킬 수 있다. 하지만 웹 응답자와 전화 응답자 사이에 특성 차이가 있고, 모드 효과도 발생한다. 단순히 접촉 방식을 다양화하는 것이 대표성을 보장하지는 않는다. 순차 설계는 커버리지 도구이지 대표성 보증서가 아니다.
Q171. 종단조사에서 모드를 바꾸면 어떤 문제가 생기는가? 시계열 비교가 오염된다. 1차 조사를 전화로, 2차 조사를 온라인으로 진행하면 시점 간 응답 차이가 실제 태도 변화인지 모드 차이인지 구분할 수 없다. 특히 모드 민감성이 높은 문항(정치 성향, 사회 이슈)에서 문제가 심각하다. 종단조사는 모드 일관성이 기본 원칙이다. 불가피하게 모드를 바꿔야 한다면 전환 시점에 두 모드를 동시에 운영해 모드 효과를 추정해야 한다.
Q172. 모바일 최적화가 데이터 품질에 미치는 영향은? 최적화 여부가 응답 경험과 품질에 직접 영향을 미친다. 모바일에 최적화되지 않은 설문지는 작은 화면에서 읽기 어렵고, 매트릭스 문항은 가로 스크롤이 필요해 응답 오류와 이탈이 늘어난다. 반면 모바일에 맞게 설계된 설문지는 응답 완료율이 높고 오류가 적다. 현재 온라인 조사 응답의 절반 이상이 모바일에서 이루어지는 환경에서 모바일 최적화는 선택이 아니라 기본이다.
Q173. 설문 디자인(UI)은 응답에 영향을 미치는가? 명확히 영향을 미친다. 척도를 라디오 버튼으로 표시하느냐 슬라이더로 표시하느냐에 따라 응답 분포가 달라진다. 선택지의 배열 방향(수평 vs 수직), 컬러 코딩, 글자 크기, 진행률 표시 여부도 응답 행동에 영향을 준다. 특히 모바일에서는 UI 설계가 응답 정확도에 미치는 영향이 더 크다. 설문 UI는 단순한 외양 문제가 아니라 측정 도구의 일부다.
Q174. AI 인터뷰어는 조사원 효과를 줄이는가? 일부는 줄이지만 새로운 문제를 만든다. AI 인터뷰어는 성별, 인종, 억양 등 인간 조사원의 특성에서 오는 편향을 제거한다. 민감한 주제에서 응답자가 더 솔직하게 응답한다는 연구 결과도 있다. 그러나 AI 자체의 말투, 목소리 특성, 대화 패턴도 응답에 영향을 미친다. 조사원 효과가 없어지는 것이 아니라 AI 효과로 대체된다. 그 AI 효과가 어떤 편향을 만드는지는 아직 충분히 연구되지 않았다.
Q175. 챗봇 서베이의 가능성과 한계는? 대화형 인터페이스는 응답자 참여도를 높이고 자연스러운 맥락에서 응답을 이끌어낼 수 있다. 개방형 응답 수집, 분기 설계, 후속 질문이 유연하다. 한계는 표준화다. 챗봇 대화는 응답자마다 경로가 달라지고, 이것이 응답 간 비교 가능성을 낮춘다. 또한 대화 길이와 방향이 챗봇 알고리즘에 의해 결정되므로 조사자가 측정을 완전히 통제하기 어렵다. 탐색적 조사에는 유용하지만 표준화된 측정에는 한계가 있다.
Q176. 경험표집법(ESM)이란 무엇인가? 응답자가 일상을 보내는 중 무작위 또는 정해진 시점에 알림을 받고 즉시 응답하는 방법이다. 회상 편향을 최소화하고 실시간 경험을 포착할 수 있다는 것이 최대 장점이다. 감정 상태, 통증, 스트레스처럼 시간에 따라 변하는 경험을 측정하는 데 최적이다. 단점은 응답자 부담이 크고, 알림이 방해가 될 수 있으며, 탈락률이 높다는 것이다. 스마트폰 보급으로 ESM의 적용 범위가 크게 넓어졌다.
Q177. 일기식 조사(diary survey)는 어떤 장점이 있는가? 일정 기간 동안 응답자가 직접 행동, 경험, 감정을 기록하는 방식이다. 회상 편향을 줄이고, 시간 흐름에 따른 변화를 추적할 수 있다. 미디어 이용 조사, 식품 섭취 조사, 시간 사용 조사에서 전통적으로 사용돼왔다. 단점은 기록 부담으로 인한 중도 탈락과 기록 자체가 행동을 변화시키는 반응성(reactivity) 효과다. 기록한다는 사실이 측정 대상을 바꿀 수 있다.
Q178. 암묵적 측정(implicit measurement)은 서베이를 대체할 수 있는가? 보완할 수 있지만 대체는 어렵다. 암묵적 연상 검사(IAT) 등은 응답자가 의식하지 못하는 태도를 측정해 사회적 바람직성 편향을 피할 수 있다. 그러나 암묵적 측정의 신뢰도와 타당도가 명시적 척도보다 낮다는 연구도 많다. 암묵적 태도가 실제 행동을 예측하는 힘도 맥락에 따라 다르다. 두 방법은 다른 것을 측정한다고 보는 것이 더 정확하다. 서베이를 없앨 도구가 아니라 다른 층위의 정보를 추가하는 도구다.
Q179. 조사 모드 선택 기준은 무엇인가? 모집단 커버리지, 비용, 문항 복잡성, 민감도, 응답률 목표를 종합적으로 따져야 한다. 고령층이 많은 모집단이라면 온라인만으로는 커버리지가 부족하다. 복잡한 시각 자료를 제시해야 한다면 전화는 적합하지 않다. 민감한 주제라면 조사원 없는 자기기입식이 유리하다. 모드 선택은 하나의 기준으로 결정되지 않는다. 제약 조건과 우선순위를 명시적으로 정리하고 선택해야 한다.
Q180. 우편조사는 아직도 유효한가? 특정 맥락에서는 여전히 유효하다. 인터넷 접근이 어려운 고령층, 농촌 지역, 시설 거주자 조사에서 우편은 유일한 현실적 선택일 수 있다. 응답자가 자신의 속도로 응답할 수 있고, 긴 설문지도 가능하다는 장점도 있다. 단점은 응답 시간이 길고(2~4주), 응답률이 낮으며, 응답자가 실제 대상자인지 확인할 수 없다는 것이다. 디지털 전환 시대에도 우편의 역할이 완전히 사라지지는 않는다.
Q181. 생체 데이터와 서베이 데이터를 결합하면 어떤 가능성이 생기는가? 주관적 보고와 객관적 측정을 동시에 확보할 수 있다. 심박수, 피부 전도도, 수면 패턴 같은 웨어러블 데이터와 서베이 응답을 연결하면 스트레스, 건강, 감정 상태를 다층적으로 볼 수 있다. 응답자가 의식하지 못하거나 보고하지 않는 생리적 반응을 포착한다. 그러나 개인정보 민감도가 매우 높고, 데이터 결합 동의와 보안 문제가 해결되어야 한다. 가능성은 크지만 윤리적·기술적 장벽도 높다.
Q182. 위치 기반 조사는 어떤 편향을 갖는가? 특정 장소에 있는 사람만 표집된다는 구조적 편향이 있다. 쇼핑몰 인터셉트 조사는 쇼핑몰 방문자를 모집단으로 삼는 것이고, 행사장 조사는 그 행사에 온 사람들만 포함한다. 이 집단이 일반 모집단과 다르다는 것은 자명하다. 위치 기반 스마트폰 데이터와 연계한 조사도 마찬가지다. 특정 앱 사용자, 특정 지역 방문자라는 커버리지 제약이 있다. 위치 기반 조사의 일반화 가능성은 항상 제한적이다.
________________________________________
8부. 가중치
Q183. 가중치는 왜 필요한가? 표본이 모집단을 완벽하게 반영하지 못하기 때문이다. 조사 결과를 모집단 전체에 대한 추정값으로 쓰려면, 과대 대표된 집단은 낮추고 과소 대표된 집단은 높여야 한다. 가중치는 표본과 모집단 사이의 불일치를 교정하는 수치적 장치다. 가중치 없이 발표하는 것은 왜곡된 표본 구조를 그대로 결과로 내놓는 것이다.
Q184. 가중치를 안 하면 어떤 일이 생기는가? 표본 구성 편향이 그대로 결과에 반영된다. 온라인 패널에서 20~30대가 과다 응답했다면 미가중 결과는 젊은 층의 의견을 과대 대표한다. 선거 여론조사에서 가중치를 안 하면 특정 연령대나 지역의 지지율이 실제와 크게 달라진다. 가중치는 선택이 아니라 추정의 기본 절차다. 특별한 이유 없이 가중치를 생략하는 것은 방법론적 태만이다.
Q185. 모집단 구조를 모르면 가중치를 할 수 없는가? 완전히 모른다면 불가능하다. 가중치는 표본 구조를 모집단 구조에 맞추는 작업이므로, 기준이 되는 모집단 정보가 있어야 한다. 실무에서는 인구총조사, 주민등록 통계, 통계청 인구 추계를 기준으로 쓴다. 모집단 정보가 없는 변수는 가중변수로 쓸 수 없다. 가중치의 품질은 기준 모집단 정보의 정확성에 직접적으로 의존한다.
Q186. 인구통계 가중치만으로 충분한가? 대부분의 경우 충분하지 않다. 성별·연령·지역을 맞춰도 응답자와 비응답자 사이의 태도·행동 차이가 인구통계로 설명되지 않는다면 편향은 남는다. 특히 정치 성향이나 이념 같은 변수는 인구통계와 독립적으로 응답 참여 여부에 영향을 미친다. 이상적으로는 측정 목적과 관련된 변수를 가중변수에 포함해야 하지만, 모집단 기준값을 구하기 어렵다는 현실적 제약이 있다.
Q187. 가중변수는 어떻게 선택해야 하는가? 두 가지 조건을 동시에 충족해야 한다. 첫째, 표본과 모집단 간 분포 차이가 있어야 한다. 분포가 이미 일치하면 가중치가 필요 없다. 둘째, 그 변수가 주요 결과 변수와 관련이 있어야 한다. 관련 없는 변수로 가중치를 걸면 추정 효율만 낮아진다. 통상적으로 성·연령·지역을 쓰지만, 조사 주제에 따라 학력, 직업, 정치 성향도 가중변수 후보가 된다.
Q188. 림가중(raking)이란 무엇인가? 여러 가중변수의 주변 분포를 동시에 모집단에 맞추는 반복 알고리즘이다. 예를 들어 성별 분포를 먼저 맞추고, 그 다음 연령 분포를 맞추고, 다시 성별로 돌아가는 과정을 수렴할 때까지 반복한다. 셀별 교차 빈도를 정확히 맞출 수 없을 때 유용하다. 교차 셀의 기준값이 없어도 각 변수의 주변 분포만 있으면 적용할 수 있다. 한국 여론조사에서 가장 널리 쓰이는 가중치 방법이다.
Q189. 사후층화가중(post-stratification)과 림가중은 어떻게 다른가? 사후층화는 성·연령·지역의 교차 셀별로 정확한 모집단 비율에 맞추는 방법이다. 교차 셀의 모집단 정보가 있어야 하고, 셀별 표본 수가 충분해야 한다. 셀 빈도가 작으면 극단적 가중값이 생긴다. 림가중은 교차 셀 정보 없이 각 변수의 주변 분포만으로 가중치를 산출한다. 요구 정보가 적고 극단값 발생 위험이 낮다. 실무에서는 정보 가용성과 표본 규모에 따라 선택한다.
Q190. 가중치의 분산 효과(design effect)란 무엇인가? 가중치 적용이 추정의 분산을 얼마나 키우는지를 나타내는 지표다. 가중치가 클수록, 가중값의 편차가 클수록 분산 효과가 커진다. 분산 효과가 2라면 가중치 적용 후 실제 유효표본 크기가 명목 표본 크기의 절반이라는 의미다. n=1,000이어도 분산 효과가 2면 추정 정밀도는 n=500 수준이다. 가중치를 쓰면 항상 어느 정도의 정밀도 손실이 생긴다는 것을 인식해야 한다.
Q191. 극단적 가중값(extreme weights)은 왜 문제인가? 소수의 응답자가 전체 추정에 과도한 영향을 미치기 때문이다. 가중값이 10이라면 그 응답자 한 명이 10명 몫의 영향을 갖는다. 이 응답자의 응답이 비전형적이거나 오류라면 추정 전체가 흔들린다. 극단적 가중값은 분산을 키우고 추정의 안정성을 떨어뜨린다. 가중값 분포를 확인하지 않고 결과만 보는 것은 시한폭탄을 무시하는 것이다.
Q192. 가중값 트리밍(trimming)은 언제 해야 하는가? 극단적 가중값이 추정에 불안정성을 만들 때다. 일반적으로 최대 가중값이 중앙값의 5~6배를 넘으면 트리밍을 고려한다. 트리밍은 극단값을 특정 상한으로 잘라내고, 잘린 부분을 다른 응답자에게 재배분하는 방식이다. 그러나 트리밍은 트레이드오프다. 분산은 줄지만 편향이 약간 증가한다. 트리밍 기준과 방법을 사전에 명시하고, 트리밍 전후 결과를 비교하는 것이 투명한 절차다.
Q193. 가중치 적용 전후 기술통계 비교는 왜 중요한가? 가중치가 실제로 의도한 방향으로 작동했는지 확인해야 하기 때문이다. 가중 전후 주요 인구통계 분포가 기준 모집단과 일치하는지, 주요 결과 변수의 분포가 어떻게 달라졌는지 확인해야 한다. 차이가 크다면 표본 편향이 심각하다는 신호이고, 차이가 거의 없다면 가중이 의미 있는 교정을 하지 못했다는 신호일 수 있다. 가중치 적용은 눈 감고 하는 작업이 아니다.
Q194. 온라인 패널의 성향점수가중(propensity score weighting)이란? 온라인 패널 참여 여부를 결과변수로 하는 로지스틱 회귀 모형을 만들어, 패널 참여 확률이 낮은 집단의 응답자에게 높은 가중치를 부여하는 방법이다. 일반 모집단과 온라인 패널의 특성 차이를 보정하려는 시도다. 단순 인구통계 가중치보다 정교하지만, 모형에 포함된 변수로만 편향을 교정할 수 있다. 관측되지 않는 특성의 차이는 여전히 남는다.
Q195. 가중치가 분석 결과를 역전시킬 수 있는가? 드물지만 가능하다. 특정 집단이 표본에서 크게 과소 대표되었고 그 집단의 응답 방향이 다른 집단과 반대라면, 가중치 적용 후 결과가 역전될 수 있다. 예를 들어 미가중 결과에서 찬성이 다수였지만 고령층이 과소 대표됐고 고령층이 강하게 반대한다면, 가중 후 반대가 다수가 될 수 있다. 이것이 가중치를 사후에 조작해 원하는 결과를 만드는 것이 가능한 이유이기도 하다.
Q196. 의뢰인에게 유리한 가중 구조를 사후에 선택하는 것은 어떤 문제인가? 방법론적 조작이다. 여러 가중 방식을 시도해보고 의뢰인에게 유리한 결과를 내는 방식을 선택하는 것은, 겉으로는 통계적 절차를 따르지만 실질적으로 결과를 만드는 행위다. 이것이 문제인 이유는 가중치라는 과학적 외양이 조작을 가려주기 때문이다. 사전에 가중 방법을 명시하고 그대로 따르는 것이 유일한 방어책이다. 가중치는 설계 단계에서 결정되어야 한다.
Q197. 가중치 없이 보고하는 것이 정직한 경우는 언제인가? 표본이 실제로 모집단을 잘 대표할 때, 또는 가중치가 결과를 거의 바꾸지 않을 때다. 또한 가중 모집단 정보가 신뢰할 수 없을 때, 가중치 적용이 오히려 편향을 키울 위험이 있을 때도 미가중이 나을 수 있다. 특수 목적 표본(특정 집단만 대상)이나 탐색적 조사에서는 가중이 불필요하거나 의미 없을 수 있다. 가중치를 적용하지 않는 것도 근거가 있어야 한다.
Q198. 하위집단 분석에서 가중치 적용 방식은 달라야 하는가? 상황에 따라 다르다. 전체 모집단 추정을 위한 가중치를 하위집단 분석에 그대로 쓰면, 그 하위집단 내부에서 가중치가 의미 있는 교정을 하는지 확인해야 한다. 하위집단 내 가중값 분포가 극단적이라면 별도의 하위집단 전용 가중치를 산출하는 것이 낫다. 단, 하위집단별 가중치를 쓰면 전체와 하위집단 결과를 단순 합산하기 어려워진다. 분석 목적에 따라 결정해야 한다.
Q199. 패널 조사의 종단 가중치란 무엇인가? 반복 조사에서 시간이 지남에 따라 발생하는 표본 탈락과 구성 변화를 교정하는 가중치다. 초기 표본의 인구통계 구조를 유지하면서, 탈락자의 특성을 반영해 잔류 응답자에게 추가 가중치를 부여한다. 종단 분석에서 1차 웨이브와 최종 웨이브의 비교가 의미 있으려면 종단 가중치가 필요하다. 탈락이 무작위적이지 않다면 종단 가중치 없는 장기 패널 분석은 심각한 편향을 안고 있다.
Q200. 가중치 설계를 사전에 명시해야 하는가? 반드시 그래야 한다. 가중변수, 기준 모집단 출처, 가중 방법, 극단값 처리 기준을 사전에 확정하고 문서화하는 것이 방법론 투명성의 기본이다. 사후에 결과를 보고 가중 방법을 조정하는 것은 p-hacking과 동일한 구조의 문제다. 사전 명시는 의뢰인 압력이나 연구자의 무의식적 편향으로부터 분석을 보호하는 장치이기도 하다. 좋은 가중치는 결과를 보기 전에 결정된다.
Q201. 가중치는 데이터의 결함을 고칠 수 있는가? 제한적으로만 가능하다. 인구통계 분포의 불일치는 교정할 수 있다. 하지만 측정 오차, 응답 편향, 문항 설계 문제는 가중치로 해결되지 않는다. 잘못된 질문으로 수집된 데이터에 아무리 정교한 가중치를 걸어도 측정 오차는 그대로다. 가중치는 표본 대표성 교정 도구이지 데이터 품질 복원 도구가 아니다. 가중치를 만능으로 보는 시각이 오히려 위험하다.
Q202. 지역별 가중치는 어떻게 설정해야 하는가? 지역 분류 기준과 모집단 기준값을 먼저 확정해야 한다. 17개 시도별로 할지, 수도권·비수도권으로 묶을지, 도시 규모별로 분류할지에 따라 결과가 달라진다. 기준값은 주민등록 통계나 인구총조사를 쓴다. 지역별 가중치를 성·연령 가중치와 함께 쓸 때는 교차 셀이 급격히 늘어나므로 림가중이 현실적이다. 지역 분류가 너무 세밀하면 셀 빈도 부족과 극단값 문제가 생긴다.
Q203. 가중치 적용 후 유효표본 크기(effective sample size)란? 가중치 적용으로 인한 분산 증가를 반영한 실질적 표본 크기다. 공식은 명목 표본 크기를 분산 효과로 나눈 값이다. 예를 들어 n=1,000이고 분산 효과가 1.5라면 유효표본 크기는 약 667명이다. 표집오차와 통계적 검정은 명목 n이 아닌 유효표본 크기 기준으로 해야 한다. 가중치를 쓰면서 명목 n을 그대로 쓰면 정밀도를 과장하는 결과가 된다.
Q204. 가중치가 있는 데이터의 카이제곱 검정은 어떻게 하는가? 단순히 가중치를 적용한 빈도로 카이제곱 검정을 하면 안 된다. 가중 빈도는 명목 n보다 커지거나 작아지므로 검정 통계량이 왜곡된다. 설계 기반 분석(design-based analysis)을 적용하거나, 분산 효과를 보정한 수정 카이제곱 통계량을 써야 한다. SPSS의 복합표본 분석 모듈이나 R의 survey 패키지가 이를 지원한다. 가중 데이터에 일반 카이제곱을 그냥 쓰는 것은 흔하지만 틀린 관행이다.
Q205. 인구구조 변화에 따라 가중 모집단을 어떻게 갱신해야 하는가? 가중 기준값은 가장 최신의 신뢰할 수 있는 모집단 통계를 써야 한다. 통계청의 주민등록 인구 통계는 매월 갱신되므로 조사 시점에 맞는 기준을 써야 한다. 인구총조사 기반 가중치를 5년 이상 그대로 쓰면 인구구조 변화가 반영되지 않아 편향이 생긴다. 고령화, 지역 인구 이동, 1인 가구 증가 같은 구조적 변화는 가중치 기준에 즉시 반영되어야 한다. 기준값 출처와 기준 시점을 항상 명시해야 한다.
Q206. 가중치는 비표본오차를 줄일 수 있는가? 일부는 가능하지만 전부는 아니다. 무응답 가중치 조정은 무응답 오차의 일부를 줄인다. 인구통계 가중치는 커버리지 오차를 부분적으로 교정한다. 그러나 측정 오차(잘못된 질문, 응답 편향)와 처리 오차(코딩 실수)는 가중치로 건드릴 수 없다. 가중치의 역할 범위를 정확히 이해해야 한다. 비표본오차 전체를 해결해주는 도구는 없다. 각 오차는 해당 단계에서 직접 관리해야 한다.
________________________________________
9부. 분석과 해석
Q207. 기술통계와 추론통계를 혼동하면 어떤 문제가 생기는가? 기술통계는 수집된 데이터 자체를 요약하고, 추론통계는 표본에서 모집단을 추정한다. 혼동하면 표본의 특성을 모집단의 사실인 양 단정하거나, 반대로 추론이 필요한 상황에서 기술통계만으로 결론을 내린다. 가장 흔한 오류는 표본 내 차이를 통계적 검정 없이 모집단 차이로 서술하는 것이다. "20대의 47%가 찬성했다"는 기술이고, "20대는 찬성하는 경향이 있다"는 추론이다. 이 두 문장이 다르다는 것을 모르면 분석 전체가 흔들린다.
Q208. 교차분석에서 무엇을 봐야 하는가? 단순히 셀 비율만 볼 것이 아니라 세 가지를 함께 봐야 한다. 첫째, 집단 간 차이의 방향과 크기. 둘째, 그 차이가 통계적으로 유의한지. 셋째, 셀 빈도가 검정에 충분한지다. 카이제곱 유의확률만 보고 끝내는 분석은 반쪽짜리다. 차이가 어느 셀에서 왔는지, 표준화 잔차가 큰 셀이 어디인지 확인해야 한다. 또한 행 퍼센트로 볼지 열 퍼센트로 볼지를 분석 목적에 맞게 선택해야 한다. 방향을 바꾸면 다른 이야기가 나온다.
Q209. 통계적으로 유의하지 않은 차이를 보고해야 하는가? 보고해야 한다. 유의하지 않다는 것은 차이가 없다는 것이 아니라, 주어진 표본 크기에서 차이가 있다고 확신하기 어렵다는 것이다. 유의하지 않은 결과를 숨기면 출판 편향과 같은 구조적 왜곡이 생긴다. 특히 탐색적 조사에서는 유의하지 않은 결과도 향후 설계에 중요한 정보다. 단, 유의하지 않은 차이를 서술할 때는 "차이가 없다"가 아니라 "차이가 확인되지 않았다"고 표현해야 정확하다.
Q210. 소수점 몇 자리까지 보고해야 하는가? 측정의 정밀도를 넘어서는 소수점은 의미가 없다. 응답자 1,000명 기준 퍼센트는 0.1%p 단위가 의미 있는 최소 단위다. 소수점 둘째 자리(0.01%p)는 표집오차(±3.1%p)에 비해 무의미하게 정밀하다. 그럼에도 보고서에 42.37% 같은 숫자가 등장하는 것은 정밀도가 아니라 과신의 신호다. 평균값은 소수점 한 자리, 퍼센트는 정수 또는 소수점 한 자리가 실무에서 적절한 기준이다. 더 많은 자릿수는 숫자의 권위를 빌리는 장식이다.
Q211. 퍼센트와 퍼센트포인트는 어떻게 다른가? 퍼센트(%)는 비율 자체이고, 퍼센트포인트(%p)는 비율 간의 차이다. 지지율이 40%에서 50%로 올랐을 때 10%p 상승이다. 이것을 10% 상승이라고 하면 틀렸다. 10% 상승은 40%의 10%, 즉 4%p 증가를 의미한다. 언론 보도에서 이 두 용어는 자주 혼용된다. 의도적이든 실수든 혼용은 변화의 크기를 왜곡한다. 서베이 결과를 다룰 때 이 구분은 기본 중의 기본이다.
Q212. 응답 비율의 분모는 항상 전체 응답자인가? 아니다. 문항 구조에 따라 분모가 달라진다. 해당자에게만 물은 문항이라면 분모는 해당 필터를 통과한 응답자다. 복수응답 문항이라면 분모는 응답자 수이지만 분자의 합이 100을 넘는다. 특정 경험 보유자에게만 물은 만족도라면 전체 응답자가 분모가 되면 안 된다. 분모 설정이 잘못되면 비율 자체가 왜곡된다. 표를 만들기 전에 이 문항의 올바른 분모가 무엇인지 먼저 확인해야 한다.
Q213. 모름·무응답을 분모에서 빼면 어떤 일이 생기는가? 비율이 높아진다. 찬성 40%, 반대 40%, 모름 20%일 때 모름을 빼면 찬성 50%, 반대 50%가 된다. 이것은 사실과 다른 그림이다. 더 중요한 것은 모름 응답 자체가 의미 있는 정보라는 점이다. 20%가 모른다는 것은 이슈 인지도가 낮거나 태도가 형성되지 않았다는 신호다. 이것을 제거하면 현실을 왜곡한다. 모름을 빼고 보고하는 관행은 결과를 더 선명하게 보이게 하려는 편의적 선택이다.
Q214. 복수응답 문항의 퍼센트는 어떻게 계산하는가? 분모는 전체 응답자 수이고, 각 항목을 선택한 응답자 수를 분자로 한다. 따라서 각 항목의 퍼센트 합계가 100을 넘는 것이 정상이다. 선택한 항목 수를 분모로 해서 합계를 100으로 맞추는 것은 잘못된 방법이다. 그렇게 하면 각 항목의 퍼센트가 전체 응답자 대비 비율이 아니라 선택 건수 대비 비율이 되어 해석이 달라진다. 복수응답 결과 표에는 반드시 사례수(n)와 함께 합계가 100을 초과함을 명시해야 한다.
Q215. 평균과 중앙값 중 어느 것을 써야 하는가? 분포 형태에 따라 다르다. 정규분포에 가깝다면 평균이 적합하다. 분포가 한쪽으로 치우치거나 극단값이 있다면 중앙값이 더 대표적이다. 소득, 재산, 응답 시간처럼 극단값이 있는 변수에서 평균은 왜곡된 인상을 준다. 소득 평균이 높아 보여도 중앙값이 낮다면 상위 소수가 평균을 끌어올린 것이다. 서베이 보고서에서 척도 평균을 보고할 때는 평균과 함께 분포(표준편차 또는 분포 그래프)를 함께 제시하는 것이 좋다.
Q216. 시계열 비교에서 주의할 점은? 측정 조건이 동일해야 한다. 문항 문구, 척도, 선택지 순서, 조사 모드, 조사 시기, 가중치 기준이 바뀌면 시계열 변화가 실제 태도 변화인지 측정 조건 변화인지 구분할 수 없다. 또한 사회적 맥락이 응답에 영향을 미쳤는지도 고려해야 한다. 조사 직전 특정 사건이 있었다면 그것이 트렌드인지 일시적 반응인지 판단해야 한다. 시계열 비교는 단순히 숫자를 나란히 놓는 것이 아니라 조건의 동일성을 검증하는 작업이다.
Q217. 동일한 문항이 아니면 시계열 비교가 가능한가? 원칙적으로 불가능하다. 문항이 다르면 측정하는 것이 다를 수 있기 때문이다. 단어 하나, 선택지 순서 하나가 응답 분포를 바꾼다. 불가피하게 비교해야 한다면 두 문항 버전을 동시에 사용한 분할표본 연구로 두 문항의 결과 차이를 먼저 추정하고, 그것을 시계열 비교에 반영해야 한다. 그런 검증 없이 다른 문항의 결과를 같은 추세선에 올리는 것은 측정의 차이를 실제 변화로 오독하는 것이다.
Q218. 상관관계를 인과관계로 해석하는 오류는 왜 생기는가? 두 변수가 함께 움직이면 하나가 다른 하나의 원인이라고 생각하는 것이 인지적으로 자연스럽기 때문이다. 하지만 서베이 데이터는 대부분 횡단면 데이터로, 인과의 방향과 제3변수 영향을 통제하기 어렵다. 보수적 응답자가 특정 정책을 지지하는 것과, 특정 정책 지지가 보수적 태도를 만드는 것은 전혀 다른 주장이다. 서베이 데이터에서 "A가 B에 영향을 미친다"는 표현은 항상 신중해야 한다. 관계가 있다는 것과 원인이 된다는 것은 다르다.
Q219. 회귀분석 결과를 서베이 보고서에서 어떻게 서술해야 하는가? 계수값과 유의확률만 나열하는 것으로는 부족하다. 다른 변수를 통제했을 때 해당 변수의 순수한 연관성이 어떠한지, 그 크기가 실질적으로 의미 있는지를 함께 서술해야 한다. "연령이 1세 증가할 때 지지율이 0.3%p 증가한다"처럼 구체적 언어로 번역해야 한다. 표준화 계수를 통해 변수 간 상대적 영향력을 비교하는 것도 유용하다. 수식과 계수를 그대로 제시하면 분석을 보고한 것이 아니라 수식을 붙여넣은 것이다.
Q220. 군집분석으로 응답자 유형을 나눌 때 주의할 점은? 군집 수 결정이 자의적이 될 수 있다는 것이 첫 번째 문제다. k-means는 k를 사전에 지정해야 하는데, 이 선택에 따라 결과가 크게 달라진다. 또한 군집분석 결과는 재현 가능성이 낮다. 초기값이나 표본 구성이 조금 바뀌어도 군집이 달라진다. 군집에 이름을 붙이는 과정도 주관적이다. 분석자가 원하는 유형을 데이터에서 발견했다고 착각하기 쉽다. 군집분석은 탐색 도구이지 확증 도구가 아니다.
Q221. LLM으로 개방형 응답을 분석하면 어떤 문제가 있는가? 일관성과 투명성이 핵심 문제다. 동일한 응답을 다른 시점에 분석하면 다른 결과가 나올 수 있다. 분류 기준이 명시적이지 않아 재현이 어렵다. 또한 LLM이 훈련 데이터의 편향을 반영해 특정 응답을 체계적으로 다르게 해석할 수 있다. 긍정·부정 감성 분류는 비교적 안정적이지만, 주제 분류나 의도 해석은 오류가 많다. 사용했다면 프롬프트, 모델 버전, 검증 방법을 명시해야 한다. 블랙박스 분석은 신뢰하기 어렵다.
Q222. 데이터 시각화에서 가장 흔한 오류는? y축을 0에서 시작하지 않는 것이다. y축을 40에서 시작하면 41%와 45%의 차이가 시각적으로 4배로 부풀어 보인다. 실제로는 4%p 차이가 극적인 변화처럼 보인다. 두 번째는 파이차트 남용이다. 파이차트는 구성비 비교에 약하고, 항목이 많아지면 해석이 불가능해진다. 세 번째는 3D 그래프다. 3D는 시각적 왜곡을 만들고 정확한 비교를 방해한다. 시각화는 데이터를 명확히 보여주는 도구여야지, 인상을 만드는 도구가 되어서는 안 된다.
Q223. 척도 데이터를 긍정/부정으로 이분화하는 것은 정당한가? 편의를 위한 정보 손실이다. 5점 척도를 긍정(4~5점)과 부정(1~2점)으로 나누면 중간값(3점) 처리가 문제가 되고, 4점과 5점의 차이, 1점과 2점의 차이가 사라진다. 집단 간 비교에서 이분화는 통계적 검정력을 낮춘다. 다만 커뮤니케이션 목적에서는 유용하다. "응답자의 63%가 긍정적으로 평가했다"는 문장이 "평균 3.8점"보다 이해하기 쉽다. 분석은 원래 척도로 하고, 보고는 이분화로 하는 것이 현실적 절충이다.
Q224. Top2box와 Top3box 중 어느 것을 써야 하는가? 척도 구조와 분포에 따라 다르다. 5점 척도에서 Top2box는 4~5점, Top3box는 3~5점이다. 분포가 위쪽에 집중되어 있고 3점이 실제로 긍정 응답에 가깝다면 Top3box가 적절하다. 분포가 고르다면 Top2box가 더 변별력 있다. 문제는 의뢰인에게 유리한 쪽을 사후에 선택하는 것이다. 만족도가 낮게 나왔을 때 Top3box로 바꾸면 숫자가 높아진다. 기준을 사전에 정하고 일관되게 쓰는 것이 원칙이다.
Q225. 분석 결과를 보고서에 옮길 때 왜곡이 생기는 지점은? 여러 지점이 있다. 유의하지 않은 차이를 단정적으로 서술할 때, 모름 응답을 제거하고 비율을 높일 때, 전체 추세에 맞지 않는 서브그룹 결과를 부각할 때, 긍정적 결과만 선택적으로 제시할 때다. 수치는 정확하지만 맥락을 제거해 인상을 왜곡하는 경우도 많다. "A 지지율 51%"는 사실이지만 "오차범위 내 접전"이라는 맥락을 빼면 다른 메시지가 된다. 데이터와 보고서 사이의 거리가 왜곡이 숨는 공간이다.
Q226. 분석 계획을 사전에 명시해야 하는가? 학술 연구에서는 반드시 그래야 하고, 실무에서도 가능한 한 그래야 한다. 데이터를 본 후 분석 방향을 정하면 원하는 결과를 찾아가는 방향으로 흐르기 쉽다. 어떤 변수를 주요 분석 대상으로 볼지, 어떤 집단 비교를 할지, 어떤 통계 방법을 쓸지를 사전에 정해두면 데이터 기반 의사결정이 아니라 결과 기반 분석을 막을 수 있다. 실무에서도 분석 계획을 조사 설계 단계에 포함시키는 것이 왜곡을 방지하는 구조적 장치다.
Q227. 같은 데이터로 다른 결론이 나올 수 있는가? 충분히 가능하다. 가중치 방식, 모름 처리, 이분화 기준, 비교 집단 설정, 시각화 방법 중 어느 하나만 달라도 결론의 방향이 바뀔 수 있다. 이것이 서베이 분석에서 분석자의 선택이 중요한 이유다. 같은 데이터를 두 명의 분석자에게 주었을 때 다른 결론이 나왔다면, 둘 중 하나가 틀렸을 수도 있지만 분석 과정의 선택이 달랐을 가능성이 더 높다. 분석의 재현 가능성과 투명성이 중요한 이유가 여기 있다.
Q228. 서베이 데이터로 인과 추론을 할 수 있는가? 제한적으로 가능하다. 일반적인 횡단면 서베이로는 인과 추론이 어렵다. 변수 간 선후 관계를 알 수 없고, 교란변수를 통제하기 어렵다. 하지만 서베이 실험 설계(무작위 문항 배분, 정보 처리 실험)를 활용하면 인과 추론의 가능성이 열린다. 종단 패널 조사에서는 시간적 선후 관계를 부분적으로 확인할 수 있다. 인과 추론을 하려면 설계 단계에서 그 목적을 반영해야 한다. 일반 서베이 데이터에서 사후에 인과를 주장하는 것은 무리다.
Q229. 서베이 결과를 얼마나 정확하게 일반화할 수 있는가? 표본이 모집단을 대표할 때, 그리고 그 모집단의 범위 안에서만 일반화할 수 있다. 온라인 패널로 조사한 결과를 전체 국민에게 일반화하는 것은 무리다. 특정 지역, 특정 연령대, 특정 이슈 관심자를 조사했다면 그 범위 안에서만 결론을 내려야 한다. 일반화의 범위는 표본의 대표성과 정확히 일치한다. 보고서에서 일반화 범위를 명시하지 않는 것은 독자가 스스로 과잉 일반화하도록 방치하는 것이다.
Q230. 분석가의 선택이 결과에 얼마나 영향을 미치는가? 생각보다 훨씬 크다. 분석 소프트웨어마다 기본 설정이 다르고, 결측값 처리, 이상값 제거, 집단 분류, 시각화 축 설정 등 수십 개의 미시적 선택이 최종 결과에 누적적으로 영향을 미친다. 멀티버스 분석(multiverse analysis) 연구들은 동일 데이터에서 분석자에 따라 결과가 유의하기도 하고 아니기도 하다는 것을 보여준다. 분석가의 선택은 데이터가 말하는 것을 도와주는 것이 아니라, 데이터가 어떤 말을 하게 되는지를 결정하는 경우가 많다.
________________________________________
10부. 윤리와 사회적 책임
Q231. 서베이 윤리의 핵심 원칙은 무엇인가? 크게 세 가지다. 첫째, 응답자 보호. 익명성 보장, 자발적 참여, 개인정보 보호가 포함된다. 둘째, 방법론적 정직. 설계, 분석, 보고 전 과정에서 의도적 왜곡이 없어야 한다. 셋째, 공중에 대한 책임. 서베이 결과는 여론을 형성하고 정책에 영향을 미친다. 응답자와의 계약, 의뢰인과의 계약, 공중과의 계약이 동시에 존재하며, 이 세 계약이 충돌할 때 어떤 원칙을 우선하는가가 서베이어의 윤리적 정체성을 결정한다.
Q232. 응답자 익명성은 어떻게 보장해야 하는가? 개인 식별 정보와 응답 데이터를 분리 저장하는 것이 기본이다. 조사 번호로만 연결하고, 분석 단계에서는 개인 식별 정보에 접근할 수 없도록 해야 한다. 소규모 집단 조사에서는 인구통계 조합만으로도 개인이 특정될 수 있으므로 교차 집계 결과 공개 시 세밀한 분류를 피해야 한다. 익명성 보장은 법적 의무이기 전에 응답자와의 신뢰 계약이다. 이것이 깨지면 응답자가 솔직하게 응답할 이유가 사라진다.
Q233. 조사 결과를 공개하지 않을 권리가 의뢰인에게 있는가? 계약상 권리는 있을 수 있지만 윤리적으로는 논쟁의 여지가 있다. 의뢰인이 비용을 냈으므로 결과 공개 여부를 결정할 권리가 있다는 주장이 있다. 반대로 공공 이슈에 관한 조사 결과를 선택적으로 은폐하는 것은 정보 왜곡이라는 주장도 있다. 특히 선거 관련 조사는 공직선거법상 공표 의무가 있다. 학술 조사에서는 데이터 공개와 재현 가능성이 점점 강화되는 규범이 되고 있다. 결과를 숨길 권리와 공개할 의무 사이의 긴장은 쉽게 해소되지 않는다.
Q234. 부분 공개는 윤리적으로 허용되는가? 결과에 따라 다르다. 자신에게 유리한 결과만 발표하고 불리한 결과는 숨기는 것은 여론 조작에 가깝다. 선거 여론조사에서 특정 후보 지지율만 발표하고 다른 후보 수치는 공개하지 않는다면, 공개된 정보가 사실이더라도 그 행위는 기만적이다. 부분 공개가 허용되려면 공개하지 않은 부분이 있다는 사실 자체를 밝혀야 한다. 무엇을 숨겼는지 모르는 상태에서의 정보는 완전한 정보가 아니다.
Q235. 의뢰인에게 불리한 결과를 어떻게 처리해야 하는가? 있는 그대로 보고해야 한다. 서베이어의 역할은 의뢰인이 원하는 결과를 만드는 것이 아니라, 현실을 정확하게 보여주는 것이다. 불리한 결과를 완화하거나 묻어두라는 압력을 받을 수 있다. 이때 방법론적 재검토는 타당하지만, 방법론을 바꿔 결과를 바꾸는 것은 조작이다. 장기적으로 불리한 결과를 정직하게 보고하는 기관이 신뢰를 얻는다. 의뢰인이 불편한 진실을 듣게 하는 것도 서베이어의 책임이다.
Q236. 조사 설계 단계에서 이해충돌은 어떻게 다뤄야 하는가? 조사기관이 의뢰인의 이해관계와 연결되어 있을 때 이해충돌이 발생한다. 정치적 성향이 있는 기관이 관련 정당 관련 조사를 수행하거나, 특정 기업 주식을 보유한 분석가가 그 기업 관련 조사를 설계하는 경우다. 이해충돌 자체를 막기 어렵다면 투명하게 공개해야 한다. 의뢰인, 조사 목적, 자금 출처를 명시하는 것이 최소한의 요건이다. 이해충돌이 있다는 것을 아는 독자는 결과를 다르게 해석할 수 있다.
Q237. 정치적 목적의 여론조사는 중립적일 수 있는가? 설계는 중립적일 수 있지만 목적이 중립적이기는 어렵다. 정치 캠프가 의뢰한 조사는 전략 수립을 위한 것이고, 결과가 유리하면 공개하고 불리하면 숨기는 비대칭적 공개가 일어난다. 설령 방법론이 완벽하더라도, 어떤 질문을 하고 어떤 결과를 공개하는지에 대한 선택 자체가 이미 중립적이지 않다. 여론조사가 정치적 목적에 쓰인다는 것을 인식하고 읽는 것이 중요하다. 방법론의 중립성과 용도의 중립성은 다른 문제다.
Q238. 선거 여론조사가 투표 행동에 영향을 미치는가? 연구 결과가 혼재하지만 영향이 없다고 보기는 어렵다. 지지율 격차가 크게 나타나면 열세 후보 지지자들이 기권할 수 있고, 접전으로 나타나면 투표 동기가 강화될 수 있다. 이것이 밴드왜건 효과와 언더독 효과다. 더 미묘한 영향은 의제 설정이다. 어떤 후보의 지지율을 어떻게 보도하느냐가 그 후보에 대한 인식을 형성한다. 여론조사가 여론을 반영하는 동시에 여론을 만드는 이중적 역할을 한다는 점에서 선거 조사는 특별한 윤리적 책임을 갖는다.
Q239. 밴드왜건 효과와 언더독 효과는 실제로 존재하는가? 둘 다 존재하지만 크기와 방향은 상황에 따라 다르다. 밴드왜건 효과는 이기는 편에 합류하려는 경향이고, 언더독 효과는 약자를 지지하려는 경향이다. 두 효과는 서로 반대 방향으로 작용하고, 어느 것이 더 강한지는 선거 맥락, 유권자 특성, 지지율 격차에 따라 다르다. 실증 연구에서는 밴드왜건 효과가 더 자주 확인된다. 두 효과가 동시에 작용한다면 서로 상쇄될 수 있다. 단순히 한 방향으로만 영향을 미친다고 보기 어렵다.
Q240. 공직선거법의 여론조사 규제는 적절한가? 방법론 공개 요건은 적절하고 필요하다. 표본 크기, 조사 방법, 의뢰인, 오차 범위 공개 의무는 최소한의 투명성 기준이다. 그러나 선거 전 특정 기간 여론조사 공표 금지는 실효성 논란이 있다. 온라인으로 해외 조사 결과나 비공식 조사가 유통되는 환경에서 공표 금지는 제한적 효과만 갖는다. 한편 ARS 조사를 정식 여론조사와 동일하게 취급하는 것은 방법론적으로 문제가 있다. 규제의 형식은 갖췄지만 실질은 부족한 부분이 있다.
Q241. 여론조사 결과 공표 금지가 실효성이 있는가? 점점 줄어들고 있다. 선거일 전 6일부터 공표가 금지되지만 SNS, 유튜브, 해외 사이트를 통해 결과는 이미 유통된다. 공표 금지가 정보 격차를 만든다는 주장도 있다. 정보에 접근할 수 있는 사람과 그렇지 못한 사람 사이의 비대칭이 생긴다. 반면 혼란스럽고 검증되지 않은 정보의 급속한 유통을 막는 완충 역할은 한다는 주장도 있다. 디지털 환경에서 정보 유통을 법으로 막는 것의 한계를 보여주는 사례다.
Q242. 조사기관의 정치적 성향이 결과에 영향을 미치는가? 의식적이든 아니든 영향을 미칠 수 있다. 문항 설계, 프레이밍, 가중치 선택, 보고 방식에서 미묘한 선택들이 누적되어 특정 방향으로 결과가 기울 수 있다. 이것이 의도적 조작일 수도 있고, 인지적 편향일 수도 있다. 중요한 것은 조사기관의 정치적 배경을 아는 것이 결과 해석에 도움이 된다는 점이다. 같은 시점에 다른 기관의 조사와 비교하는 것이 단일 기관의 결과를 맹신하는 것보다 현명하다.
Q243. 미디어가 여론조사를 보도하는 방식의 문제는? 핵심 정보를 빠뜨리고 숫자만 부각한다. 표집 방법, 응답률, 의뢰인, 조사 시점 같은 맥락 정보 없이 지지율 숫자만 보도하는 것이 관행이다. 오차범위를 무시하거나 오해하는 보도도 많다. 접전인데 "A가 앞선다"고 보도하거나, 오차범위 내 변화를 "급등", "급락"으로 표현한다. 자극적 수치가 뉴스 가치를 갖기 때문에 맥락은 생략된다. 잘못된 보도는 조작된 조사만큼 여론을 왜곡한다. 미디어 리터러시 문제이기도 하고 보도 관행의 문제이기도 하다.
Q244. 조사 방법론을 공개하지 않는 것은 윤리 위반인가? 공공에 영향을 미치는 조사라면 그렇다고 볼 수 있다. 선거 여론조사처럼 공중의 의사결정에 영향을 주는 조사는 결과뿐 아니라 방법론을 검증할 수 있어야 한다. 방법론 없이 결과만 공개하는 것은 신뢰를 요구하지만 검증을 허용하지 않는 것이다. 상업 조사에서는 방법론이 영업 비밀일 수 있지만, 그 결과를 공공 여론 형성에 사용한다면 공개의 의무가 생긴다. 결과의 공개와 방법론의 공개는 한 세트여야 한다.
Q245. 사전 등록(pre-registration)이 서베이 연구에 필요한가? 학술 연구에서는 필요성이 커지고 있다. 분석 계획을 데이터 수집 전에 공개 등록하면 p-hacking, 결과 선택적 보고, 사후 가설 설정을 막을 수 있다. 실무 조사에서 전면적 사전 등록은 현실적이지 않지만, 주요 분석 변수와 가중치 방법을 사전에 내부 문서화하는 것만으로도 분석 왜곡을 줄이는 효과가 있다. 재현 가능성 위기를 겪고 있는 사회과학 전반의 흐름에서 서베이 연구도 자유롭지 않다.
Q246. 응답자에게 조사 목적을 알려야 하는가? 원칙적으로 그래야 한다. 정보에 기반한 동의(informed consent)는 연구 윤리의 기본이다. 응답자가 조사 목적, 결과 활용 방식, 의뢰인을 알고 참여 여부를 결정할 권리가 있다. 단, 조사 목적을 완전히 공개하면 응답이 달라지는 경우가 있다. 예를 들어 특정 기업이 의뢰한 브랜드 평가 조사임을 알면 응답자가 다르게 반응한다. 이때 목적을 일부 모호하게 하는 것이 허용되는지는 윤리적으로 논쟁이 있다. 기만과 불완전 공개 사이의 경계다.
Q247. 취약 계층 조사에서 특별히 고려할 점은? 자발적 동의 능력과 취약성을 함께 고려해야 한다. 아동, 인지 장애인, 구금 시설 수용자, 이주노동자 등은 동의의 자발성이 제한될 수 있다. 이 집단을 대상으로 한 조사는 IRB 심의, 보호자 동의, 쉬운 언어 사용, 참여 거부에 대한 불이익 없음 보장이 필요하다. 또한 이들의 응답이 자신에게 불리하게 쓰일 가능성을 최소화해야 한다. 취약 계층을 조사 대상에서 제외하는 것도 문제지만, 보호 없이 포함하는 것도 문제다.
Q248. 서베이가 응답자의 의견을 형성한다면 그 책임은 누구에게 있는가? 설계자에게 있다. 서베이가 중립적 측정 도구가 아니라 의견을 만드는 행위라는 것을 알면서도 유도적으로 설계한다면 그것은 의도적 여론 조작이다. 응답자가 이전에 생각해본 적 없는 이슈에 대해 강제로 입장을 표명하게 만드는 것도 책임 있는 행위다. 서베이는 응답자의 인지 과정에 개입하는 도구라는 인식을 갖고, 그 영향을 최소화하도록 설계해야 한다. 측정은 측정 대상에 영향을 미친다는 것을 항상 기억해야 한다.
Q249. 개인정보 보호법이 서베이 방법론에 미치는 영향은? 표집틀 구성과 데이터 연계 방식을 제약한다. 주민등록 정보, 의료 데이터, 행정 기록을 표집이나 가중치 목적으로 활용하는 것이 점점 어려워지고 있다. 연구 목적 예외 조항이 있지만 절차가 복잡하고, 기관별 해석이 다르다. 패널 구성과 유지에도 동의 관리 의무가 강화됐다. 한편으로는 응답자 보호를 강화하는 긍정적 효과도 있다. 방법론적 엄밀함과 법적 요건 사이의 균형을 찾는 것이 현실적 과제다.
Q250. 서베이어(surveyor)에게 필요한 직업 윤리는? 방법론적 정직, 의뢰인 독립성, 응답자 존중, 결과 책임의 네 가지로 요약할 수 있다. 방법론적 정직은 설계와 분석에서 왜곡을 거부하는 것이다. 의뢰인 독립성은 의뢰인의 이해관계로부터 판단을 지키는 것이다. 응답자 존중은 데이터 뒤에 사람이 있다는 것을 잊지 않는 것이다. 결과 책임은 자신의 조사가 어떻게 쓰이고 어떤 영향을 미치는지에 대한 관심을 놓지 않는 것이다. 이 네 가지는 서베이어를 단순한 데이터 수집자가 아니라 사회적 책임을 가진 전문가로 만든다.
Q251. 조사 결과 재인용 시 출처 표기 기준은? 원자료 출처, 조사 기관, 조사 시점, 표본 크기, 조사 방법을 함께 표기해야 한다. 언론 보도를 재인용하면 원 조사의 맥락이 사라지고 보도의 해석이 사실처럼 굳어지는 문제가 생긴다. 가능하면 원보고서나 원데이터를 확인하고 인용해야 한다. 조사 결과가 여러 단계를 거쳐 인용될수록 원래의 제약과 맥락이 탈락하고 숫자만 남는다. 재인용 체인이 길어질수록 왜곡 가능성이 커진다. 출처 표기는 독자가 원자료로 돌아갈 수 있는 길을 열어두는 것이다.
Q252. 여론조사 산업의 자정 능력이 있는가? 현재로서는 제한적이다. 한국조사협회 등 자율 규제 기구가 있지만 규범 집행력이 약하다. 방법론적으로 문제 있는 조사가 미디어를 통해 확산되어도 사후 검증이나 정정이 이루어지는 경우가 드물다. 시장 경쟁이 품질을 높이는 것이 아니라 오히려 저가·저품질 조사를 확산시키는 역할을 한다는 지적도 있다. 자정 능력을 높이려면 방법론 투명성 요건 강화, 사후 검증 문화 정착, 품질 기준에 따른 차별화가 필요하다. 의뢰인과 미디어가 품질을 요구하지 않으면 산업의 자정은 어렵다.
Q253. 의뢰인 압력에 어떻게 대응해야 하는가? 방법론적 결정과 결과 해석에 대한 최종 권한이 조사기관에 있음을 계약 단계에서 명확히 해야 한다. 의뢰인은 조사 목적과 대상을 정할 수 있지만, 문항 설계와 분석 방법을 지시할 수 없다는 원칙을 지켜야 한다. 압력이 들어왔을 때 방법론적 근거를 들어 거부하는 것이 단기적으로 불편하더라도 장기적으로 기관 신뢰를 지키는 길이다. 압력을 수용해 결과를 왜곡하면 그 순간부터 조사기관은 측정 도구가 아니라 의견 제조 도구가 된다.
________________________________________
11부. 신세틱 서베이와 AI
Q254. 신세틱 서베이란 무엇인가? 실제 사람을 조사하는 대신 AI가 특정 인구통계적 특성을 가진 가상의 응답자를 시뮬레이션해 응답을 생성하는 방법이다. LLM에게 "50대 보수 성향 남성이라면 이 질문에 어떻게 응답할 것인가"를 묻는 방식이다. 비용과 시간을 획기적으로 줄일 수 있다는 장점이 있다. 하지만 실제 사람의 응답이 아니라 언어모델이 학습한 패턴의 재현이라는 점에서 서베이의 본질적 전제를 흔든다. 가능성과 한계가 동시에 극단적인 방법이다.
Q255. 신세틱 응답자는 실제 응답자를 대체할 수 있는가? 현재로서는 대체할 수 없다. 신세틱 응답자는 LLM 훈련 데이터에 포착된 집단의 평균적 표현을 재현할 뿐, 실제 개인의 복잡한 태도와 경험을 담지 못한다. 특히 한국 사회의 특수한 맥락, 최근 사건, 훈련 데이터에 충분히 반영되지 않은 집단의 의견은 재현 자체가 불가능하다. 탐색적 사전 검토, 설문지 파일럿, 가설 생성에는 유용할 수 있다. 그러나 실제 여론을 측정하는 목적으로는 아직 대체 수단이 되지 못한다.
Q256. LLM 기반 신세틱 서베이의 근본적 한계는? LLM은 과거 텍스트를 학습한 모델이다. 실제 태도가 아니라 태도에 대한 기술(description)을 학습했다. "40대 진보 성향 여성은 이렇게 생각한다"는 텍스트 패턴을 재현하는 것이지, 실제 40대 진보 성향 여성의 내면을 시뮬레이션하는 것이 아니다. 더 근본적으로는 훈련 데이터에 없는 태도, 훈련 이후 변화한 여론, 침묵하는 다수의 의견은 원천적으로 재현할 수 없다. 신세틱 서베이는 훈련 데이터의 거울이다.
Q257. 신세틱 서베이는 어떤 조건에서 유용한가? 실제 조사가 불가능하거나 윤리적으로 제한적인 상황에서 탐색적 목적으로 쓸 때 가치가 있다. 설문지 초안의 문항 반응 예측, 극단적 시나리오에 대한 가설 생성, 파일럿 조사 대체, 다언어 번역 검토 등이다. 또한 실제 조사 데이터와 비교 검증 목적으로 쓸 때 방법론적 의미가 있다. 독립적 결론 도출보다는 설계 보조 도구로 활용할 때 위험이 낮다. 신세틱 서베이가 유용한 조건은 그것이 실제 조사를 대체하지 않는다는 전제가 유지될 때다.
Q258. 신세틱 데이터와 실제 데이터의 검증은 어떻게 하는가? 같은 문항을 실제 서베이와 신세틱 서베이로 동시에 수행하고 결과를 비교하는 방법이 가장 직접적이다. 응답 분포의 유사성, 집단 간 차이 패턴의 일치 여부를 확인한다. 단순 비율 비교뿐 아니라 상관 구조, 요인 구조, 서브그룹 패턴이 일치하는지도 봐야 한다. 검증 결과 특정 인구집단이나 특정 유형의 문항에서 불일치가 크다면, 그 조건에서의 신세틱 서베이는 신뢰하기 어렵다. 검증 없는 신세틱 서베이는 맞는지 틀리는지 알 수 없는 데이터다.
Q259. AI 페르소나는 인구통계적 특성을 얼마나 반영하는가? 성별, 연령, 교육 수준 같은 기본 인구통계는 어느 정도 반영한다. 인터넷에 이 집단에 대한 텍스트가 충분히 존재하기 때문이다. 그러나 지역 특성, 직업 정체성, 복합적 정치 성향, 세대 내 이질성은 잘 반영되지 않는다. 한국 특유의 집단 경험, 예를 들어 IMF 세대의 경제적 트라우마나 촛불 세대의 정치적 경험 같은 것은 LLM이 충분히 학습하지 않았을 가능성이 높다. 인구통계는 레이블이고, 그 레이블 뒤의 실제 경험은 포착이 어렵다.
Q260. 신세틱 서베이에서 문화적 맥락은 어떻게 다루는가? 가장 취약한 부분이다. LLM은 영어 텍스트 중심으로 훈련되어 있어 한국 사회의 특수한 맥락을 충분히 반영하지 못한다. 한국의 학벌 의식, 지역 감정, 세대 간 갈등, 정치적 진영화 같은 맥락은 한국어 데이터의 양과 질에 달려 있다. 한국어 프롬프트를 써도 모델 내부의 가중치는 영어 중심으로 구성되어 있을 가능성이 높다. 문화적 맥락이 중요한 조사일수록 신세틱 서베이의 한계는 더 명확해진다. 문화는 언어로 번역되지 않는 부분이 많다.
Q261. AI 인터뷰어와 신세틱 응답자는 어떻게 다른가? AI 인터뷰어는 실제 사람을 대상으로 AI가 질문하고 응답을 수집한다. 조사원 효과를 줄이고 비용을 낮추지만 측정 대상은 여전히 실제 인간이다. 신세틱 응답자는 실제 사람 없이 AI가 응답 자체를 생성한다. 전자는 데이터 수집 방식의 혁신이고, 후자는 데이터 생성 방식의 근본적 전환이다. AI 인터뷰어는 서베이의 진화이지만, 신세틱 응답자는 서베이의 대체 시도다. 방법론적 지위가 완전히 다르다.
Q262. AI가 생성한 질적 데이터의 신뢰성은? 구조적으로 낮다. 개방형 응답을 AI가 생성하면 실제 응답자가 표현했을 개인적 경험, 감정, 언어 패턴이 아니라 그 집단에 대해 인터넷에 존재하는 서술의 평균이 나온다. 결과적으로 신세틱 질적 데이터는 놀랍도록 매끄럽고 전형적이다. 실제 응답에서 나타나는 불규칙성, 모순, 의외성이 없다. 이것이 오히려 신세틱 데이터임을 드러내는 신호이기도 하다. 질적 데이터의 가치는 예상치 못한 목소리에 있는데, 신세틱 데이터는 예상된 목소리만 만든다.
Q263. 신세틱 서베이는 측정 오차를 줄이는가, 늘리는가? 전통적 의미의 측정 오차 개념 자체가 달라진다. 실제 응답자가 없으니 사회적 바람직성 편향, 회상 편향, 응답 피로 같은 오차는 없다. 그러나 이것은 오차가 줄어든 것이 아니라 오차의 종류가 바뀐 것이다. 새로운 오차 원천은 LLM의 훈련 데이터 편향, 프롬프트 설계 오류, 모델 버전 차이에 따른 응답 변동이다. 기존의 측정 오차보다 이 오차들이 더 통제하기 어렵고 투명하지 않을 수 있다.
Q264. LLM의 훈련 데이터 편향이 신세틱 서베이에 미치는 영향은? 직접적이고 체계적이다. LLM이 특정 집단에 대해 편향된 텍스트를 학습했다면, 그 집단의 신세틱 응답도 편향된다. 인터넷 텍스트는 고학력, 도시 거주, 영어 사용자, 적극적 발언자에 치우쳐 있다. 이 텍스트로 훈련된 LLM은 그 목소리를 과대 대표한다. 더 심각한 것은 이 편향이 불투명하다는 점이다. 어떤 텍스트로 어떻게 훈련됐는지 완전히 공개되지 않기 때문에 편향의 방향과 크기를 사전에 알기 어렵다.
Q265. 신세틱 서베이는 총조사오차 프레임으로 평가 가능한가? 가능하지만 재정의가 필요하다. 커버리지 오차는 훈련 데이터가 커버하지 못한 집단의 부재로 재해석된다. 표집 오차는 프롬프트 설계에 따른 응답 변동으로 본다. 무응답 오차는 모델이 응답을 거부하거나 일관되지 않게 반응하는 현상이다. 측정 오차는 프롬프트 문구의 미묘한 차이가 응답을 바꾸는 현상이다. TSE 프레임을 유지하면 신세틱 서베이의 약점을 체계적으로 진단할 수 있다. 새로운 도구를 기존 품질 기준으로 평가하려는 시도 자체는 유효하다.
Q266. 미래에 신세틱 서베이가 실제 서베이를 대체할 가능성은? 완전한 대체는 어렵고, 부분적 보완은 확대될 것이다. 탐색적 조사, 파일럿, 가설 검증, 비용이 허용되지 않는 소규모 연구에서 활용이 늘어날 것이다. 그러나 선거 여론조사, 정책 평가, 학술 연구처럼 정확성과 대표성이 중요한 영역에서는 실제 응답자를 대체하기 어렵다. LLM 성능이 개선되어도 근본적 문제, 즉 훈련 데이터가 현실을 왜곡하고 현재를 반영하지 못한다는 한계는 구조적이다. 대체보다는 실제 서베이와 병행하는 혼합 접근이 현실적 방향이다.
Q267. 신세틱 서베이의 윤리적 쟁점은 무엇인가? 크게 세 가지다. 첫째, 투명성. 신세틱 데이터를 실제 조사 결과인 것처럼 보고하면 기만이다. 둘째, 특정 집단 대표성 왜곡. LLM이 특정 집단을 왜곡해서 표현한다면 그 집단에 대한 편견을 강화할 수 있다. 셋째, 책임 소재. 신세틱 결과가 잘못된 의사결정으로 이어졌을 때 누가 책임지는가. 실제 사람의 응답이 없으니 응답자 보호 문제는 없지만, 실제 사람에 대한 표현의 책임 문제가 새롭게 생긴다. 도구는 새롭지만 윤리적 책임은 더 복잡해졌다.
Q268. AI 코딩(응답 분류)의 신뢰도는 어떻게 평가하는가? 인간 코더와의 일치도를 계산하는 것이 기본이다. Cohen's kappa나 퍼센트 일치율로 AI 코딩과 인간 코딩의 일관성을 측정한다. 단, 인간 코더 간 일치도도 먼저 확인해야 한다. 인간들도 일치하지 않는 모호한 범주에서 AI 코딩의 정확성을 요구하기는 어렵다. 또한 AI 코딩은 프롬프트, 모델 버전, 온도 설정에 따라 달라지므로 조건을 고정하고 재현 가능성을 확인해야 한다. 사용한 모델과 프롬프트를 공개하지 않는 AI 코딩 결과는 신뢰하기 어렵다.
Q269. 머신러닝으로 무응답을 예측하고 보정하는 것이 타당한가? 조건부로 타당하다. 응답자의 인구통계, 이전 조사 참여 이력, 행동 데이터를 학습해 무응답 여부를 예측하고 이를 가중치에 반영하는 방법은 전통적 무응답 가중치보다 정교할 수 있다. 그러나 예측 모델이 관측된 변수에만 의존하는 한, 관측되지 않은 특성의 차이는 여전히 교정되지 않는다. 또한 모델의 학습 편향이 보정 과정에 개입할 수 있다. 머신러닝은 더 나은 도구이지 완전한 해결책이 아니다. 모델 구조와 변수를 투명하게 공개해야 한다.
Q270. 빅데이터와 서베이 데이터의 결합(data fusion)은 어떻게 하는가? 공통 변수를 매개로 두 데이터를 연결하는 방법이 일반적이다. 인구통계나 지리 정보를 키로 삼아 행정 데이터, SNS 데이터, 서베이 데이터를 개인 또는 지역 수준에서 결합한다. 통계적 매칭, 성향점수 매칭, 다층 회귀 등이 활용된다. 핵심 문제는 결합 과정에서 원래 데이터 각각의 오차가 누적된다는 것이다. 빅데이터의 커버리지 편향과 서베이의 표집 오차가 결합되면 새로운 오차 구조가 만들어진다. 결합의 기술보다 결합의 전제를 검증하는 것이 더 중요하다.
Q271. 디지털 흔적(digital trace data)은 서베이를 보완할 수 있는가? 특정 영역에서는 강력한 보완이 된다. 실제 행동 데이터(검색어, 구매 이력, 이동 패턴)는 서베이의 의도-행동 괴리를 채울 수 있다. 응답자가 기억하지 못하거나 보고하기 꺼리는 행동을 포착한다. 그러나 디지털 흔적은 플랫폼 이용자에게 한정되고, 알고리즘이 노출하는 것에 편향되며, 행동의 이유를 말해주지 않는다. 서베이가 "왜"를 묻는 도구라면, 디지털 흔적은 "무엇을 했는가"를 보여주는 도구다. 두 데이터는 다른 질문에 답한다.
Q272. AI 시대에 서베이 방법론자의 역할은 어떻게 변하는가? 더 중요해지지만 역할의 성격이 바뀐다. 데이터 수집과 단순 분석은 자동화되어도, 무엇을 측정할지 설계하고, 결과를 비판적으로 해석하고, AI가 만든 오차를 진단하는 역할은 사람이 해야 한다. 특히 AI 생성 데이터의 편향을 탐지하고 신세틱 결과의 한계를 명시하는 역할이 새롭게 요구된다. 도구 사용자에서 도구 감독자로 역할이 이동한다. TSE를 이해하는 방법론자는 AI 도구가 어느 오차를 줄이고 어느 오차를 만드는지 판단할 수 있는 유일한 위치에 있다.
Q273. 신세틱 서베이 결과를 어떻게 보고해야 하는가? 신세틱 데이터임을 명시하는 것이 가장 먼저다. 사용한 모델, 버전, 프롬프트 설계, 페르소나 설정 방법을 공개해야 한다. 실제 서베이와 비교 검증이 이루어졌다면 그 결과도 함께 보고해야 한다. 결론의 강도도 조정해야 한다. 실제 조사 결과에 쓰는 단정적 표현 대신 "신세틱 시뮬레이션 결과에 따르면"처럼 출처를 분명히 해야 한다. 투명성 없는 신세틱 보고는 실제 조사 결과인 척하는 것과 다르지 않다. 새로운 방법일수록 보고 기준이 더 엄격해야 한다.
Q274. LLM이 특정 이념적 성향을 갖는다면 신세틱 서베이에 어떤 영향을 미치는가? 체계적 편향이 생긴다. LLM이 진보적 텍스트를 더 많이 학습했거나 특정 이슈에 대해 특정 방향으로 정렬되어 있다면, 신세틱 응답은 그 방향으로 쏠린다. 보수 성향 페르소나를 설정해도 LLM의 이념적 편향이 응답에 반영될 수 있다. 이것은 표집틀 편향보다 더 은밀하다. 표집틀 편향은 누가 포함됐는지로 확인이 가능하지만, LLM의 이념적 편향은 응답 자체를 분석하지 않으면 보이지 않는다. 신세틱 서베이로 정치·이념 관련 조사를 하는 것은 특히 위험하다.
Q275. 신세틱 서베이는 누가 검증해야 하는가? 개발자, 사용자, 독립 연구자가 각각 다른 층위에서 검증해야 한다. 개발자는 신세틱 결과가 실제 조사와 얼마나 일치하는지를 체계적으로 벤치마킹해야 한다. 사용자는 자신의 조사 맥락에서 신세틱 결과를 실제 데이터와 비교 검증해야 한다. 독립 연구자는 어떤 조건에서 신세틱 서베이가 실패하는지를 공개적으로 연구해야 한다. 현재는 개발자의 자체 검증에 의존하는 구조인데, 이것은 이해충돌이 있다. 신세틱 서베이가 실무에 확산되기 전에 독립적 검증 체계가 먼저 갖춰져야 한다.
________________________________________
12부. 공론조사와 특수 서베이
Q276. 공론조사(deliberative polling)란 무엇인가? 제임스 피시킨이 개발한 방법으로, 대표성 있는 표본을 선정해 특정 이슈에 대한 균형 잡힌 정보를 제공하고 전문가·이해관계자와의 토론을 거친 후 의견을 측정하는 방식이다. 일반 여론조사가 즉각적 의견을 재는 것과 달리, 숙의 후 의견을 측정한다는 점이 핵심이다. 한국에서는 신고리 5·6호기 공론화가 대표적 사례다. 측정 도구이자 민주주의 실험이라는 이중적 성격을 갖는다.
Q277. 공론조사는 여론을 측정하는가, 형성하는가? 형성한다. 이것이 공론조사의 본질이자 논쟁점이다. 숙의 전후 의견이 달라진다는 것은 공론조사가 있는 의견을 재는 것이 아니라 새로운 의견을 만든다는 뜻이다. 지지자들은 이것이 더 성숙하고 정보에 기반한 여론이라고 말한다. 비판자들은 특정 방향의 정보 제공과 토론 설계가 결과를 의도한 방향으로 유도할 수 있다고 말한다. 측정과 형성의 경계에 선 방법이다.
Q278. 공론조사가 과학적 권위를 갖는다고 볼 수 있는가? 부분적으로만 그렇다. 확률표집, 사전·사후 측정, 통계 분석 등 과학적 외양을 갖추고 있다. 하지만 숙의 과정의 설계가 결과에 결정적 영향을 미치며, 이 설계는 가치 판단이 개입된 선택이다. 어떤 정보를 제공하는가, 어떤 전문가를 초청하는가, 토론을 어떻게 진행하는가가 모두 중립적이지 않다. 공론조사는 과학적 방법론에서 권위를 빌리지만, 핵심 설계는 과학적으로 검증할 수 없는 판단들로 이루어져 있다.
Q279. 숙의(deliberation) 전후 의견 변화는 어떻게 해석해야 하는가? 신중하게 해석해야 한다. 변화가 정보 습득과 합리적 숙고의 결과일 수 있지만, 집단 역학, 사회적 압력, 정보의 선택적 제공, 권위자 효과의 결과일 수도 있다. 같은 방향으로 의견이 수렴된다면 합의가 아니라 동조일 수 있다. 특히 변화가 일관되게 특정 방향으로만 나타난다면 숙의 설계의 편향을 의심해야 한다. 변화량이 크다는 것이 반드시 좋은 숙의를 의미하지 않는다.
Q280. 공론조사 결과를 정책에 반영하는 것이 민주주의적인가? 논쟁적이다. 지지 측은 단순 다수결보다 더 성숙하고 정보에 기반한 의사결정이라고 본다. 비판 측은 수백 명의 선택된 집단이 전체 국민을 대표할 수 없으며, 숙의 과정 설계에 따라 결과가 달라지는 구조는 민주적 정당성이 약하다고 본다. 더 근본적 질문은 공론조사 결과에 어느 정도의 구속력을 부여하는가다. 참고 자료로 쓰는 것과 결정의 근거로 쓰는 것은 전혀 다른 의미를 갖는다.
Q281. SP(진술선호) 조사란 무엇인가? 실제로 시장에 존재하지 않거나 경험하기 어려운 상황에 대한 선호를 가상 시나리오를 통해 측정하는 방법이다. 교통, 환경, 에너지 정책처럼 실제 선택 데이터가 없는 영역에서 사람들의 가치와 선호를 추정하는 데 쓰인다. 응답자에게 속성이 다른 여러 옵션을 제시하고 선택하게 한다. 현시선호(revealed preference) 데이터가 없을 때 유일한 측정 수단이지만, 가상 상황에 대한 응답이 실제 선택을 반영하는지는 항상 검증이 필요하다.
Q282. 컨조인트 분석(conjoint analysis)은 서베이인가? 서베이 기반의 측정 방법이다. 응답자에게 여러 속성의 조합으로 구성된 선택지를 제시하고 선호를 측정한다. 설문지 형식으로 진행되지만, 단순 척도 응답이 아니라 트레이드오프 판단을 요구한다는 점에서 일반 서베이보다 복잡하다. 제품 개발, 가격 정책, 정책 선호 분석에 널리 쓰인다. 응답자가 각 속성의 가중치를 명시적으로 표현하지 않아도 선택 패턴에서 암묵적 선호를 추출할 수 있다는 것이 강점이다.
Q283. 실험적 서베이(survey experiment)란 무엇인가? 서베이 안에 실험 설계를 내장하는 방법이다. 응답자를 무작위로 집단에 배정해 서로 다른 자극(다른 문항 표현, 다른 정보, 다른 프레이밍)을 제시하고 응답 차이를 측정한다. 무작위 배정 덕분에 집단 간 비교가 인과적으로 해석될 수 있다. 프레이밍 효과, 정보 처리 효과, 후보자 특성 효과 등을 측정하는 데 효과적이다. 실험의 인과 추론 강점과 서베이의 대표성을 결합한 방법이지만, 실험 처치가 현실적인지 주의해야 한다.
Q284. 목록실험(list experiment)은 왜 민감한 주제에 쓰이는가? 직접 질문하면 솔직한 응답을 기대하기 어려운 주제에서 간접적으로 유병률을 추정하기 위해서다. 응답자를 두 집단으로 나눠 한 집단에는 민감한 항목을 포함한 목록을, 다른 집단에는 포함하지 않은 목록을 주고 해당 항목 수를 세게 한다. 개인이 어느 항목을 선택했는지 알 수 없어 익명성이 보장된다. 두 집단의 평균 차이가 민감한 항목의 해당 비율 추정값이 된다. 부패 경험, 불법 행동, 극단적 태도 측정에 활용된다.
Q285. 무작위 반응법(randomized response technique)이란? 민감한 질문에 대한 솔직한 응답을 유도하기 위해 응답자가 동전을 던지거나 주사위를 굴려 질문에 응답하는 방법이다. 예를 들어 동전 앞면이 나오면 민감한 질문에 답하고, 뒷면이 나오면 항상 "예"라고 답하도록 설계한다. 조사자는 어떤 지시를 따랐는지 모르기 때문에 개인 응답의 의미를 알 수 없다. 그러나 집단 수준에서 확률 계산으로 실제 해당 비율을 추정할 수 있다. 응답자 보호와 집단 추정이라는 두 목표를 동시에 달성하는 방법이다.
Q286. 종단조사(longitudinal survey)의 설계 원칙은? 측정의 일관성이 핵심이다. 시점 간 문항, 척도, 모드가 동일해야 변화가 실제 변화로 해석될 수 있다. 탈락 관리도 중요하다. 초기 표본의 특성을 기록해두고, 탈락자와 잔류자의 차이를 추적해야 한다. 추적을 위한 응답자 연결 정보(패널 ID)를 안전하게 유지하면서도 익명성을 보장하는 구조가 필요하다. 리프레시 표본(신규 충원)을 어떻게 설계할지도 초기에 결정해야 한다. 종단조사는 첫 번째 웨이브 설계가 전체를 규정한다.
Q287. 코호트 조사와 패널 조사는 어떻게 다른가? 코호트 조사는 동일한 특성을 공유하는 집단(예: 같은 해 출생자, 같은 해 입학자)을 시간에 따라 추적하되 매 시점마다 새로운 표본을 뽑는다. 같은 사람을 반복 조사하지 않는다. 패널 조사는 동일한 응답자를 반복 추적한다. 코호트 조사는 개인 변화보다 집단 변화를 보는 데 적합하고, 탈락 문제가 없다. 패널 조사는 개인 수준의 변화를 포착할 수 있지만 탈락과 패널 효과가 문제다. 연구 질문이 무엇인지에 따라 선택이 달라진다.
Q288. 트래킹 조사에서 롤링샘플이란 무엇인가? 매일 또는 매주 일정 수의 응답자를 새로 추가하고 일정 기간이 지난 응답자는 제외하는 방식으로 이동 평균을 계산하는 방법이다. 예를 들어 매일 100명씩 조사하고 최근 7일 치를 합산해 700명 기준으로 결과를 발표한다. 다음 날에는 어제 추가된 100명이 들어오고 8일 전 100명이 빠진다. 선거 기간 여론 변화를 추적할 때 유용하다. 개별 일간 조사의 불안정성을 줄이고 트렌드를 안정적으로 포착할 수 있다.
Q289. 출구조사는 왜 실제 결과와 다를 수 있는가? 여러 원인이 있다. 투표소 출구에서 이루어지므로 투표 후 응답을 거부하는 사람이 있고, 특정 지지자들이 더 많이 거부하면 편향이 생긴다. 우편투표, 사전투표 참여자는 포함되지 않을 수 있다. 사회적 바람직성 편향으로 지지 후보를 다르게 말하는 경우도 있다. 투표소 선정이 대표적이지 않을 때도 문제다. 출구조사는 빠른 예측을 위한 도구이지 완벽한 측정이 아니다. 오차를 인정하면서 활용하는 것이 현실적 접근이다.
Q290. B2B 서베이가 B2C 서베이와 다른 점은? 응답 단위, 모집단 정의, 접근 방식이 모두 다르다. B2B에서는 개인이 아니라 조직이 분석 단위가 되는 경우가 많아, 한 조직 내 여러 사람을 조사할지 한 명의 대표자를 조사할지를 결정해야 한다. 모집단 목록이 공개되지 않아 표집틀 구성이 어렵다. 응답자 접근도 어렵다. 바쁜 임원이나 전문가를 조사하려면 인센티브와 접근 방식이 완전히 달라야 한다. 표본 크기도 B2C보다 작은 경우가 많아 통계적 추론의 한계가 있다.
Q291. 전문가 조사(expert survey)의 타당성 문제는? 전문가 집단의 의견이 일반 여론과 다르다는 것이 첫 번째 문제다. 전문가 조사 결과를 일반 여론인 것처럼 해석하면 안 된다. 누가 전문가인지에 대한 정의도 자의적일 수 있다. 전문가들 사이에서도 의견이 갈리는 주제에서 합의를 과장하는 위험이 있다. 또한 전문가 집단도 특정 이념이나 이해관계 편향이 있다. 전문가 조사는 여론 대리물이 아니라 전문적 판단의 분포를 파악하는 도구로 정확하게 위치시켜야 한다.
Q292. 내부 직원 조사에서 익명성 보장이 가능한가? 구조적으로 어렵다. 소규모 팀에서는 인구통계 조합만으로 응답자가 특정될 수 있다. 조사 플랫폼을 외부에 위탁해도 경영진이 원하면 접근 방법을 찾을 수 있다는 인식이 응답 솔직함을 떨어뜨린다. 완전한 익명성 보장보다는 응답자가 익명성을 실제로 신뢰하게 만드는 것이 더 중요하다. 외부 기관 위탁, 집단 결과만 공개(n=5 미만 셀 비공개), 경영진 열람 제한 같은 구조적 장치가 신뢰 형성에 도움이 된다.
Q293. 고객 만족도 조사(CSAT)의 한계는? 경험 직후의 즉각적 감정을 측정해서 실제 행동(재구매, 이탈)과의 연결이 약하다는 것이 핵심 한계다. 응답자 편향도 심각하다. 불만족한 고객은 응답을 거부하거나 이미 이탈했고, 만족한 고객만 응답한다. 결과가 실제 고객 경험보다 높게 나오는 구조다. 또한 CSAT가 무엇을 측정하는지가 불명확하다. 제품 품질인지, 서비스 과정인지, 전반적 경험인지를 구분하지 않으면 개선 방향을 도출하기 어렵다.
Q294. NPS(순추천지수)는 좋은 측정 도구인가? 마케팅 현장에서 널리 쓰이지만 방법론적 비판이 많다. "이 제품을 주변에 추천하겠습니까?"라는 단일 문항으로 고객 충성도를 측정하는데, 단일 문항의 신뢰도와 타당도 문제가 있다. 추천 의향이 실제 추천 행동을 예측하는지도 불확실하다. 0~6점을 비추천, 7~8점을 중립, 9~10점을 추천으로 분류하는 기준도 자의적이다. 단순하고 직관적이라는 장점은 인정하지만, NPS 하나로 고객 경험 전체를 판단하는 것은 과도한 단순화다.
Q295. 인구총조사(census)는 서베이보다 정확한가? 꼭 그렇지 않다. 인구총조사는 표집오차가 없지만 커버리지 오차와 측정 오차가 크다. 노숙인, 불법 이주민, 시설 거주자는 누락되기 쉽다. 긴 조사 주기(5년 또는 10년) 동안 인구 변화가 반영되지 않는다. 모든 가구를 조사하려다 보니 문항 수가 제한되고 측정 깊이가 얕다. 반면 잘 설계된 서베이는 특정 주제에 대해 인구총조사보다 더 깊고 정확한 측정이 가능하다. 전수조사가 표본조사보다 무조건 우월하다는 생각은 틀렸다.
Q296. 행정데이터와 서베이 데이터를 연계하면 어떤 가능성이 생기는가? 둘의 강점을 결합할 수 있다. 행정데이터는 객관적 사실(소득, 의료 이용, 취업 이력)을 정확하게 제공하고, 서베이는 태도, 주관적 경험, 동기를 포착한다. 두 데이터를 연계하면 객관적 상황과 주관적 인식의 괴리를 분석하거나, 행동의 이유를 탐색할 수 있다. 의료 이용 기록과 건강 인식 서베이를 연계하면 실제 건강 상태와 자가 평가의 차이를 볼 수 있다. 개인정보 보호법상 연계 절차가 복잡하고, 동의 확보가 어렵다는 것이 현실적 장벽이다.
Q297. 혼합방법론(mixed methods)에서 서베이의 위치는? 정량적 토대를 제공하는 역할이다. 서베이가 현상의 규모와 분포를 보여주면, 질적 방법이 그 이유와 맥락을 설명하는 구조가 일반적이다. 반대로 질적 탐색이 먼저 이루어지고 서베이로 확인하는 순서도 있다. 서베이는 혼합방법론에서 대표성과 일반화 가능성을 담당한다. 그러나 서베이가 있다고 해서 연구 전체의 대표성이 보장되지는 않는다. 두 방법의 결과가 일치하지 않을 때 어떻게 해석할지가 혼합방법론의 핵심 도전이다.
Q298. 서베이 방법론의 미래는 어디로 가는가? 세 방향이 동시에 진행될 것이다. 첫째, 디지털 전환. 온라인·모바일 조사가 주류가 되고, AI 인터뷰어와 적응형 설문지가 확산된다. 둘째, 데이터 통합. 서베이 단독이 아니라 행정데이터, 디지털 흔적, 생체 데이터와 결합하는 방향으로 간다. 셋째, 방법론 투명성 강화. 사전 등록, 공개 데이터, 재현 가능성 요구가 높아진다. 이 변화 속에서 TSE 프레임은 새로운 방법들의 품질을 평가하는 기준으로 더 중요해진다. 도구는 바뀌지만 오차를 이해하고 관리하는 원칙은 남는다.
Q299. 가상 설문(VR 활용)의 가능성은? 실험적 서베이의 새로운 지평을 열 수 있다. VR은 응답자를 가상의 현실적 상황에 몰입시켜 의도와 행동의 괴리를 줄이는 데 유용하다. 부동산 선호, 도시 계획 평가, 위험 상황에서의 행동 의사결정처럼 실제로 경험하기 어려운 상황을 시뮬레이션할 수 있다. 가상 환경에서의 반응이 실제 환경에서의 반응과 얼마나 일치하는지는 검증이 필요하다. 현재는 비용과 기술 접근성이 대규모 조사에 적용하는 데 한계로 작용하지만, 비용이 낮아지면 활용 범위가 크게 넓어질 것이다.
Q300. 당신은 좋은 서베이어인가? 이 질문에 "그렇다"고 자신 있게 답하는 사람은 오히려 의심해볼 필요가 있다. 좋은 서베이어는 자신의 설계에서 오차를 찾고, 자신의 분석에서 왜곡 가능성을 의심하며, 자신의 보고에서 책임을 느끼는 사람이다. 이 300개의 질문 중 아직 불확실한 답이 많다면 그것이 오히려 좋은 신호다. 서베이의 어려움과 민감함을 인식하는 것이 좋은 서베이어의 출발점이다. 방법론은 배울 수 있지만, 오차 앞에서 겸손한 태도는 스스로 만들어야 한다.
댓글
댓글 쓰기