메소드서베이

2026년 4월 11일 토요일

공론조사와 특수 서베이: 25개 질문과 대답

Q276. 공론조사(deliberative polling)란 무엇인가? 제임스 피시킨이 개발한 방법으로, 대표성 있는 표본을 선정해 특정 이슈에 대한 균형 잡힌 정보를 제공하고 전문가·이해관계자와의 토론을 거친 후 의견을 측정하는 방식이다. 일반 여론조사가 즉각적 의견을 재는 것과 달리, 숙의 후 의견을 측정한다는 점이 핵심이다. 한국에서는 신고리 5·6호기 공론화가 대표적 사례다. 측정 도구이자 민주주의 실험이라는 이중적 성격을 갖는다.

Q277. 공론조사는 여론을 측정하는가, 형성하는가? 형성한다. 이것이 공론조사의 본질이자 논쟁점이다. 숙의 전후 의견이 달라진다는 것은 공론조사가 있는 의견을 재는 것이 아니라 새로운 의견을 만든다는 뜻이다. 지지자들은 이것이 더 성숙하고 정보에 기반한 여론이라고 말한다. 비판자들은 특정 방향의 정보 제공과 토론 설계가 결과를 의도한 방향으로 유도할 수 있다고 말한다. 측정과 형성의 경계에 선 방법이다.

Q278. 공론조사가 과학적 권위를 갖는다고 볼 수 있는가? 부분적으로만 그렇다. 확률표집, 사전·사후 측정, 통계 분석 등 과학적 외양을 갖추고 있다. 하지만 숙의 과정의 설계가 결과에 결정적 영향을 미치며, 이 설계는 가치 판단이 개입된 선택이다. 어떤 정보를 제공하는가, 어떤 전문가를 초청하는가, 토론을 어떻게 진행하는가가 모두 중립적이지 않다. 공론조사는 과학적 방법론에서 권위를 빌리지만, 핵심 설계는 과학적으로 검증할 수 없는 판단들로 이루어져 있다.

Q279. 숙의(deliberation) 전후 의견 변화는 어떻게 해석해야 하는가? 신중하게 해석해야 한다. 변화가 정보 습득과 합리적 숙고의 결과일 수 있지만, 집단 역학, 사회적 압력, 정보의 선택적 제공, 권위자 효과의 결과일 수도 있다. 같은 방향으로 의견이 수렴된다면 합의가 아니라 동조일 수 있다. 특히 변화가 일관되게 특정 방향으로만 나타난다면 숙의 설계의 편향을 의심해야 한다. 변화량이 크다는 것이 반드시 좋은 숙의를 의미하지 않는다.

Q280. 공론조사 결과를 정책에 반영하는 것이 민주주의적인가? 논쟁적이다. 지지 측은 단순 다수결보다 더 성숙하고 정보에 기반한 의사결정이라고 본다. 비판 측은 수백 명의 선택된 집단이 전체 국민을 대표할 수 없으며, 숙의 과정 설계에 따라 결과가 달라지는 구조는 민주적 정당성이 약하다고 본다. 더 근본적 질문은 공론조사 결과에 어느 정도의 구속력을 부여하는가다. 참고 자료로 쓰는 것과 결정의 근거로 쓰는 것은 전혀 다른 의미를 갖는다.

Q281. SP(진술선호) 조사란 무엇인가? 실제로 시장에 존재하지 않거나 경험하기 어려운 상황에 대한 선호를 가상 시나리오를 통해 측정하는 방법이다. 교통, 환경, 에너지 정책처럼 실제 선택 데이터가 없는 영역에서 사람들의 가치와 선호를 추정하는 데 쓰인다. 응답자에게 속성이 다른 여러 옵션을 제시하고 선택하게 한다. 현시선호(revealed preference) 데이터가 없을 때 유일한 측정 수단이지만, 가상 상황에 대한 응답이 실제 선택을 반영하는지는 항상 검증이 필요하다.

Q282. 컨조인트 분석(conjoint analysis)은 서베이인가? 서베이 기반의 측정 방법이다. 응답자에게 여러 속성의 조합으로 구성된 선택지를 제시하고 선호를 측정한다. 설문지 형식으로 진행되지만, 단순 척도 응답이 아니라 트레이드오프 판단을 요구한다는 점에서 일반 서베이보다 복잡하다. 제품 개발, 가격 정책, 정책 선호 분석에 널리 쓰인다. 응답자가 각 속성의 가중치를 명시적으로 표현하지 않아도 선택 패턴에서 암묵적 선호를 추출할 수 있다는 것이 강점이다.

Q283. 실험적 서베이(survey experiment)란 무엇인가? 서베이 안에 실험 설계를 내장하는 방법이다. 응답자를 무작위로 집단에 배정해 서로 다른 자극(다른 문항 표현, 다른 정보, 다른 프레이밍)을 제시하고 응답 차이를 측정한다. 무작위 배정 덕분에 집단 간 비교가 인과적으로 해석될 수 있다. 프레이밍 효과, 정보 처리 효과, 후보자 특성 효과 등을 측정하는 데 효과적이다. 실험의 인과 추론 강점과 서베이의 대표성을 결합한 방법이지만, 실험 처치가 현실적인지 주의해야 한다.

Q284. 목록실험(list experiment)은 왜 민감한 주제에 쓰이는가? 직접 질문하면 솔직한 응답을 기대하기 어려운 주제에서 간접적으로 유병률을 추정하기 위해서다. 응답자를 두 집단으로 나눠 한 집단에는 민감한 항목을 포함한 목록을, 다른 집단에는 포함하지 않은 목록을 주고 해당 항목 수를 세게 한다. 개인이 어느 항목을 선택했는지 알 수 없어 익명성이 보장된다. 두 집단의 평균 차이가 민감한 항목의 해당 비율 추정값이 된다. 부패 경험, 불법 행동, 극단적 태도 측정에 활용된다.

Q285. 무작위 반응법(randomized response technique)이란? 민감한 질문에 대한 솔직한 응답을 유도하기 위해 응답자가 동전을 던지거나 주사위를 굴려 질문에 응답하는 방법이다. 예를 들어 동전 앞면이 나오면 민감한 질문에 답하고, 뒷면이 나오면 항상 "예"라고 답하도록 설계한다. 조사자는 어떤 지시를 따랐는지 모르기 때문에 개인 응답의 의미를 알 수 없다. 그러나 집단 수준에서 확률 계산으로 실제 해당 비율을 추정할 수 있다. 응답자 보호와 집단 추정이라는 두 목표를 동시에 달성하는 방법이다.

Q286. 종단조사(longitudinal survey)의 설계 원칙은? 측정의 일관성이 핵심이다. 시점 간 문항, 척도, 모드가 동일해야 변화가 실제 변화로 해석될 수 있다. 탈락 관리도 중요하다. 초기 표본의 특성을 기록해두고, 탈락자와 잔류자의 차이를 추적해야 한다. 추적을 위한 응답자 연결 정보(패널 ID)를 안전하게 유지하면서도 익명성을 보장하는 구조가 필요하다. 리프레시 표본(신규 충원)을 어떻게 설계할지도 초기에 결정해야 한다. 종단조사는 첫 번째 웨이브 설계가 전체를 규정한다.

Q287. 코호트 조사와 패널 조사는 어떻게 다른가? 코호트 조사는 동일한 특성을 공유하는 집단(예: 같은 해 출생자, 같은 해 입학자)을 시간에 따라 추적하되 매 시점마다 새로운 표본을 뽑는다. 같은 사람을 반복 조사하지 않는다. 패널 조사는 동일한 응답자를 반복 추적한다. 코호트 조사는 개인 변화보다 집단 변화를 보는 데 적합하고, 탈락 문제가 없다. 패널 조사는 개인 수준의 변화를 포착할 수 있지만 탈락과 패널 효과가 문제다. 연구 질문이 무엇인지에 따라 선택이 달라진다.

Q288. 트래킹 조사에서 롤링샘플이란 무엇인가? 매일 또는 매주 일정 수의 응답자를 새로 추가하고 일정 기간이 지난 응답자는 제외하는 방식으로 이동 평균을 계산하는 방법이다. 예를 들어 매일 100명씩 조사하고 최근 7일 치를 합산해 700명 기준으로 결과를 발표한다. 다음 날에는 어제 추가된 100명이 들어오고 8일 전 100명이 빠진다. 선거 기간 여론 변화를 추적할 때 유용하다. 개별 일간 조사의 불안정성을 줄이고 트렌드를 안정적으로 포착할 수 있다.

Q289. 출구조사는 왜 실제 결과와 다를 수 있는가? 여러 원인이 있다. 투표소 출구에서 이루어지므로 투표 후 응답을 거부하는 사람이 있고, 특정 지지자들이 더 많이 거부하면 편향이 생긴다. 우편투표, 사전투표 참여자는 포함되지 않을 수 있다. 사회적 바람직성 편향으로 지지 후보를 다르게 말하는 경우도 있다. 투표소 선정이 대표적이지 않을 때도 문제다. 출구조사는 빠른 예측을 위한 도구이지 완벽한 측정이 아니다. 오차를 인정하면서 활용하는 것이 현실적 접근이다.

Q290. B2B 서베이가 B2C 서베이와 다른 점은? 응답 단위, 모집단 정의, 접근 방식이 모두 다르다. B2B에서는 개인이 아니라 조직이 분석 단위가 되는 경우가 많아, 한 조직 내 여러 사람을 조사할지 한 명의 대표자를 조사할지를 결정해야 한다. 모집단 목록이 공개되지 않아 표집틀 구성이 어렵다. 응답자 접근도 어렵다. 바쁜 임원이나 전문가를 조사하려면 인센티브와 접근 방식이 완전히 달라야 한다. 표본 크기도 B2C보다 작은 경우가 많아 통계적 추론의 한계가 있다.

Q291. 전문가 조사(expert survey)의 타당성 문제는? 전문가 집단의 의견이 일반 여론과 다르다는 것이 첫 번째 문제다. 전문가 조사 결과를 일반 여론인 것처럼 해석하면 안 된다. 누가 전문가인지에 대한 정의도 자의적일 수 있다. 전문가들 사이에서도 의견이 갈리는 주제에서 합의를 과장하는 위험이 있다. 또한 전문가 집단도 특정 이념이나 이해관계 편향이 있다. 전문가 조사는 여론 대리물이 아니라 전문적 판단의 분포를 파악하는 도구로 정확하게 위치시켜야 한다.

Q292. 내부 직원 조사에서 익명성 보장이 가능한가? 구조적으로 어렵다. 소규모 팀에서는 인구통계 조합만으로 응답자가 특정될 수 있다. 조사 플랫폼을 외부에 위탁해도 경영진이 원하면 접근 방법을 찾을 수 있다는 인식이 응답 솔직함을 떨어뜨린다. 완전한 익명성 보장보다는 응답자가 익명성을 실제로 신뢰하게 만드는 것이 더 중요하다. 외부 기관 위탁, 집단 결과만 공개(n=5 미만 셀 비공개), 경영진 열람 제한 같은 구조적 장치가 신뢰 형성에 도움이 된다.

Q293. 고객 만족도 조사(CSAT)의 한계는? 경험 직후의 즉각적 감정을 측정해서 실제 행동(재구매, 이탈)과의 연결이 약하다는 것이 핵심 한계다. 응답자 편향도 심각하다. 불만족한 고객은 응답을 거부하거나 이미 이탈했고, 만족한 고객만 응답한다. 결과가 실제 고객 경험보다 높게 나오는 구조다. 또한 CSAT가 무엇을 측정하는지가 불명확하다. 제품 품질인지, 서비스 과정인지, 전반적 경험인지를 구분하지 않으면 개선 방향을 도출하기 어렵다.

Q294. NPS(순추천지수)는 좋은 측정 도구인가? 마케팅 현장에서 널리 쓰이지만 방법론적 비판이 많다. "이 제품을 주변에 추천하겠습니까?"라는 단일 문항으로 고객 충성도를 측정하는데, 단일 문항의 신뢰도와 타당도 문제가 있다. 추천 의향이 실제 추천 행동을 예측하는지도 불확실하다. 0~6점을 비추천, 7~8점을 중립, 9~10점을 추천으로 분류하는 기준도 자의적이다. 단순하고 직관적이라는 장점은 인정하지만, NPS 하나로 고객 경험 전체를 판단하는 것은 과도한 단순화다.

Q295. 인구총조사(census)는 서베이보다 정확한가? 꼭 그렇지 않다. 인구총조사는 표집오차가 없지만 커버리지 오차와 측정 오차가 크다. 노숙인, 불법 이주민, 시설 거주자는 누락되기 쉽다. 긴 조사 주기(5년 또는 10년) 동안 인구 변화가 반영되지 않는다. 모든 가구를 조사하려다 보니 문항 수가 제한되고 측정 깊이가 얕다. 반면 잘 설계된 서베이는 특정 주제에 대해 인구총조사보다 더 깊고 정확한 측정이 가능하다. 전수조사가 표본조사보다 무조건 우월하다는 생각은 틀렸다.

Q296. 행정데이터와 서베이 데이터를 연계하면 어떤 가능성이 생기는가? 둘의 강점을 결합할 수 있다. 행정데이터는 객관적 사실(소득, 의료 이용, 취업 이력)을 정확하게 제공하고, 서베이는 태도, 주관적 경험, 동기를 포착한다. 두 데이터를 연계하면 객관적 상황과 주관적 인식의 괴리를 분석하거나, 행동의 이유를 탐색할 수 있다. 의료 이용 기록과 건강 인식 서베이를 연계하면 실제 건강 상태와 자가 평가의 차이를 볼 수 있다. 개인정보 보호법상 연계 절차가 복잡하고, 동의 확보가 어렵다는 것이 현실적 장벽이다.

Q297. 혼합방법론(mixed methods)에서 서베이의 위치는? 정량적 토대를 제공하는 역할이다. 서베이가 현상의 규모와 분포를 보여주면, 질적 방법이 그 이유와 맥락을 설명하는 구조가 일반적이다. 반대로 질적 탐색이 먼저 이루어지고 서베이로 확인하는 순서도 있다. 서베이는 혼합방법론에서 대표성과 일반화 가능성을 담당한다. 그러나 서베이가 있다고 해서 연구 전체의 대표성이 보장되지는 않는다. 두 방법의 결과가 일치하지 않을 때 어떻게 해석할지가 혼합방법론의 핵심 도전이다.

Q298. 서베이 방법론의 미래는 어디로 가는가? 세 방향이 동시에 진행될 것이다. 첫째, 디지털 전환. 온라인·모바일 조사가 주류가 되고, AI 인터뷰어와 적응형 설문지가 확산된다. 둘째, 데이터 통합. 서베이 단독이 아니라 행정데이터, 디지털 흔적, 생체 데이터와 결합하는 방향으로 간다. 셋째, 방법론 투명성 강화. 사전 등록, 공개 데이터, 재현 가능성 요구가 높아진다. 이 변화 속에서 TSE 프레임은 새로운 방법들의 품질을 평가하는 기준으로 더 중요해진다. 도구는 바뀌지만 오차를 이해하고 관리하는 원칙은 남는다.

Q299. 가상 설문(VR 활용)의 가능성은? 실험적 서베이의 새로운 지평을 열 수 있다. VR은 응답자를 가상의 현실적 상황에 몰입시켜 의도와 행동의 괴리를 줄이는 데 유용하다. 부동산 선호, 도시 계획 평가, 위험 상황에서의 행동 의사결정처럼 실제로 경험하기 어려운 상황을 시뮬레이션할 수 있다. 가상 환경에서의 반응이 실제 환경에서의 반응과 얼마나 일치하는지는 검증이 필요하다. 현재는 비용과 기술 접근성이 대규모 조사에 적용하는 데 한계로 작용하지만, 비용이 낮아지면 활용 범위가 크게 넓어질 것이다.

Q300. 당신은 좋은 서베이어인가? 이 질문에 "그렇다"고 자신 있게 답하는 사람은 오히려 의심해볼 필요가 있다. 좋은 서베이어는 자신의 설계에서 오차를 찾고, 자신의 분석에서 왜곡 가능성을 의심하며, 자신의 보고에서 책임을 느끼는 사람이다. 이 300개의 질문 중 아직 불확실한 답이 많다면 그것이 오히려 좋은 신호다. 서베이의 어려움과 민감함을 인식하는 것이 좋은 서베이어의 출발점이다. 방법론은 배울 수 있지만, 오차 앞에서 겸손한 태도는 스스로 만들어야 한다.

신세틱 서베이와 AI: 22개 질문과 대답

Q254. 신세틱 서베이란 무엇인가? 실제 사람을 조사하는 대신 AI가 특정 인구통계적 특성을 가진 가상의 응답자를 시뮬레이션해 응답을 생성하는 방법이다. LLM에게 "50대 보수 성향 남성이라면 이 질문에 어떻게 응답할 것인가"를 묻는 방식이다. 비용과 시간을 획기적으로 줄일 수 있다는 장점이 있다. 하지만 실제 사람의 응답이 아니라 언어모델이 학습한 패턴의 재현이라는 점에서 서베이의 본질적 전제를 흔든다. 가능성과 한계가 동시에 극단적인 방법이다.

Q255. 신세틱 응답자는 실제 응답자를 대체할 수 있는가? 현재로서는 대체할 수 없다. 신세틱 응답자는 LLM 훈련 데이터에 포착된 집단의 평균적 표현을 재현할 뿐, 실제 개인의 복잡한 태도와 경험을 담지 못한다. 특히 한국 사회의 특수한 맥락, 최근 사건, 훈련 데이터에 충분히 반영되지 않은 집단의 의견은 재현 자체가 불가능하다. 탐색적 사전 검토, 설문지 파일럿, 가설 생성에는 유용할 수 있다. 그러나 실제 여론을 측정하는 목적으로는 아직 대체 수단이 되지 못한다.

Q256. LLM 기반 신세틱 서베이의 근본적 한계는? LLM은 과거 텍스트를 학습한 모델이다. 실제 태도가 아니라 태도에 대한 기술(description)을 학습했다. "40대 진보 성향 여성은 이렇게 생각한다"는 텍스트 패턴을 재현하는 것이지, 실제 40대 진보 성향 여성의 내면을 시뮬레이션하는 것이 아니다. 더 근본적으로는 훈련 데이터에 없는 태도, 훈련 이후 변화한 여론, 침묵하는 다수의 의견은 원천적으로 재현할 수 없다. 신세틱 서베이는 훈련 데이터의 거울이다.

Q257. 신세틱 서베이는 어떤 조건에서 유용한가? 실제 조사가 불가능하거나 윤리적으로 제한적인 상황에서 탐색적 목적으로 쓸 때 가치가 있다. 설문지 초안의 문항 반응 예측, 극단적 시나리오에 대한 가설 생성, 파일럿 조사 대체, 다언어 번역 검토 등이다. 또한 실제 조사 데이터와 비교 검증 목적으로 쓸 때 방법론적 의미가 있다. 독립적 결론 도출보다는 설계 보조 도구로 활용할 때 위험이 낮다. 신세틱 서베이가 유용한 조건은 그것이 실제 조사를 대체하지 않는다는 전제가 유지될 때다.

Q258. 신세틱 데이터와 실제 데이터의 검증은 어떻게 하는가? 같은 문항을 실제 서베이와 신세틱 서베이로 동시에 수행하고 결과를 비교하는 방법이 가장 직접적이다. 응답 분포의 유사성, 집단 간 차이 패턴의 일치 여부를 확인한다. 단순 비율 비교뿐 아니라 상관 구조, 요인 구조, 서브그룹 패턴이 일치하는지도 봐야 한다. 검증 결과 특정 인구집단이나 특정 유형의 문항에서 불일치가 크다면, 그 조건에서의 신세틱 서베이는 신뢰하기 어렵다. 검증 없는 신세틱 서베이는 맞는지 틀리는지 알 수 없는 데이터다.

Q259. AI 페르소나는 인구통계적 특성을 얼마나 반영하는가? 성별, 연령, 교육 수준 같은 기본 인구통계는 어느 정도 반영한다. 인터넷에 이 집단에 대한 텍스트가 충분히 존재하기 때문이다. 그러나 지역 특성, 직업 정체성, 복합적 정치 성향, 세대 내 이질성은 잘 반영되지 않는다. 한국 특유의 집단 경험, 예를 들어 IMF 세대의 경제적 트라우마나 촛불 세대의 정치적 경험 같은 것은 LLM이 충분히 학습하지 않았을 가능성이 높다. 인구통계는 레이블이고, 그 레이블 뒤의 실제 경험은 포착이 어렵다.

Q260. 신세틱 서베이에서 문화적 맥락은 어떻게 다루는가? 가장 취약한 부분이다. LLM은 영어 텍스트 중심으로 훈련되어 있어 한국 사회의 특수한 맥락을 충분히 반영하지 못한다. 한국의 학벌 의식, 지역 감정, 세대 간 갈등, 정치적 진영화 같은 맥락은 한국어 데이터의 양과 질에 달려 있다. 한국어 프롬프트를 써도 모델 내부의 가중치는 영어 중심으로 구성되어 있을 가능성이 높다. 문화적 맥락이 중요한 조사일수록 신세틱 서베이의 한계는 더 명확해진다. 문화는 언어로 번역되지 않는 부분이 많다.

Q261. AI 인터뷰어와 신세틱 응답자는 어떻게 다른가? AI 인터뷰어는 실제 사람을 대상으로 AI가 질문하고 응답을 수집한다. 조사원 효과를 줄이고 비용을 낮추지만 측정 대상은 여전히 실제 인간이다. 신세틱 응답자는 실제 사람 없이 AI가 응답 자체를 생성한다. 전자는 데이터 수집 방식의 혁신이고, 후자는 데이터 생성 방식의 근본적 전환이다. AI 인터뷰어는 서베이의 진화이지만, 신세틱 응답자는 서베이의 대체 시도다. 방법론적 지위가 완전히 다르다.

Q262. AI가 생성한 질적 데이터의 신뢰성은? 구조적으로 낮다. 개방형 응답을 AI가 생성하면 실제 응답자가 표현했을 개인적 경험, 감정, 언어 패턴이 아니라 그 집단에 대해 인터넷에 존재하는 서술의 평균이 나온다. 결과적으로 신세틱 질적 데이터는 놀랍도록 매끄럽고 전형적이다. 실제 응답에서 나타나는 불규칙성, 모순, 의외성이 없다. 이것이 오히려 신세틱 데이터임을 드러내는 신호이기도 하다. 질적 데이터의 가치는 예상치 못한 목소리에 있는데, 신세틱 데이터는 예상된 목소리만 만든다.

Q263. 신세틱 서베이는 측정 오차를 줄이는가, 늘리는가? 전통적 의미의 측정 오차 개념 자체가 달라진다. 실제 응답자가 없으니 사회적 바람직성 편향, 회상 편향, 응답 피로 같은 오차는 없다. 그러나 이것은 오차가 줄어든 것이 아니라 오차의 종류가 바뀐 것이다. 새로운 오차 원천은 LLM의 훈련 데이터 편향, 프롬프트 설계 오류, 모델 버전 차이에 따른 응답 변동이다. 기존의 측정 오차보다 이 오차들이 더 통제하기 어렵고 투명하지 않을 수 있다.

Q264. LLM의 훈련 데이터 편향이 신세틱 서베이에 미치는 영향은? 직접적이고 체계적이다. LLM이 특정 집단에 대해 편향된 텍스트를 학습했다면, 그 집단의 신세틱 응답도 편향된다. 인터넷 텍스트는 고학력, 도시 거주, 영어 사용자, 적극적 발언자에 치우쳐 있다. 이 텍스트로 훈련된 LLM은 그 목소리를 과대 대표한다. 더 심각한 것은 이 편향이 불투명하다는 점이다. 어떤 텍스트로 어떻게 훈련됐는지 완전히 공개되지 않기 때문에 편향의 방향과 크기를 사전에 알기 어렵다.

Q265. 신세틱 서베이는 총조사오차 프레임으로 평가 가능한가? 가능하지만 재정의가 필요하다. 커버리지 오차는 훈련 데이터가 커버하지 못한 집단의 부재로 재해석된다. 표집 오차는 프롬프트 설계에 따른 응답 변동으로 본다. 무응답 오차는 모델이 응답을 거부하거나 일관되지 않게 반응하는 현상이다. 측정 오차는 프롬프트 문구의 미묘한 차이가 응답을 바꾸는 현상이다. TSE 프레임을 유지하면 신세틱 서베이의 약점을 체계적으로 진단할 수 있다. 새로운 도구를 기존 품질 기준으로 평가하려는 시도 자체는 유효하다.

Q266. 미래에 신세틱 서베이가 실제 서베이를 대체할 가능성은? 완전한 대체는 어렵고, 부분적 보완은 확대될 것이다. 탐색적 조사, 파일럿, 가설 검증, 비용이 허용되지 않는 소규모 연구에서 활용이 늘어날 것이다. 그러나 선거 여론조사, 정책 평가, 학술 연구처럼 정확성과 대표성이 중요한 영역에서는 실제 응답자를 대체하기 어렵다. LLM 성능이 개선되어도 근본적 문제, 즉 훈련 데이터가 현실을 왜곡하고 현재를 반영하지 못한다는 한계는 구조적이다. 대체보다는 실제 서베이와 병행하는 혼합 접근이 현실적 방향이다.

Q267. 신세틱 서베이의 윤리적 쟁점은 무엇인가? 크게 세 가지다. 첫째, 투명성. 신세틱 데이터를 실제 조사 결과인 것처럼 보고하면 기만이다. 둘째, 특정 집단 대표성 왜곡. LLM이 특정 집단을 왜곡해서 표현한다면 그 집단에 대한 편견을 강화할 수 있다. 셋째, 책임 소재. 신세틱 결과가 잘못된 의사결정으로 이어졌을 때 누가 책임지는가. 실제 사람의 응답이 없으니 응답자 보호 문제는 없지만, 실제 사람에 대한 표현의 책임 문제가 새롭게 생긴다. 도구는 새롭지만 윤리적 책임은 더 복잡해졌다.

Q268. AI 코딩(응답 분류)의 신뢰도는 어떻게 평가하는가? 인간 코더와의 일치도를 계산하는 것이 기본이다. Cohen's kappa나 퍼센트 일치율로 AI 코딩과 인간 코딩의 일관성을 측정한다. 단, 인간 코더 간 일치도도 먼저 확인해야 한다. 인간들도 일치하지 않는 모호한 범주에서 AI 코딩의 정확성을 요구하기는 어렵다. 또한 AI 코딩은 프롬프트, 모델 버전, 온도 설정에 따라 달라지므로 조건을 고정하고 재현 가능성을 확인해야 한다. 사용한 모델과 프롬프트를 공개하지 않는 AI 코딩 결과는 신뢰하기 어렵다.

Q269. 머신러닝으로 무응답을 예측하고 보정하는 것이 타당한가? 조건부로 타당하다. 응답자의 인구통계, 이전 조사 참여 이력, 행동 데이터를 학습해 무응답 여부를 예측하고 이를 가중치에 반영하는 방법은 전통적 무응답 가중치보다 정교할 수 있다. 그러나 예측 모델이 관측된 변수에만 의존하는 한, 관측되지 않은 특성의 차이는 여전히 교정되지 않는다. 또한 모델의 학습 편향이 보정 과정에 개입할 수 있다. 머신러닝은 더 나은 도구이지 완전한 해결책이 아니다. 모델 구조와 변수를 투명하게 공개해야 한다.

Q270. 빅데이터와 서베이 데이터의 결합(data fusion)은 어떻게 하는가? 공통 변수를 매개로 두 데이터를 연결하는 방법이 일반적이다. 인구통계나 지리 정보를 키로 삼아 행정 데이터, SNS 데이터, 서베이 데이터를 개인 또는 지역 수준에서 결합한다. 통계적 매칭, 성향점수 매칭, 다층 회귀 등이 활용된다. 핵심 문제는 결합 과정에서 원래 데이터 각각의 오차가 누적된다는 것이다. 빅데이터의 커버리지 편향과 서베이의 표집 오차가 결합되면 새로운 오차 구조가 만들어진다. 결합의 기술보다 결합의 전제를 검증하는 것이 더 중요하다.

Q271. 디지털 흔적(digital trace data)은 서베이를 보완할 수 있는가? 특정 영역에서는 강력한 보완이 된다. 실제 행동 데이터(검색어, 구매 이력, 이동 패턴)는 서베이의 의도-행동 괴리를 채울 수 있다. 응답자가 기억하지 못하거나 보고하기 꺼리는 행동을 포착한다. 그러나 디지털 흔적은 플랫폼 이용자에게 한정되고, 알고리즘이 노출하는 것에 편향되며, 행동의 이유를 말해주지 않는다. 서베이가 "왜"를 묻는 도구라면, 디지털 흔적은 "무엇을 했는가"를 보여주는 도구다. 두 데이터는 다른 질문에 답한다.

Q272. AI 시대에 서베이 방법론자의 역할은 어떻게 변하는가? 더 중요해지지만 역할의 성격이 바뀐다. 데이터 수집과 단순 분석은 자동화되어도, 무엇을 측정할지 설계하고, 결과를 비판적으로 해석하고, AI가 만든 오차를 진단하는 역할은 사람이 해야 한다. 특히 AI 생성 데이터의 편향을 탐지하고 신세틱 결과의 한계를 명시하는 역할이 새롭게 요구된다. 도구 사용자에서 도구 감독자로 역할이 이동한다. TSE를 이해하는 방법론자는 AI 도구가 어느 오차를 줄이고 어느 오차를 만드는지 판단할 수 있는 유일한 위치에 있다.

Q273. 신세틱 서베이 결과를 어떻게 보고해야 하는가? 신세틱 데이터임을 명시하는 것이 가장 먼저다. 사용한 모델, 버전, 프롬프트 설계, 페르소나 설정 방법을 공개해야 한다. 실제 서베이와 비교 검증이 이루어졌다면 그 결과도 함께 보고해야 한다. 결론의 강도도 조정해야 한다. 실제 조사 결과에 쓰는 단정적 표현 대신 "신세틱 시뮬레이션 결과에 따르면"처럼 출처를 분명히 해야 한다. 투명성 없는 신세틱 보고는 실제 조사 결과인 척하는 것과 다르지 않다. 새로운 방법일수록 보고 기준이 더 엄격해야 한다.

Q274. LLM이 특정 이념적 성향을 갖는다면 신세틱 서베이에 어떤 영향을 미치는가? 체계적 편향이 생긴다. LLM이 진보적 텍스트를 더 많이 학습했거나 특정 이슈에 대해 특정 방향으로 정렬되어 있다면, 신세틱 응답은 그 방향으로 쏠린다. 보수 성향 페르소나를 설정해도 LLM의 이념적 편향이 응답에 반영될 수 있다. 이것은 표집틀 편향보다 더 은밀하다. 표집틀 편향은 누가 포함됐는지로 확인이 가능하지만, LLM의 이념적 편향은 응답 자체를 분석하지 않으면 보이지 않는다. 신세틱 서베이로 정치·이념 관련 조사를 하는 것은 특히 위험하다.

Q275. 신세틱 서베이는 누가 검증해야 하는가? 개발자, 사용자, 독립 연구자가 각각 다른 층위에서 검증해야 한다. 개발자는 신세틱 결과가 실제 조사와 얼마나 일치하는지를 체계적으로 벤치마킹해야 한다. 사용자는 자신의 조사 맥락에서 신세틱 결과를 실제 데이터와 비교 검증해야 한다. 독립 연구자는 어떤 조건에서 신세틱 서베이가 실패하는지를 공개적으로 연구해야 한다. 현재는 개발자의 자체 검증에 의존하는 구조인데, 이것은 이해충돌이 있다. 신세틱 서베이가 실무에 확산되기 전에 독립적 검증 체계가 먼저 갖춰져야 한다.

윤리와 사회적 책임: 23개 질문과 대답

Q231. 서베이 윤리의 핵심 원칙은 무엇인가? 크게 세 가지다. 첫째, 응답자 보호. 익명성 보장, 자발적 참여, 개인정보 보호가 포함된다. 둘째, 방법론적 정직. 설계, 분석, 보고 전 과정에서 의도적 왜곡이 없어야 한다. 셋째, 공중에 대한 책임. 서베이 결과는 여론을 형성하고 정책에 영향을 미친다. 응답자와의 계약, 의뢰인과의 계약, 공중과의 계약이 동시에 존재하며, 이 세 계약이 충돌할 때 어떤 원칙을 우선하는가가 서베이어의 윤리적 정체성을 결정한다.

Q232. 응답자 익명성은 어떻게 보장해야 하는가? 개인 식별 정보와 응답 데이터를 분리 저장하는 것이 기본이다. 조사 번호로만 연결하고, 분석 단계에서는 개인 식별 정보에 접근할 수 없도록 해야 한다. 소규모 집단 조사에서는 인구통계 조합만으로도 개인이 특정될 수 있으므로 교차 집계 결과 공개 시 세밀한 분류를 피해야 한다. 익명성 보장은 법적 의무이기 전에 응답자와의 신뢰 계약이다. 이것이 깨지면 응답자가 솔직하게 응답할 이유가 사라진다.

Q233. 조사 결과를 공개하지 않을 권리가 의뢰인에게 있는가? 계약상 권리는 있을 수 있지만 윤리적으로는 논쟁의 여지가 있다. 의뢰인이 비용을 냈으므로 결과 공개 여부를 결정할 권리가 있다는 주장이 있다. 반대로 공공 이슈에 관한 조사 결과를 선택적으로 은폐하는 것은 정보 왜곡이라는 주장도 있다. 특히 선거 관련 조사는 공직선거법상 공표 의무가 있다. 학술 조사에서는 데이터 공개와 재현 가능성이 점점 강화되는 규범이 되고 있다. 결과를 숨길 권리와 공개할 의무 사이의 긴장은 쉽게 해소되지 않는다.

Q234. 부분 공개는 윤리적으로 허용되는가? 결과에 따라 다르다. 자신에게 유리한 결과만 발표하고 불리한 결과는 숨기는 것은 여론 조작에 가깝다. 선거 여론조사에서 특정 후보 지지율만 발표하고 다른 후보 수치는 공개하지 않는다면, 공개된 정보가 사실이더라도 그 행위는 기만적이다. 부분 공개가 허용되려면 공개하지 않은 부분이 있다는 사실 자체를 밝혀야 한다. 무엇을 숨겼는지 모르는 상태에서의 정보는 완전한 정보가 아니다.

Q235. 의뢰인에게 불리한 결과를 어떻게 처리해야 하는가? 있는 그대로 보고해야 한다. 서베이어의 역할은 의뢰인이 원하는 결과를 만드는 것이 아니라, 현실을 정확하게 보여주는 것이다. 불리한 결과를 완화하거나 묻어두라는 압력을 받을 수 있다. 이때 방법론적 재검토는 타당하지만, 방법론을 바꿔 결과를 바꾸는 것은 조작이다. 장기적으로 불리한 결과를 정직하게 보고하는 기관이 신뢰를 얻는다. 의뢰인이 불편한 진실을 듣게 하는 것도 서베이어의 책임이다.

Q236. 조사 설계 단계에서 이해충돌은 어떻게 다뤄야 하는가? 조사기관이 의뢰인의 이해관계와 연결되어 있을 때 이해충돌이 발생한다. 정치적 성향이 있는 기관이 관련 정당 관련 조사를 수행하거나, 특정 기업 주식을 보유한 분석가가 그 기업 관련 조사를 설계하는 경우다. 이해충돌 자체를 막기 어렵다면 투명하게 공개해야 한다. 의뢰인, 조사 목적, 자금 출처를 명시하는 것이 최소한의 요건이다. 이해충돌이 있다는 것을 아는 독자는 결과를 다르게 해석할 수 있다.

Q237. 정치적 목적의 여론조사는 중립적일 수 있는가? 설계는 중립적일 수 있지만 목적이 중립적이기는 어렵다. 정치 캠프가 의뢰한 조사는 전략 수립을 위한 것이고, 결과가 유리하면 공개하고 불리하면 숨기는 비대칭적 공개가 일어난다. 설령 방법론이 완벽하더라도, 어떤 질문을 하고 어떤 결과를 공개하는지에 대한 선택 자체가 이미 중립적이지 않다. 여론조사가 정치적 목적에 쓰인다는 것을 인식하고 읽는 것이 중요하다. 방법론의 중립성과 용도의 중립성은 다른 문제다.

Q238. 선거 여론조사가 투표 행동에 영향을 미치는가? 연구 결과가 혼재하지만 영향이 없다고 보기는 어렵다. 지지율 격차가 크게 나타나면 열세 후보 지지자들이 기권할 수 있고, 접전으로 나타나면 투표 동기가 강화될 수 있다. 이것이 밴드왜건 효과와 언더독 효과다. 더 미묘한 영향은 의제 설정이다. 어떤 후보의 지지율을 어떻게 보도하느냐가 그 후보에 대한 인식을 형성한다. 여론조사가 여론을 반영하는 동시에 여론을 만드는 이중적 역할을 한다는 점에서 선거 조사는 특별한 윤리적 책임을 갖는다.

Q239. 밴드왜건 효과와 언더독 효과는 실제로 존재하는가? 둘 다 존재하지만 크기와 방향은 상황에 따라 다르다. 밴드왜건 효과는 이기는 편에 합류하려는 경향이고, 언더독 효과는 약자를 지지하려는 경향이다. 두 효과는 서로 반대 방향으로 작용하고, 어느 것이 더 강한지는 선거 맥락, 유권자 특성, 지지율 격차에 따라 다르다. 실증 연구에서는 밴드왜건 효과가 더 자주 확인된다. 두 효과가 동시에 작용한다면 서로 상쇄될 수 있다. 단순히 한 방향으로만 영향을 미친다고 보기 어렵다.

Q240. 공직선거법의 여론조사 규제는 적절한가? 방법론 공개 요건은 적절하고 필요하다. 표본 크기, 조사 방법, 의뢰인, 오차 범위 공개 의무는 최소한의 투명성 기준이다. 그러나 선거 전 특정 기간 여론조사 공표 금지는 실효성 논란이 있다. 온라인으로 해외 조사 결과나 비공식 조사가 유통되는 환경에서 공표 금지는 제한적 효과만 갖는다. 한편 ARS 조사를 정식 여론조사와 동일하게 취급하는 것은 방법론적으로 문제가 있다. 규제의 형식은 갖췄지만 실질은 부족한 부분이 있다.

Q241. 여론조사 결과 공표 금지가 실효성이 있는가? 점점 줄어들고 있다. 선거일 전 6일부터 공표가 금지되지만 SNS, 유튜브, 해외 사이트를 통해 결과는 이미 유통된다. 공표 금지가 정보 격차를 만든다는 주장도 있다. 정보에 접근할 수 있는 사람과 그렇지 못한 사람 사이의 비대칭이 생긴다. 반면 혼란스럽고 검증되지 않은 정보의 급속한 유통을 막는 완충 역할은 한다는 주장도 있다. 디지털 환경에서 정보 유통을 법으로 막는 것의 한계를 보여주는 사례다.

Q242. 조사기관의 정치적 성향이 결과에 영향을 미치는가? 의식적이든 아니든 영향을 미칠 수 있다. 문항 설계, 프레이밍, 가중치 선택, 보고 방식에서 미묘한 선택들이 누적되어 특정 방향으로 결과가 기울 수 있다. 이것이 의도적 조작일 수도 있고, 인지적 편향일 수도 있다. 중요한 것은 조사기관의 정치적 배경을 아는 것이 결과 해석에 도움이 된다는 점이다. 같은 시점에 다른 기관의 조사와 비교하는 것이 단일 기관의 결과를 맹신하는 것보다 현명하다.

Q243. 미디어가 여론조사를 보도하는 방식의 문제는? 핵심 정보를 빠뜨리고 숫자만 부각한다. 표집 방법, 응답률, 의뢰인, 조사 시점 같은 맥락 정보 없이 지지율 숫자만 보도하는 것이 관행이다. 오차범위를 무시하거나 오해하는 보도도 많다. 접전인데 "A가 앞선다"고 보도하거나, 오차범위 내 변화를 "급등", "급락"으로 표현한다. 자극적 수치가 뉴스 가치를 갖기 때문에 맥락은 생략된다. 잘못된 보도는 조작된 조사만큼 여론을 왜곡한다. 미디어 리터러시 문제이기도 하고 보도 관행의 문제이기도 하다.

Q244. 조사 방법론을 공개하지 않는 것은 윤리 위반인가? 공공에 영향을 미치는 조사라면 그렇다고 볼 수 있다. 선거 여론조사처럼 공중의 의사결정에 영향을 주는 조사는 결과뿐 아니라 방법론을 검증할 수 있어야 한다. 방법론 없이 결과만 공개하는 것은 신뢰를 요구하지만 검증을 허용하지 않는 것이다. 상업 조사에서는 방법론이 영업 비밀일 수 있지만, 그 결과를 공공 여론 형성에 사용한다면 공개의 의무가 생긴다. 결과의 공개와 방법론의 공개는 한 세트여야 한다.

Q245. 사전 등록(pre-registration)이 서베이 연구에 필요한가? 학술 연구에서는 필요성이 커지고 있다. 분석 계획을 데이터 수집 전에 공개 등록하면 p-hacking, 결과 선택적 보고, 사후 가설 설정을 막을 수 있다. 실무 조사에서 전면적 사전 등록은 현실적이지 않지만, 주요 분석 변수와 가중치 방법을 사전에 내부 문서화하는 것만으로도 분석 왜곡을 줄이는 효과가 있다. 재현 가능성 위기를 겪고 있는 사회과학 전반의 흐름에서 서베이 연구도 자유롭지 않다.

Q246. 응답자에게 조사 목적을 알려야 하는가? 원칙적으로 그래야 한다. 정보에 기반한 동의(informed consent)는 연구 윤리의 기본이다. 응답자가 조사 목적, 결과 활용 방식, 의뢰인을 알고 참여 여부를 결정할 권리가 있다. 단, 조사 목적을 완전히 공개하면 응답이 달라지는 경우가 있다. 예를 들어 특정 기업이 의뢰한 브랜드 평가 조사임을 알면 응답자가 다르게 반응한다. 이때 목적을 일부 모호하게 하는 것이 허용되는지는 윤리적으로 논쟁이 있다. 기만과 불완전 공개 사이의 경계다.

Q247. 취약 계층 조사에서 특별히 고려할 점은? 자발적 동의 능력과 취약성을 함께 고려해야 한다. 아동, 인지 장애인, 구금 시설 수용자, 이주노동자 등은 동의의 자발성이 제한될 수 있다. 이 집단을 대상으로 한 조사는 IRB 심의, 보호자 동의, 쉬운 언어 사용, 참여 거부에 대한 불이익 없음 보장이 필요하다. 또한 이들의 응답이 자신에게 불리하게 쓰일 가능성을 최소화해야 한다. 취약 계층을 조사 대상에서 제외하는 것도 문제지만, 보호 없이 포함하는 것도 문제다.

Q248. 서베이가 응답자의 의견을 형성한다면 그 책임은 누구에게 있는가? 설계자에게 있다. 서베이가 중립적 측정 도구가 아니라 의견을 만드는 행위라는 것을 알면서도 유도적으로 설계한다면 그것은 의도적 여론 조작이다. 응답자가 이전에 생각해본 적 없는 이슈에 대해 강제로 입장을 표명하게 만드는 것도 책임 있는 행위다. 서베이는 응답자의 인지 과정에 개입하는 도구라는 인식을 갖고, 그 영향을 최소화하도록 설계해야 한다. 측정은 측정 대상에 영향을 미친다는 것을 항상 기억해야 한다.

Q249. 개인정보 보호법이 서베이 방법론에 미치는 영향은? 표집틀 구성과 데이터 연계 방식을 제약한다. 주민등록 정보, 의료 데이터, 행정 기록을 표집이나 가중치 목적으로 활용하는 것이 점점 어려워지고 있다. 연구 목적 예외 조항이 있지만 절차가 복잡하고, 기관별 해석이 다르다. 패널 구성과 유지에도 동의 관리 의무가 강화됐다. 한편으로는 응답자 보호를 강화하는 긍정적 효과도 있다. 방법론적 엄밀함과 법적 요건 사이의 균형을 찾는 것이 현실적 과제다.

Q250. 서베이어(surveyor)에게 필요한 직업 윤리는? 방법론적 정직, 의뢰인 독립성, 응답자 존중, 결과 책임의 네 가지로 요약할 수 있다. 방법론적 정직은 설계와 분석에서 왜곡을 거부하는 것이다. 의뢰인 독립성은 의뢰인의 이해관계로부터 판단을 지키는 것이다. 응답자 존중은 데이터 뒤에 사람이 있다는 것을 잊지 않는 것이다. 결과 책임은 자신의 조사가 어떻게 쓰이고 어떤 영향을 미치는지에 대한 관심을 놓지 않는 것이다. 이 네 가지는 서베이어를 단순한 데이터 수집자가 아니라 사회적 책임을 가진 전문가로 만든다.

Q251. 조사 결과 재인용 시 출처 표기 기준은? 원자료 출처, 조사 기관, 조사 시점, 표본 크기, 조사 방법을 함께 표기해야 한다. 언론 보도를 재인용하면 원 조사의 맥락이 사라지고 보도의 해석이 사실처럼 굳어지는 문제가 생긴다. 가능하면 원보고서나 원데이터를 확인하고 인용해야 한다. 조사 결과가 여러 단계를 거쳐 인용될수록 원래의 제약과 맥락이 탈락하고 숫자만 남는다. 재인용 체인이 길어질수록 왜곡 가능성이 커진다. 출처 표기는 독자가 원자료로 돌아갈 수 있는 길을 열어두는 것이다.

Q252. 여론조사 산업의 자정 능력이 있는가? 현재로서는 제한적이다. 한국조사협회 등 자율 규제 기구가 있지만 규범 집행력이 약하다. 방법론적으로 문제 있는 조사가 미디어를 통해 확산되어도 사후 검증이나 정정이 이루어지는 경우가 드물다. 시장 경쟁이 품질을 높이는 것이 아니라 오히려 저가·저품질 조사를 확산시키는 역할을 한다는 지적도 있다. 자정 능력을 높이려면 방법론 투명성 요건 강화, 사후 검증 문화 정착, 품질 기준에 따른 차별화가 필요하다. 의뢰인과 미디어가 품질을 요구하지 않으면 산업의 자정은 어렵다.

Q253. 의뢰인 압력에 어떻게 대응해야 하는가? 방법론적 결정과 결과 해석에 대한 최종 권한이 조사기관에 있음을 계약 단계에서 명확히 해야 한다. 의뢰인은 조사 목적과 대상을 정할 수 있지만, 문항 설계와 분석 방법을 지시할 수 없다는 원칙을 지켜야 한다. 압력이 들어왔을 때 방법론적 근거를 들어 거부하는 것이 단기적으로 불편하더라도 장기적으로 기관 신뢰를 지키는 길이다. 압력을 수용해 결과를 왜곡하면 그 순간부터 조사기관은 측정 도구가 아니라 의견 제조 도구가 된다.

분석과 해석: 24개 질문과 대답

Q207. 기술통계와 추론통계를 혼동하면 어떤 문제가 생기는가? 기술통계는 수집된 데이터 자체를 요약하고, 추론통계는 표본에서 모집단을 추정한다. 혼동하면 표본의 특성을 모집단의 사실인 양 단정하거나, 반대로 추론이 필요한 상황에서 기술통계만으로 결론을 내린다. 가장 흔한 오류는 표본 내 차이를 통계적 검정 없이 모집단 차이로 서술하는 것이다. "20대의 47%가 찬성했다"는 기술이고, "20대는 찬성하는 경향이 있다"는 추론이다. 이 두 문장이 다르다는 것을 모르면 분석 전체가 흔들린다.

Q208. 교차분석에서 무엇을 봐야 하는가? 단순히 셀 비율만 볼 것이 아니라 세 가지를 함께 봐야 한다. 첫째, 집단 간 차이의 방향과 크기. 둘째, 그 차이가 통계적으로 유의한지. 셋째, 셀 빈도가 검정에 충분한지다. 카이제곱 유의확률만 보고 끝내는 분석은 반쪽짜리다. 차이가 어느 셀에서 왔는지, 표준화 잔차가 큰 셀이 어디인지 확인해야 한다. 또한 행 퍼센트로 볼지 열 퍼센트로 볼지를 분석 목적에 맞게 선택해야 한다. 방향을 바꾸면 다른 이야기가 나온다.

Q209. 통계적으로 유의하지 않은 차이를 보고해야 하는가? 보고해야 한다. 유의하지 않다는 것은 차이가 없다는 것이 아니라, 주어진 표본 크기에서 차이가 있다고 확신하기 어렵다는 것이다. 유의하지 않은 결과를 숨기면 출판 편향과 같은 구조적 왜곡이 생긴다. 특히 탐색적 조사에서는 유의하지 않은 결과도 향후 설계에 중요한 정보다. 단, 유의하지 않은 차이를 서술할 때는 "차이가 없다"가 아니라 "차이가 확인되지 않았다"고 표현해야 정확하다.

Q210. 소수점 몇 자리까지 보고해야 하는가? 측정의 정밀도를 넘어서는 소수점은 의미가 없다. 응답자 1,000명 기준 퍼센트는 0.1%p 단위가 의미 있는 최소 단위다. 소수점 둘째 자리(0.01%p)는 표집오차(±3.1%p)에 비해 무의미하게 정밀하다. 그럼에도 보고서에 42.37% 같은 숫자가 등장하는 것은 정밀도가 아니라 과신의 신호다. 평균값은 소수점 한 자리, 퍼센트는 정수 또는 소수점 한 자리가 실무에서 적절한 기준이다. 더 많은 자릿수는 숫자의 권위를 빌리는 장식이다.

Q211. 퍼센트와 퍼센트포인트는 어떻게 다른가? 퍼센트(%)는 비율 자체이고, 퍼센트포인트(%p)는 비율 간의 차이다. 지지율이 40%에서 50%로 올랐을 때 10%p 상승이다. 이것을 10% 상승이라고 하면 틀렸다. 10% 상승은 40%의 10%, 즉 4%p 증가를 의미한다. 언론 보도에서 이 두 용어는 자주 혼용된다. 의도적이든 실수든 혼용은 변화의 크기를 왜곡한다. 서베이 결과를 다룰 때 이 구분은 기본 중의 기본이다.

Q212. 응답 비율의 분모는 항상 전체 응답자인가? 아니다. 문항 구조에 따라 분모가 달라진다. 해당자에게만 물은 문항이라면 분모는 해당 필터를 통과한 응답자다. 복수응답 문항이라면 분모는 응답자 수이지만 분자의 합이 100을 넘는다. 특정 경험 보유자에게만 물은 만족도라면 전체 응답자가 분모가 되면 안 된다. 분모 설정이 잘못되면 비율 자체가 왜곡된다. 표를 만들기 전에 이 문항의 올바른 분모가 무엇인지 먼저 확인해야 한다.

Q213. 모름·무응답을 분모에서 빼면 어떤 일이 생기는가? 비율이 높아진다. 찬성 40%, 반대 40%, 모름 20%일 때 모름을 빼면 찬성 50%, 반대 50%가 된다. 이것은 사실과 다른 그림이다. 더 중요한 것은 모름 응답 자체가 의미 있는 정보라는 점이다. 20%가 모른다는 것은 이슈 인지도가 낮거나 태도가 형성되지 않았다는 신호다. 이것을 제거하면 현실을 왜곡한다. 모름을 빼고 보고하는 관행은 결과를 더 선명하게 보이게 하려는 편의적 선택이다.

Q214. 복수응답 문항의 퍼센트는 어떻게 계산하는가? 분모는 전체 응답자 수이고, 각 항목을 선택한 응답자 수를 분자로 한다. 따라서 각 항목의 퍼센트 합계가 100을 넘는 것이 정상이다. 선택한 항목 수를 분모로 해서 합계를 100으로 맞추는 것은 잘못된 방법이다. 그렇게 하면 각 항목의 퍼센트가 전체 응답자 대비 비율이 아니라 선택 건수 대비 비율이 되어 해석이 달라진다. 복수응답 결과 표에는 반드시 사례수(n)와 함께 합계가 100을 초과함을 명시해야 한다.

Q215. 평균과 중앙값 중 어느 것을 써야 하는가? 분포 형태에 따라 다르다. 정규분포에 가깝다면 평균이 적합하다. 분포가 한쪽으로 치우치거나 극단값이 있다면 중앙값이 더 대표적이다. 소득, 재산, 응답 시간처럼 극단값이 있는 변수에서 평균은 왜곡된 인상을 준다. 소득 평균이 높아 보여도 중앙값이 낮다면 상위 소수가 평균을 끌어올린 것이다. 서베이 보고서에서 척도 평균을 보고할 때는 평균과 함께 분포(표준편차 또는 분포 그래프)를 함께 제시하는 것이 좋다.

Q216. 시계열 비교에서 주의할 점은? 측정 조건이 동일해야 한다. 문항 문구, 척도, 선택지 순서, 조사 모드, 조사 시기, 가중치 기준이 바뀌면 시계열 변화가 실제 태도 변화인지 측정 조건 변화인지 구분할 수 없다. 또한 사회적 맥락이 응답에 영향을 미쳤는지도 고려해야 한다. 조사 직전 특정 사건이 있었다면 그것이 트렌드인지 일시적 반응인지 판단해야 한다. 시계열 비교는 단순히 숫자를 나란히 놓는 것이 아니라 조건의 동일성을 검증하는 작업이다.

Q217. 동일한 문항이 아니면 시계열 비교가 가능한가? 원칙적으로 불가능하다. 문항이 다르면 측정하는 것이 다를 수 있기 때문이다. 단어 하나, 선택지 순서 하나가 응답 분포를 바꾼다. 불가피하게 비교해야 한다면 두 문항 버전을 동시에 사용한 분할표본 연구로 두 문항의 결과 차이를 먼저 추정하고, 그것을 시계열 비교에 반영해야 한다. 그런 검증 없이 다른 문항의 결과를 같은 추세선에 올리는 것은 측정의 차이를 실제 변화로 오독하는 것이다.

Q218. 상관관계를 인과관계로 해석하는 오류는 왜 생기는가? 두 변수가 함께 움직이면 하나가 다른 하나의 원인이라고 생각하는 것이 인지적으로 자연스럽기 때문이다. 하지만 서베이 데이터는 대부분 횡단면 데이터로, 인과의 방향과 제3변수 영향을 통제하기 어렵다. 보수적 응답자가 특정 정책을 지지하는 것과, 특정 정책 지지가 보수적 태도를 만드는 것은 전혀 다른 주장이다. 서베이 데이터에서 "A가 B에 영향을 미친다"는 표현은 항상 신중해야 한다. 관계가 있다는 것과 원인이 된다는 것은 다르다.

Q219. 회귀분석 결과를 서베이 보고서에서 어떻게 서술해야 하는가? 계수값과 유의확률만 나열하는 것으로는 부족하다. 다른 변수를 통제했을 때 해당 변수의 순수한 연관성이 어떠한지, 그 크기가 실질적으로 의미 있는지를 함께 서술해야 한다. "연령이 1세 증가할 때 지지율이 0.3%p 증가한다"처럼 구체적 언어로 번역해야 한다. 표준화 계수를 통해 변수 간 상대적 영향력을 비교하는 것도 유용하다. 수식과 계수를 그대로 제시하면 분석을 보고한 것이 아니라 수식을 붙여넣은 것이다.

Q220. 군집분석으로 응답자 유형을 나눌 때 주의할 점은? 군집 수 결정이 자의적이 될 수 있다는 것이 첫 번째 문제다. k-means는 k를 사전에 지정해야 하는데, 이 선택에 따라 결과가 크게 달라진다. 또한 군집분석 결과는 재현 가능성이 낮다. 초기값이나 표본 구성이 조금 바뀌어도 군집이 달라진다. 군집에 이름을 붙이는 과정도 주관적이다. 분석자가 원하는 유형을 데이터에서 발견했다고 착각하기 쉽다. 군집분석은 탐색 도구이지 확증 도구가 아니다.

Q221. LLM으로 개방형 응답을 분석하면 어떤 문제가 있는가? 일관성과 투명성이 핵심 문제다. 동일한 응답을 다른 시점에 분석하면 다른 결과가 나올 수 있다. 분류 기준이 명시적이지 않아 재현이 어렵다. 또한 LLM이 훈련 데이터의 편향을 반영해 특정 응답을 체계적으로 다르게 해석할 수 있다. 긍정·부정 감성 분류는 비교적 안정적이지만, 주제 분류나 의도 해석은 오류가 많다. 사용했다면 프롬프트, 모델 버전, 검증 방법을 명시해야 한다. 블랙박스 분석은 신뢰하기 어렵다.

Q222. 데이터 시각화에서 가장 흔한 오류는? y축을 0에서 시작하지 않는 것이다. y축을 40에서 시작하면 41%와 45%의 차이가 시각적으로 4배로 부풀어 보인다. 실제로는 4%p 차이가 극적인 변화처럼 보인다. 두 번째는 파이차트 남용이다. 파이차트는 구성비 비교에 약하고, 항목이 많아지면 해석이 불가능해진다. 세 번째는 3D 그래프다. 3D는 시각적 왜곡을 만들고 정확한 비교를 방해한다. 시각화는 데이터를 명확히 보여주는 도구여야지, 인상을 만드는 도구가 되어서는 안 된다.

Q223. 척도 데이터를 긍정/부정으로 이분화하는 것은 정당한가? 편의를 위한 정보 손실이다. 5점 척도를 긍정(4~5점)과 부정(1~2점)으로 나누면 중간값(3점) 처리가 문제가 되고, 4점과 5점의 차이, 1점과 2점의 차이가 사라진다. 집단 간 비교에서 이분화는 통계적 검정력을 낮춘다. 다만 커뮤니케이션 목적에서는 유용하다. "응답자의 63%가 긍정적으로 평가했다"는 문장이 "평균 3.8점"보다 이해하기 쉽다. 분석은 원래 척도로 하고, 보고는 이분화로 하는 것이 현실적 절충이다.

Q224. Top2box와 Top3box 중 어느 것을 써야 하는가? 척도 구조와 분포에 따라 다르다. 5점 척도에서 Top2box는 4~5점, Top3box는 3~5점이다. 분포가 위쪽에 집중되어 있고 3점이 실제로 긍정 응답에 가깝다면 Top3box가 적절하다. 분포가 고르다면 Top2box가 더 변별력 있다. 문제는 의뢰인에게 유리한 쪽을 사후에 선택하는 것이다. 만족도가 낮게 나왔을 때 Top3box로 바꾸면 숫자가 높아진다. 기준을 사전에 정하고 일관되게 쓰는 것이 원칙이다.

Q225. 분석 결과를 보고서에 옮길 때 왜곡이 생기는 지점은? 여러 지점이 있다. 유의하지 않은 차이를 단정적으로 서술할 때, 모름 응답을 제거하고 비율을 높일 때, 전체 추세에 맞지 않는 서브그룹 결과를 부각할 때, 긍정적 결과만 선택적으로 제시할 때다. 수치는 정확하지만 맥락을 제거해 인상을 왜곡하는 경우도 많다. "A 지지율 51%"는 사실이지만 "오차범위 내 접전"이라는 맥락을 빼면 다른 메시지가 된다. 데이터와 보고서 사이의 거리가 왜곡이 숨는 공간이다.

Q226. 분석 계획을 사전에 명시해야 하는가? 학술 연구에서는 반드시 그래야 하고, 실무에서도 가능한 한 그래야 한다. 데이터를 본 후 분석 방향을 정하면 원하는 결과를 찾아가는 방향으로 흐르기 쉽다. 어떤 변수를 주요 분석 대상으로 볼지, 어떤 집단 비교를 할지, 어떤 통계 방법을 쓸지를 사전에 정해두면 데이터 기반 의사결정이 아니라 결과 기반 분석을 막을 수 있다. 실무에서도 분석 계획을 조사 설계 단계에 포함시키는 것이 왜곡을 방지하는 구조적 장치다.

Q227. 같은 데이터로 다른 결론이 나올 수 있는가? 충분히 가능하다. 가중치 방식, 모름 처리, 이분화 기준, 비교 집단 설정, 시각화 방법 중 어느 하나만 달라도 결론의 방향이 바뀔 수 있다. 이것이 서베이 분석에서 분석자의 선택이 중요한 이유다. 같은 데이터를 두 명의 분석자에게 주었을 때 다른 결론이 나왔다면, 둘 중 하나가 틀렸을 수도 있지만 분석 과정의 선택이 달랐을 가능성이 더 높다. 분석의 재현 가능성과 투명성이 중요한 이유가 여기 있다.

Q228. 서베이 데이터로 인과 추론을 할 수 있는가? 제한적으로 가능하다. 일반적인 횡단면 서베이로는 인과 추론이 어렵다. 변수 간 선후 관계를 알 수 없고, 교란변수를 통제하기 어렵다. 하지만 서베이 실험 설계(무작위 문항 배분, 정보 처리 실험)를 활용하면 인과 추론의 가능성이 열린다. 종단 패널 조사에서는 시간적 선후 관계를 부분적으로 확인할 수 있다. 인과 추론을 하려면 설계 단계에서 그 목적을 반영해야 한다. 일반 서베이 데이터에서 사후에 인과를 주장하는 것은 무리다.

Q229. 서베이 결과를 얼마나 정확하게 일반화할 수 있는가? 표본이 모집단을 대표할 때, 그리고 그 모집단의 범위 안에서만 일반화할 수 있다. 온라인 패널로 조사한 결과를 전체 국민에게 일반화하는 것은 무리다. 특정 지역, 특정 연령대, 특정 이슈 관심자를 조사했다면 그 범위 안에서만 결론을 내려야 한다. 일반화의 범위는 표본의 대표성과 정확히 일치한다. 보고서에서 일반화 범위를 명시하지 않는 것은 독자가 스스로 과잉 일반화하도록 방치하는 것이다.

Q230. 분석가의 선택이 결과에 얼마나 영향을 미치는가? 생각보다 훨씬 크다. 분석 소프트웨어마다 기본 설정이 다르고, 결측값 처리, 이상값 제거, 집단 분류, 시각화 축 설정 등 수십 개의 미시적 선택이 최종 결과에 누적적으로 영향을 미친다. 멀티버스 분석(multiverse analysis) 연구들은 동일 데이터에서 분석자에 따라 결과가 유의하기도 하고 아니기도 하다는 것을 보여준다. 분석가의 선택은 데이터가 말하는 것을 도와주는 것이 아니라, 데이터가 어떤 말을 하게 되는지를 결정하는 경우가 많다.

가중치: 24개 질문과 대답

Q183. 가중치는 왜 필요한가? 표본이 모집단을 완벽하게 반영하지 못하기 때문이다. 조사 결과를 모집단 전체에 대한 추정값으로 쓰려면, 과대 대표된 집단은 낮추고 과소 대표된 집단은 높여야 한다. 가중치는 표본과 모집단 사이의 불일치를 교정하는 수치적 장치다. 가중치 없이 발표하는 것은 왜곡된 표본 구조를 그대로 결과로 내놓는 것이다.

Q184. 가중치를 안 하면 어떤 일이 생기는가? 표본 구성 편향이 그대로 결과에 반영된다. 온라인 패널에서 20~30대가 과다 응답했다면 미가중 결과는 젊은 층의 의견을 과대 대표한다. 선거 여론조사에서 가중치를 안 하면 특정 연령대나 지역의 지지율이 실제와 크게 달라진다. 가중치는 선택이 아니라 추정의 기본 절차다. 특별한 이유 없이 가중치를 생략하는 것은 방법론적 태만이다.

Q185. 모집단 구조를 모르면 가중치를 할 수 없는가? 완전히 모른다면 불가능하다. 가중치는 표본 구조를 모집단 구조에 맞추는 작업이므로, 기준이 되는 모집단 정보가 있어야 한다. 실무에서는 인구총조사, 주민등록 통계, 통계청 인구 추계를 기준으로 쓴다. 모집단 정보가 없는 변수는 가중변수로 쓸 수 없다. 가중치의 품질은 기준 모집단 정보의 정확성에 직접적으로 의존한다.

Q186. 인구통계 가중치만으로 충분한가? 대부분의 경우 충분하지 않다. 성별·연령·지역을 맞춰도 응답자와 비응답자 사이의 태도·행동 차이가 인구통계로 설명되지 않는다면 편향은 남는다. 특히 정치 성향이나 이념 같은 변수는 인구통계와 독립적으로 응답 참여 여부에 영향을 미친다. 이상적으로는 측정 목적과 관련된 변수를 가중변수에 포함해야 하지만, 모집단 기준값을 구하기 어렵다는 현실적 제약이 있다.

Q187. 가중변수는 어떻게 선택해야 하는가? 두 가지 조건을 동시에 충족해야 한다. 첫째, 표본과 모집단 간 분포 차이가 있어야 한다. 분포가 이미 일치하면 가중치가 필요 없다. 둘째, 그 변수가 주요 결과 변수와 관련이 있어야 한다. 관련 없는 변수로 가중치를 걸면 추정 효율만 낮아진다. 통상적으로 성·연령·지역을 쓰지만, 조사 주제에 따라 학력, 직업, 정치 성향도 가중변수 후보가 된다.

Q188. 림가중(raking)이란 무엇인가? 여러 가중변수의 주변 분포를 동시에 모집단에 맞추는 반복 알고리즘이다. 예를 들어 성별 분포를 먼저 맞추고, 그 다음 연령 분포를 맞추고, 다시 성별로 돌아가는 과정을 수렴할 때까지 반복한다. 셀별 교차 빈도를 정확히 맞출 수 없을 때 유용하다. 교차 셀의 기준값이 없어도 각 변수의 주변 분포만 있으면 적용할 수 있다. 한국 여론조사에서 가장 널리 쓰이는 가중치 방법이다.

Q189. 사후층화가중(post-stratification)과 림가중은 어떻게 다른가? 사후층화는 성·연령·지역의 교차 셀별로 정확한 모집단 비율에 맞추는 방법이다. 교차 셀의 모집단 정보가 있어야 하고, 셀별 표본 수가 충분해야 한다. 셀 빈도가 작으면 극단적 가중값이 생긴다. 림가중은 교차 셀 정보 없이 각 변수의 주변 분포만으로 가중치를 산출한다. 요구 정보가 적고 극단값 발생 위험이 낮다. 실무에서는 정보 가용성과 표본 규모에 따라 선택한다.

Q190. 가중치의 분산 효과(design effect)란 무엇인가? 가중치 적용이 추정의 분산을 얼마나 키우는지를 나타내는 지표다. 가중치가 클수록, 가중값의 편차가 클수록 분산 효과가 커진다. 분산 효과가 2라면 가중치 적용 후 실제 유효표본 크기가 명목 표본 크기의 절반이라는 의미다. n=1,000이어도 분산 효과가 2면 추정 정밀도는 n=500 수준이다. 가중치를 쓰면 항상 어느 정도의 정밀도 손실이 생긴다는 것을 인식해야 한다.

Q191. 극단적 가중값(extreme weights)은 왜 문제인가? 소수의 응답자가 전체 추정에 과도한 영향을 미치기 때문이다. 가중값이 10이라면 그 응답자 한 명이 10명 몫의 영향을 갖는다. 이 응답자의 응답이 비전형적이거나 오류라면 추정 전체가 흔들린다. 극단적 가중값은 분산을 키우고 추정의 안정성을 떨어뜨린다. 가중값 분포를 확인하지 않고 결과만 보는 것은 시한폭탄을 무시하는 것이다.

Q192. 가중값 트리밍(trimming)은 언제 해야 하는가? 극단적 가중값이 추정에 불안정성을 만들 때다. 일반적으로 최대 가중값이 중앙값의 5~6배를 넘으면 트리밍을 고려한다. 트리밍은 극단값을 특정 상한으로 잘라내고, 잘린 부분을 다른 응답자에게 재배분하는 방식이다. 그러나 트리밍은 트레이드오프다. 분산은 줄지만 편향이 약간 증가한다. 트리밍 기준과 방법을 사전에 명시하고, 트리밍 전후 결과를 비교하는 것이 투명한 절차다.

Q193. 가중치 적용 전후 기술통계 비교는 왜 중요한가? 가중치가 실제로 의도한 방향으로 작동했는지 확인해야 하기 때문이다. 가중 전후 주요 인구통계 분포가 기준 모집단과 일치하는지, 주요 결과 변수의 분포가 어떻게 달라졌는지 확인해야 한다. 차이가 크다면 표본 편향이 심각하다는 신호이고, 차이가 거의 없다면 가중이 의미 있는 교정을 하지 못했다는 신호일 수 있다. 가중치 적용은 눈 감고 하는 작업이 아니다.

Q194. 온라인 패널의 성향점수가중(propensity score weighting)이란? 온라인 패널 참여 여부를 결과변수로 하는 로지스틱 회귀 모형을 만들어, 패널 참여 확률이 낮은 집단의 응답자에게 높은 가중치를 부여하는 방법이다. 일반 모집단과 온라인 패널의 특성 차이를 보정하려는 시도다. 단순 인구통계 가중치보다 정교하지만, 모형에 포함된 변수로만 편향을 교정할 수 있다. 관측되지 않는 특성의 차이는 여전히 남는다.

Q195. 가중치가 분석 결과를 역전시킬 수 있는가? 드물지만 가능하다. 특정 집단이 표본에서 크게 과소 대표되었고 그 집단의 응답 방향이 다른 집단과 반대라면, 가중치 적용 후 결과가 역전될 수 있다. 예를 들어 미가중 결과에서 찬성이 다수였지만 고령층이 과소 대표됐고 고령층이 강하게 반대한다면, 가중 후 반대가 다수가 될 수 있다. 이것이 가중치를 사후에 조작해 원하는 결과를 만드는 것이 가능한 이유이기도 하다.

Q196. 의뢰인에게 유리한 가중 구조를 사후에 선택하는 것은 어떤 문제인가? 방법론적 조작이다. 여러 가중 방식을 시도해보고 의뢰인에게 유리한 결과를 내는 방식을 선택하는 것은, 겉으로는 통계적 절차를 따르지만 실질적으로 결과를 만드는 행위다. 이것이 문제인 이유는 가중치라는 과학적 외양이 조작을 가려주기 때문이다. 사전에 가중 방법을 명시하고 그대로 따르는 것이 유일한 방어책이다. 가중치는 설계 단계에서 결정되어야 한다.

Q197. 가중치 없이 보고하는 것이 정직한 경우는 언제인가? 표본이 실제로 모집단을 잘 대표할 때, 또는 가중치가 결과를 거의 바꾸지 않을 때다. 또한 가중 모집단 정보가 신뢰할 수 없을 때, 가중치 적용이 오히려 편향을 키울 위험이 있을 때도 미가중이 나을 수 있다. 특수 목적 표본(특정 집단만 대상)이나 탐색적 조사에서는 가중이 불필요하거나 의미 없을 수 있다. 가중치를 적용하지 않는 것도 근거가 있어야 한다.

Q198. 하위집단 분석에서 가중치 적용 방식은 달라야 하는가? 상황에 따라 다르다. 전체 모집단 추정을 위한 가중치를 하위집단 분석에 그대로 쓰면, 그 하위집단 내부에서 가중치가 의미 있는 교정을 하는지 확인해야 한다. 하위집단 내 가중값 분포가 극단적이라면 별도의 하위집단 전용 가중치를 산출하는 것이 낫다. 단, 하위집단별 가중치를 쓰면 전체와 하위집단 결과를 단순 합산하기 어려워진다. 분석 목적에 따라 결정해야 한다.

Q199. 패널 조사의 종단 가중치란 무엇인가? 반복 조사에서 시간이 지남에 따라 발생하는 표본 탈락과 구성 변화를 교정하는 가중치다. 초기 표본의 인구통계 구조를 유지하면서, 탈락자의 특성을 반영해 잔류 응답자에게 추가 가중치를 부여한다. 종단 분석에서 1차 웨이브와 최종 웨이브의 비교가 의미 있으려면 종단 가중치가 필요하다. 탈락이 무작위적이지 않다면 종단 가중치 없는 장기 패널 분석은 심각한 편향을 안고 있다.

Q200. 가중치 설계를 사전에 명시해야 하는가? 반드시 그래야 한다. 가중변수, 기준 모집단 출처, 가중 방법, 극단값 처리 기준을 사전에 확정하고 문서화하는 것이 방법론 투명성의 기본이다. 사후에 결과를 보고 가중 방법을 조정하는 것은 p-hacking과 동일한 구조의 문제다. 사전 명시는 의뢰인 압력이나 연구자의 무의식적 편향으로부터 분석을 보호하는 장치이기도 하다. 좋은 가중치는 결과를 보기 전에 결정된다.

Q201. 가중치는 데이터의 결함을 고칠 수 있는가? 제한적으로만 가능하다. 인구통계 분포의 불일치는 교정할 수 있다. 하지만 측정 오차, 응답 편향, 문항 설계 문제는 가중치로 해결되지 않는다. 잘못된 질문으로 수집된 데이터에 아무리 정교한 가중치를 걸어도 측정 오차는 그대로다. 가중치는 표본 대표성 교정 도구이지 데이터 품질 복원 도구가 아니다. 가중치를 만능으로 보는 시각이 오히려 위험하다.

Q202. 지역별 가중치는 어떻게 설정해야 하는가? 지역 분류 기준과 모집단 기준값을 먼저 확정해야 한다. 17개 시도별로 할지, 수도권·비수도권으로 묶을지, 도시 규모별로 분류할지에 따라 결과가 달라진다. 기준값은 주민등록 통계나 인구총조사를 쓴다. 지역별 가중치를 성·연령 가중치와 함께 쓸 때는 교차 셀이 급격히 늘어나므로 림가중이 현실적이다. 지역 분류가 너무 세밀하면 셀 빈도 부족과 극단값 문제가 생긴다.

Q203. 가중치 적용 후 유효표본 크기(effective sample size)란? 가중치 적용으로 인한 분산 증가를 반영한 실질적 표본 크기다. 공식은 명목 표본 크기를 분산 효과로 나눈 값이다. 예를 들어 n=1,000이고 분산 효과가 1.5라면 유효표본 크기는 약 667명이다. 표집오차와 통계적 검정은 명목 n이 아닌 유효표본 크기 기준으로 해야 한다. 가중치를 쓰면서 명목 n을 그대로 쓰면 정밀도를 과장하는 결과가 된다.

Q204. 가중치가 있는 데이터의 카이제곱 검정은 어떻게 하는가? 단순히 가중치를 적용한 빈도로 카이제곱 검정을 하면 안 된다. 가중 빈도는 명목 n보다 커지거나 작아지므로 검정 통계량이 왜곡된다. 설계 기반 분석(design-based analysis)을 적용하거나, 분산 효과를 보정한 수정 카이제곱 통계량을 써야 한다. SPSS의 복합표본 분석 모듈이나 R의 survey 패키지가 이를 지원한다. 가중 데이터에 일반 카이제곱을 그냥 쓰는 것은 흔하지만 틀린 관행이다.

Q205. 인구구조 변화에 따라 가중 모집단을 어떻게 갱신해야 하는가? 가중 기준값은 가장 최신의 신뢰할 수 있는 모집단 통계를 써야 한다. 통계청의 주민등록 인구 통계는 매월 갱신되므로 조사 시점에 맞는 기준을 써야 한다. 인구총조사 기반 가중치를 5년 이상 그대로 쓰면 인구구조 변화가 반영되지 않아 편향이 생긴다. 고령화, 지역 인구 이동, 1인 가구 증가 같은 구조적 변화는 가중치 기준에 즉시 반영되어야 한다. 기준값 출처와 기준 시점을 항상 명시해야 한다.

Q206. 가중치는 비표본오차를 줄일 수 있는가? 일부는 가능하지만 전부는 아니다. 무응답 가중치 조정은 무응답 오차의 일부를 줄인다. 인구통계 가중치는 커버리지 오차를 부분적으로 교정한다. 그러나 측정 오차(잘못된 질문, 응답 편향)와 처리 오차(코딩 실수)는 가중치로 건드릴 수 없다. 가중치의 역할 범위를 정확히 이해해야 한다. 비표본오차 전체를 해결해주는 도구는 없다. 각 오차는 해당 단계에서 직접 관리해야 한다.

모드와 조사 방식: 25개 질문과 대답

Q158. 조사 모드는 왜 중요한가? 모드는 단순한 전달 방식이 아니라 측정 환경 자체다. 같은 질문도 전화로 물으면 면접조사와 다른 응답이 나오고, 온라인으로 물으면 또 달라진다. 조사원의 존재, 익명성 수준, 응답 속도, 시각적 정보 제공 여부가 모두 모드에 따라 달라진다. 모드는 커버리지 오차, 측정 오차, 무응답 오차에 동시에 영향을 미친다. TSE 관점에서 모드 선택은 설계의 핵심 결정이다.

Q159. 전화조사와 온라인조사 결과는 왜 다를 수 있는가? 여러 메커니즘이 동시에 작동한다. 커버리지가 다르고(전화는 온라인 비이용자 포함, 온라인은 패널 가입자 한정), 사회적 바람직성 편향의 강도가 다르며(조사원 있는 전화조사에서 더 강함), 응답 속도도 다르다. 정치 성향, 이념, 민감한 사회 이슈에서 모드별 차이가 특히 크다. 두 조사 결과가 다를 때 어느 것이 더 정확한지는 단정할 수 없다.

Q160. 면접조사는 왜 비싼가? 조사원 훈련, 이동, 면접 시간, 현장 관리 비용이 모두 포함되기 때문이다. 응답자 한 명을 만나기 위해 조사원이 이동하고, 거부당하고, 다시 방문하는 과정이 필요하다. 온라인 조사와 비교하면 응답자 1인당 비용이 수십 배 차이가 난다. 그러나 면접조사는 복잡한 문항 처리, 시각 보조 자료 활용, 응답 품질 통제가 가능하다는 장점이 있다. 비용은 품질에 대한 투자다.

Q161. 전화조사에서 유선과 무선의 비중은 어떻게 정해야 하는가? 모집단 구조를 반영해야 한다. 유선전화 가구 비율이 계속 줄고 있으므로, 무선 비중을 높이는 것이 커버리지 확보에 유리하다. 현재 한국 여론조사에서 무선 70~80%가 일반적이다. 그러나 유선만 사용하는 고령층이 있어 유선을 완전히 배제하면 이들이 누락된다. 유무선 비중 결정은 단순한 비용 계산이 아니라 커버리지 전략이다.

Q162. ARS 조사는 여론조사로 인정받을 수 있는가? 방법론적으로 한계가 명확하다. ARS는 자동 응답 시스템으로 조사원 없이 진행되며, 응답률이 매우 낮고 자발적 참여자에 편중된다. 특히 특정 이슈에 강한 관심을 가진 집단이 과다 응답하는 경향이 있다. 공직선거법상 여론조사로 등록은 가능하지만, 방법론적 대표성은 다른 모드보다 현저히 낮다. ARS 결과를 다른 조사와 동일선상에서 비교하는 것은 무리다.

Q163. 온라인 패널 조사의 최대 약점은 무엇인가? 자발적 가입에서 오는 구조적 편향이다. 온라인 패널은 설문 참여에 관심 있고, 디지털 환경에 익숙하며, 인센티브에 반응하는 사람들로 구성된다. 이들이 일반 모집단을 대표한다고 보기 어렵다. 가중치로 인구통계를 맞출 수 있지만, 심리적·행동적 특성의 편향은 가중치로 교정되지 않는다. 겉으로는 대표성이 있어 보이지만 내부는 편향된 표본이다.

Q164. CAPI, CATI, CAWI는 어떻게 다른가? 컴퓨터 보조 방식의 차이다. CAPI(Computer Assisted Personal Interviewing)는 면접조사원이 태블릿·노트북으로 응답을 입력한다. CATI(Computer Assisted Telephone Interviewing)는 전화면접에서 조사원이 화면을 보며 질문하고 입력한다. CAWI(Computer Assisted Web Interviewing)는 응답자가 직접 웹에서 응답하는 자기기입식이다. 조사원 개입 여부와 접촉 방식이 핵심 차이이며, 이것이 데이터 품질과 오차 구조를 결정한다.

Q165. 조사원이 있으면 데이터 품질이 항상 좋아지는가? 반드시 그렇지 않다. 조사원이 있으면 복잡한 질문 처리, 무응답 설득, 맥락 파악이 가능하다는 장점이 있다. 하지만 사회적 바람직성 편향을 키우고, 조사원 특성(성별, 연령, 억양)이 응답에 영향을 미치는 조사원 효과가 발생한다. 조사원이 데이터를 조작하거나 가짜 응답을 만드는 부정 문제도 있다. 조사원의 존재는 일부 오차를 줄이고 다른 오차를 키우는 트레이드오프다.

Q166. 조사원 효과(interviewer effect)란 무엇인가? 조사원의 특성이나 행동이 응답자의 답변에 영향을 미치는 현상이다. 조사원의 성별, 인종, 연령, 말투, 태도가 응답 방향에 영향을 준다. 예를 들어 여성 조사원이 젠더 이슈를 물으면 응답자가 다른 방향으로 응답하는 경향이 있다. 조사원 훈련으로 일부 통제 가능하지만 완전히 제거할 수 없다. 조사원 효과는 측정 오차의 중요한 원천 중 하나이며, 조사원이 많을수록 결과의 분산이 커진다.

Q167. 모드 효과(mode effect)를 어떻게 통제하는가? 완전한 통제는 어렵다. 분할표본실험(split-ballot)으로 동일 문항을 다른 모드로 측정해 차이를 정량화할 수 있다. 혼합 모드 조사에서는 모드 지시변수를 분석 모형에 포함해 모드 차이를 통계적으로 조정한다. 하지만 모드 효과의 원인이 커버리지 차이인지 측정 차이인지 구분하기 어렵다. 모드 효과를 완전히 없애려면 단일 모드를 고수해야 하지만, 그러면 커버리지가 제한된다.

Q168. 혼합 모드 조사(mixed-mode survey)의 장단점은? 장점은 커버리지를 넓힐 수 있다는 것이다. 온라인으로 접근하기 어려운 집단에는 전화나 면접을 추가해 포괄성을 높인다. 단점은 모드 간 응답 차이가 생겨 데이터를 단순 합산하기 어렵다는 것이다. 모드별로 측정 오차 구조가 다르므로 비교 분석이 복잡해진다. 비용 절감과 커버리지 향상이라는 실용적 이점이 있지만, 방법론적 복잡성이라는 대가를 치른다.

Q169. 혼합 모드에서 모드별 응답 차이는 어떻게 처리하는가? 크게 두 가지 접근이 있다. 설계 단계에서 모드 간 동등성을 확보하도록 설문지를 조정하는 방법과, 분석 단계에서 모드를 공변량으로 넣어 차이를 통계적으로 보정하는 방법이다. 전자는 근본적 해결이지만 모드별 최적화를 포기해야 한다. 후자는 편의적이지만 모드 효과와 실제 차이를 완전히 분리하기 어렵다. 혼합 모드 조사에서는 모드 차이를 무시하는 것이 가장 나쁜 선택이다.

Q170. 웹-전화 순차 조사는 대표성을 높이는가? 커버리지 측면에서는 그렇다. 웹으로 먼저 응답 기회를 주고, 미응답자에게 전화로 추가 접촉하는 방식은 온라인 비이용자를 포함시킬 수 있다. 하지만 웹 응답자와 전화 응답자 사이에 특성 차이가 있고, 모드 효과도 발생한다. 단순히 접촉 방식을 다양화하는 것이 대표성을 보장하지는 않는다. 순차 설계는 커버리지 도구이지 대표성 보증서가 아니다.

Q171. 종단조사에서 모드를 바꾸면 어떤 문제가 생기는가? 시계열 비교가 오염된다. 1차 조사를 전화로, 2차 조사를 온라인으로 진행하면 시점 간 응답 차이가 실제 태도 변화인지 모드 차이인지 구분할 수 없다. 특히 모드 민감성이 높은 문항(정치 성향, 사회 이슈)에서 문제가 심각하다. 종단조사는 모드 일관성이 기본 원칙이다. 불가피하게 모드를 바꿔야 한다면 전환 시점에 두 모드를 동시에 운영해 모드 효과를 추정해야 한다.

Q172. 모바일 최적화가 데이터 품질에 미치는 영향은? 최적화 여부가 응답 경험과 품질에 직접 영향을 미친다. 모바일에 최적화되지 않은 설문지는 작은 화면에서 읽기 어렵고, 매트릭스 문항은 가로 스크롤이 필요해 응답 오류와 이탈이 늘어난다. 반면 모바일에 맞게 설계된 설문지는 응답 완료율이 높고 오류가 적다. 현재 온라인 조사 응답의 절반 이상이 모바일에서 이루어지는 환경에서 모바일 최적화는 선택이 아니라 기본이다.

Q173. 설문 디자인(UI)은 응답에 영향을 미치는가? 명확히 영향을 미친다. 척도를 라디오 버튼으로 표시하느냐 슬라이더로 표시하느냐에 따라 응답 분포가 달라진다. 선택지의 배열 방향(수평 vs 수직), 컬러 코딩, 글자 크기, 진행률 표시 여부도 응답 행동에 영향을 준다. 특히 모바일에서는 UI 설계가 응답 정확도에 미치는 영향이 더 크다. 설문 UI는 단순한 외양 문제가 아니라 측정 도구의 일부다.

Q174. AI 인터뷰어는 조사원 효과를 줄이는가? 일부는 줄이지만 새로운 문제를 만든다. AI 인터뷰어는 성별, 인종, 억양 등 인간 조사원의 특성에서 오는 편향을 제거한다. 민감한 주제에서 응답자가 더 솔직하게 응답한다는 연구 결과도 있다. 그러나 AI 자체의 말투, 목소리 특성, 대화 패턴도 응답에 영향을 미친다. 조사원 효과가 없어지는 것이 아니라 AI 효과로 대체된다. 그 AI 효과가 어떤 편향을 만드는지는 아직 충분히 연구되지 않았다.

Q175. 챗봇 서베이의 가능성과 한계는? 대화형 인터페이스는 응답자 참여도를 높이고 자연스러운 맥락에서 응답을 이끌어낼 수 있다. 개방형 응답 수집, 분기 설계, 후속 질문이 유연하다. 한계는 표준화다. 챗봇 대화는 응답자마다 경로가 달라지고, 이것이 응답 간 비교 가능성을 낮춘다. 또한 대화 길이와 방향이 챗봇 알고리즘에 의해 결정되므로 조사자가 측정을 완전히 통제하기 어렵다. 탐색적 조사에는 유용하지만 표준화된 측정에는 한계가 있다.

Q176. 경험표집법(ESM)이란 무엇인가? 응답자가 일상을 보내는 중 무작위 또는 정해진 시점에 알림을 받고 즉시 응답하는 방법이다. 회상 편향을 최소화하고 실시간 경험을 포착할 수 있다는 것이 최대 장점이다. 감정 상태, 통증, 스트레스처럼 시간에 따라 변하는 경험을 측정하는 데 최적이다. 단점은 응답자 부담이 크고, 알림이 방해가 될 수 있으며, 탈락률이 높다는 것이다. 스마트폰 보급으로 ESM의 적용 범위가 크게 넓어졌다.

Q177. 일기식 조사(diary survey)는 어떤 장점이 있는가? 일정 기간 동안 응답자가 직접 행동, 경험, 감정을 기록하는 방식이다. 회상 편향을 줄이고, 시간 흐름에 따른 변화를 추적할 수 있다. 미디어 이용 조사, 식품 섭취 조사, 시간 사용 조사에서 전통적으로 사용돼왔다. 단점은 기록 부담으로 인한 중도 탈락과 기록 자체가 행동을 변화시키는 반응성(reactivity) 효과다. 기록한다는 사실이 측정 대상을 바꿀 수 있다.

Q178. 암묵적 측정(implicit measurement)은 서베이를 대체할 수 있는가? 보완할 수 있지만 대체는 어렵다. 암묵적 연상 검사(IAT) 등은 응답자가 의식하지 못하는 태도를 측정해 사회적 바람직성 편향을 피할 수 있다. 그러나 암묵적 측정의 신뢰도와 타당도가 명시적 척도보다 낮다는 연구도 많다. 암묵적 태도가 실제 행동을 예측하는 힘도 맥락에 따라 다르다. 두 방법은 다른 것을 측정한다고 보는 것이 더 정확하다. 서베이를 없앨 도구가 아니라 다른 층위의 정보를 추가하는 도구다.

Q179. 조사 모드 선택 기준은 무엇인가? 모집단 커버리지, 비용, 문항 복잡성, 민감도, 응답률 목표를 종합적으로 따져야 한다. 고령층이 많은 모집단이라면 온라인만으로는 커버리지가 부족하다. 복잡한 시각 자료를 제시해야 한다면 전화는 적합하지 않다. 민감한 주제라면 조사원 없는 자기기입식이 유리하다. 모드 선택은 하나의 기준으로 결정되지 않는다. 제약 조건과 우선순위를 명시적으로 정리하고 선택해야 한다.

Q180. 우편조사는 아직도 유효한가? 특정 맥락에서는 여전히 유효하다. 인터넷 접근이 어려운 고령층, 농촌 지역, 시설 거주자 조사에서 우편은 유일한 현실적 선택일 수 있다. 응답자가 자신의 속도로 응답할 수 있고, 긴 설문지도 가능하다는 장점도 있다. 단점은 응답 시간이 길고(2~4주), 응답률이 낮으며, 응답자가 실제 대상자인지 확인할 수 없다는 것이다. 디지털 전환 시대에도 우편의 역할이 완전히 사라지지는 않는다.

Q181. 생체 데이터와 서베이 데이터를 결합하면 어떤 가능성이 생기는가? 주관적 보고와 객관적 측정을 동시에 확보할 수 있다. 심박수, 피부 전도도, 수면 패턴 같은 웨어러블 데이터와 서베이 응답을 연결하면 스트레스, 건강, 감정 상태를 다층적으로 볼 수 있다. 응답자가 의식하지 못하거나 보고하지 않는 생리적 반응을 포착한다. 그러나 개인정보 민감도가 매우 높고, 데이터 결합 동의와 보안 문제가 해결되어야 한다. 가능성은 크지만 윤리적·기술적 장벽도 높다.

Q182. 위치 기반 조사는 어떤 편향을 갖는가? 특정 장소에 있는 사람만 표집된다는 구조적 편향이 있다. 쇼핑몰 인터셉트 조사는 쇼핑몰 방문자를 모집단으로 삼는 것이고, 행사장 조사는 그 행사에 온 사람들만 포함한다. 이 집단이 일반 모집단과 다르다는 것은 자명하다. 위치 기반 스마트폰 데이터와 연계한 조사도 마찬가지다. 특정 앱 사용자, 특정 지역 방문자라는 커버리지 제약이 있다. 위치 기반 조사의 일반화 가능성은 항상 제한적이다.

척도 설계: 30개 질문과 대답

Q128. 척도와 문항은 어떻게 다른가? 문항은 하나의 질문이고, 척도는 하나의 개념을 측정하기 위해 설계된 문항들의 체계다. 단일 문항으로 측정하는 경우도 있지만, 복잡한 개념(이념 성향, 삶의 만족도, 번아웃)은 여러 문항을 묶어 척도로 측정해야 신뢰도와 타당도가 확보된다. 문항은 척도의 구성 요소이고, 척도는 측정의 도구다. 이 구분을 모르면 단일 문항으로 측정한 결과를 척도인 양 보고하는 오류를 범한다.

Q129. 리커트 척도의 정확한 정의는? 1932년 렌시스 리커트가 개발한 방법으로, 동일한 개념을 측정하는 여러 문항에 대해 동의 정도를 응답하고 그 합산 점수로 태도를 측정하는 방식이다. 핵심은 개별 문항이 아니라 문항들의 합산이 측정값이 된다는 것이다. 그러므로 5점 척도 단일 문항 하나를 리커트 척도라고 부르는 것은 엄밀히 틀렸다. 그것은 리커트형 응답 형식일 뿐이다.

Q130. 리커트 척도와 리커트형 척도는 어떻게 다른가? 리커트 척도는 복수 문항의 합산으로 하나의 개념을 측정하는 척도 구성 방식이다. 리커트형 척도는 '매우 동의'에서 '전혀 동의 안 함'까지 동의 정도를 묻는 응답 형식 자체를 말한다. 전자는 측정 설계의 개념이고, 후자는 응답 포맷이다. 실무에서는 두 용어를 혼용하지만, 연구 맥락에서는 구분이 필요하다. 5점 리커트형 문항 하나가 리커트 척도가 되려면 유사한 문항들과 묶여야 한다.

Q131. 5점 척도와 7점 척도 중 어느 것이 더 좋은가? 정답은 없다. 7점이 더 세밀한 변별을 가능하게 하지만, 응답자가 7개 범주를 실제로 구분할 수 있는지가 전제다. 연구에 따르면 인간이 안정적으로 구분할 수 있는 범주는 5~7개 수준이다. 조사 목적이 집단 간 차이를 세밀하게 보는 것이라면 7점, 빠른 응답이 중요하고 응답자 부담을 줄여야 한다면 5점이 낫다. 맥락 없는 선택은 의미 없다.

Q132. 척도점 수가 많을수록 좋은가? 아니다. 10점이나 100점 척도는 심리적으로 세밀해 보이지만, 응답자가 6점과 7점의 차이를 실제로 구분하는지는 의심스럽다. 척도점이 많아질수록 응답자의 인지 부담이 커지고, 실제로는 응답이 몇 개 지점에 집중되는 경향이 있다. 척도점 수는 측정하려는 구성 개념의 복잡성, 응답자 특성, 조사 방식을 함께 고려해서 결정해야 한다.

Q133. 짝수 척도와 홀수 척도 중 무엇을 선택해야 하는가? 측정 대상의 성격에 달려 있다. 개념적으로 중립이 존재하는 태도(찬반, 이념, 만족·불만족)라면 홀수 척도로 중립점을 두는 것이 적절하다. 반면 방향성이 없는 단극 개념(빈도, 정도)이나 응답자가 반드시 입장을 취해야 하는 상황이라면 짝수 척도로 강제 선택을 유도할 수 있다. 중립점 유무는 척도 구조의 핵심 결정이지 편의의 문제가 아니다.

Q134. 중립점은 왜 논쟁이 되는가? 중립 응답이 무엇을 의미하는지 해석이 모호하기 때문이다. 진정한 중립 태도일 수도 있고, 모르겠다는 의미일 수도 있고, 귀찮아서 중간을 찍는 것일 수도 있다. 세 가지 의미가 같은 숫자 안에 섞이면 분석 결과의 해석이 흐려진다. 그렇다고 중립점을 없애면 진짜 중립인 사람에게 거짓 입장을 강요하는 문제가 생긴다. 답은 없고 트레이드오프가 있을 뿐이다.

Q135. 모르겠다와 중간이다는 어떻게 다른가? 완전히 다른 인지 상태다. '중간이다'는 양쪽 입장을 모두 알고 있으며 그 사이 어딘가에 있다는 의미다. '모르겠다'는 판단할 정보나 의견이 없다는 의미다. 이 두 응답을 같은 선택지로 묶으면 데이터 해석이 왜곡된다. 이슈 인지도가 낮은 주제에서 '모르겠다'가 많은 것은 여론 공백의 신호인데, 이를 중립 여론으로 오해하면 분석이 완전히 틀어진다.

Q136. 중립점 제거가 데이터 품질을 높이는가? 상황에 따라 다르다. 중립점 제거는 응답자를 양방향 중 하나로 밀어내는 효과가 있어 변별력이 높아 보인다. 하지만 진정한 중립 태도를 가진 응답자에게 왜곡된 응답을 강요한다. 이슈에 대한 인지가 낮거나 태도가 형성되지 않은 집단이 많은 조사에서 중립점 제거는 오히려 데이터를 오염시킨다. 제거의 목적이 편리함이 아니라 측정 타당성에 근거해야 한다.

Q137. 단극척도와 양극척도는 언제 구분해야 하는가? 개념의 구조에 따라 결정해야 한다. 양극척도는 반대되는 두 극이 존재하는 개념에 쓴다. 진보-보수, 찬성-반대, 긍정-부정이 대표적이다. 단극척도는 없음에서 많음으로 가는 개념, 즉 한 방향으로만 증가하는 개념에 쓴다. 빈도, 강도, 만족도(논란 있음)가 여기 해당한다. 양극 개념을 단극으로 측정하면 반대 방향의 정보를 잃고, 단극 개념을 양극으로 측정하면 구조적으로 맞지 않는 응답을 강요한다.

Q138. 만족도는 단극인가, 양극인가? 논쟁이 있는 질문이다. 전통적으로 만족도는 '불만족'이 반대 극에 있는 양극 개념으로 본다. 그러나 허츠버그의 2요인 이론 관점에서는 만족과 불만족이 별개의 차원이다. 즉 만족이 없다고 불만족인 것이 아닐 수 있다. 실무에서는 대부분 양극척도로 측정하지만, 고객 경험이나 서비스 품질 연구에서는 단극으로 측정하는 것이 더 적합한 경우도 있다. 맥락에 따라 판단해야 한다.

Q139. 이념 성향은 단극으로 측정해야 하는가, 양극으로 해야 하는가? 이것이 한국 여론조사에서 가장 중요한 척도 설계 논쟁 중 하나다. 양극척도(진보-보수)로 측정하면 진보와 보수를 하나의 연속선으로 보는 것이다. 하지만 진보 성향과 보수 성향이 독립적인 차원이라면 각각 단극으로 측정해야 한다. 단일 양극 문항은 응답자를 강제로 진보 혹은 보수로 분류한다. 복합적 이념 구조를 가진 한국 20대를 측정할 때 이 선택은 결과를 크게 바꾼다.

Q140. VAS(시각적 아날로그 척도)는 언제 유용한가? 응답자가 선택지 경계 없이 연속적 판단을 표현해야 할 때 유용하다. 0mm에서 100mm 사이의 선 위에 표시하는 방식으로, 이론적으로 무한히 세밀한 측정이 가능하다. 통증 강도, 감정 강도처럼 연속적이고 미묘한 차이를 포착해야 할 때 적합하다. 그러나 온라인 조사에서는 마우스·터치 정밀도에 따라 응답이 달라질 수 있고, 응답자가 선택지 없이 판단하는 것을 불편해하기도 한다.

Q141. 온도계 척도(feeling thermometer)란 무엇인가? 0에서 100 사이의 온도계 모양 척도로 특정 대상(정치인, 집단, 정책)에 대한 호감도를 측정하는 방법이다. 50이 중립, 100이 가장 호감, 0이 가장 비호감을 의미한다. 미국 선거 연구(ANES)에서 오랫동안 써온 척도로, 집단 간 감정적 거리를 비교하는 데 유용하다. 숫자 척도보다 직관적이고, 연속적 판단을 가능하게 한다. 한국 정치 연구에서도 활용 가능성이 높다.

Q142. 순위척도와 평정척도는 어떻게 다른가? 평정척도(rating scale)는 각 항목을 독립적으로 평가한다. 모든 항목이 동점을 받을 수 있다. 순위척도(ranking scale)는 항목들 사이의 상대적 순서를 매긴다. 1등이 하나뿐이다. 평정척도는 항목 간 절대적 평가 수준을 알 수 있지만 관대화 편향이 생긴다. 순위척도는 변별력이 높지만 항목 수가 많아지면 응답 부담이 급격히 커진다. 목적에 따라 선택해야 한다.

Q143. 강제선택(forced choice) 척도는 왜 쓰는가? 사회적 바람직성 편향을 줄이기 위해서다. 응답자에게 모두 긍정적이거나 모두 중립적으로 보이는 선택지들 중 하나를 강제로 고르게 함으로써, 사회적으로 바람직한 방향으로 응답이 몰리는 것을 막는다. 인사 선발이나 성격 측정에서 자주 쓰인다. 단점은 응답자가 어느 선택지도 자신에게 해당하지 않는다고 느낄 때 불만이 생기고, 데이터 해석이 복잡해진다는 점이다.

Q144. 최대차별화척도(MaxDiff)란 무엇인가? 여러 항목 중 가장 중요한 것과 가장 중요하지 않은 것을 동시에 선택하게 하는 방법이다. 일반적인 중요도 평정에서 발생하는 관대화 편향과 척도 사용 방식 차이를 극복할 수 있다. 응답자는 매번 일부 항목들의 부분집합을 보고 최고·최저를 선택하며, 이 결과를 집계해 전체 항목의 상대적 중요도를 도출한다. 마케팅 조사에서 특히 유용하며, 우선순위 파악이 목적일 때 평정척도보다 변별력이 높다.

Q145. 척도의 신뢰도와 타당도는 어떻게 다른가? 신뢰도는 동일한 측정을 반복했을 때 일관된 결과가 나오는 정도다. 타당도는 측정하려는 개념을 실제로 측정하고 있는지의 문제다. 신뢰도가 높아도 타당도가 낮을 수 있다. 체중계로 키를 일관되게 잴 수 있지만 그것이 키 측정은 아닌 것과 같다. 타당도 없는 신뢰도는 의미 없고, 신뢰도 없는 타당도는 불안정하다. 좋은 척도는 둘 다 필요하다.

Q146. 크론바흐 알파가 높으면 좋은 척도인가? 높은 알파는 문항들이 내적으로 일관된다는 것을 보여주지만, 그것만으로 좋은 척도가 되지는 않는다. 알파는 문항 수가 늘어날수록 자동으로 높아지는 경향이 있다. 또한 알파가 높다는 것은 문항들이 너무 비슷해 사실상 같은 것을 중복 측정할 가능성도 있다. 더 중요한 것은 타당도다. 알파가 0.9라도 엉뚱한 개념을 측정하고 있다면 쓸모없는 척도다.

Q147. 단일 문항 척도는 언제 쓸 수 있는가? 개념이 단순하고 명확하며, 응답자가 즉각적으로 이해할 수 있을 때 가능하다. "전반적인 삶의 만족도는?" 같은 문항은 단일 문항으로도 타당한 측정이 된다는 연구가 있다. 반면 번아웃, 정치적 냉소, 신뢰 같은 다차원적 개념을 단일 문항으로 측정하면 개념의 복잡성을 포착하지 못한다. 설문 길이 제약이 있을 때 단일 문항을 쓰더라도, 그 한계를 인식하고 해석해야 한다.

Q148. 복합 지표(composite index)를 만들 때 주의할 점은? 구성 문항들이 실제로 같은 개념을 측정하는지 확인해야 한다. 이론적 근거 없이 관련 있어 보이는 문항들을 합산하면 의미 없는 숫자가 된다. 문항 간 상관관계 확인, 요인분석을 통한 차원 구조 파악이 선행되어야 한다. 또한 문항별 가중치를 어떻게 설정할지도 결정해야 한다. 단순 합산이 기본이지만, 중요도가 다른 문항들을 동일 가중치로 더하는 것이 항상 옳지는 않다.

Q149. 응답 선택지 레이블은 어떻게 정해야 하는가? 심리적 거리가 균등해야 한다. '매우 동의', '동의', '보통', '비동의', '매우 비동의'에서 각 단계 간 거리가 응답자에게 동등하게 느껴져야 한다. 레이블이 비대칭이면 척도의 중심이 틀어진다. 형용사 선택도 중요하다. '약간'과 '다소'가 같은 강도인지, '매우'와 '극히'가 다른지 검토해야 한다. 레이블은 단순히 이름을 붙이는 것이 아니라 응답자의 인지 구조를 설계하는 행위다.

Q150. 숫자 레이블을 쓰면 응답이 달라지는가? 달라진다. 1~5 대신 -2~+2로 표시하면 응답 분포가 바뀐다. 음수가 포함된 척도에서는 중립점이 0이 되어 응답자가 음수 선택에 더 강한 거부감을 보인다. 또한 1~10 척도에서 1~7에 레이블을 붙이느냐 전체에 붙이느냐에 따라서도 달라진다. 숫자 그 자체가 의미를 전달하기 때문이다. 척도를 설계할 때 숫자의 의미와 레이블의 의미가 충돌하지 않도록 해야 한다.

Q151. 척도 문항을 역코딩할 때 주의할 점은? 역코딩 대상 문항을 정확히 식별하고, 실수 없이 처리했는지 확인해야 한다. 역코딩 후 문항 간 상관관계가 의도한 방향으로 바뀌었는지 검증하는 것이 기본이다. 흔한 실수는 역코딩해야 할 문항을 빠뜨리거나, 이미 역코딩된 문항을 다시 역코딩하는 이중 역코딩이다. 또한 중립점이 있는 홀수 척도에서 역코딩을 할 때 중립값은 그대로 유지되는지도 확인해야 한다.

Q152. 한국어 척도 레이블의 특수한 문제는? 영어 척도를 번역할 때 동등한 심리적 거리를 가진 한국어 표현을 찾기 어렵다는 점이다. 예를 들어 'strongly agree'와 'agree'의 차이가 '매우 동의'와 '동의'로 번역되었을 때 영어 원본과 동일한 심리적 거리를 갖는지 불확실하다. 또한 한국어에는 정도를 나타내는 부사가 풍부해 선택지가 불필요하게 세분화되거나 뉘앙스가 겹치는 문제도 있다. 한국 맥락에 맞는 레이블을 독자적으로 검증할 필요가 있다.

Q153. 번역된 척도를 그대로 쓸 수 있는가? 원칙적으로는 번역·역번역 절차와 인지 사전조사를 거쳐야 한다. 번역자가 원문의 의미를 정확히 옮겼는지, 한국 응답자들이 번역된 문항을 원래 의도대로 해석하는지 확인해야 한다. 특히 심리·사회적 개념은 문화마다 의미가 다를 수 있다. 그냥 번역해서 쓰면 구성 타당도를 잃을 수 있다. 척도 도입의 편의성과 측정 타당도 사이의 트레이드오프를 인식해야 한다.

Q154. 척도 응답을 연속형으로 분석해도 되는가? 통계학적으로는 논쟁이 있지만 실무에서는 널리 허용된다. 엄밀히 말하면 5점 리커트형 척도는 순서형 데이터다. 간격이 동등하다고 가정할 수 없다. 그러나 문항 수가 충분하고 응답 분포가 정규분포에 가깝다면 연속형으로 처리해도 결과에 큰 차이가 없다는 연구가 많다. 단일 문항은 순서형으로, 여러 문항의 합산 점수는 연속형으로 분석하는 것이 현실적 타협점이다.

Q155. 척도 불변성(measurement invariance)이란 무엇인가? 같은 척도가 서로 다른 집단에서 동일한 방식으로 작동하는지를 검증하는 개념이다. 예를 들어 '삶의 만족도' 척도가 남성과 여성에게 동일한 의미를 갖는지, 응답 방식이 같은지 확인하는 것이다. 불변성이 확보되지 않으면 집단 간 평균 비교가 의미 없다. 형태 불변성, 측정 불변성, 스칼라 불변성 순으로 단계적으로 검증한다. 비교 연구에서 반드시 선행되어야 할 절차다.

Q156. 집단 간 척도 비교는 어떤 전제가 필요한가? 척도 불변성이 확보되어야 한다. 최소한 측정 불변성(factor loading 동일)이 확인되어야 평균 차이를 비교할 수 있고, 스칼라 불변성(절편 동일)이 확인되어야 평균 수준 비교가 유효하다. 이 검증 없이 집단 간 평균을 비교하는 것은, 같은 자를 쓴다고 가정하고 비교하는 것과 같다. 실무 조사에서 이 검증은 거의 이루어지지 않는다. 비교 연구의 숨겨진 취약점이다.

Q157. 척도 설계에서 가장 많이 범하는 실수는? 단극·양극 구분 없이 관행적으로 5점 척도를 쓰는 것이다. 개념의 구조를 먼저 생각하지 않고 형식부터 결정한다. 그 다음으로 흔한 실수는 중립점과 모름 응답을 구분하지 않는 것, 레이블의 심리적 거리가 균등한지 검토하지 않는 것이다. 더 근본적인 실수는 단일 문항으로 복잡한 개념을 측정하면서 타당도를 검증하지 않는 것이다. 척도 설계의 가장 큰 적은 관행이다.