메소드서베이

2018년 11월 13일 화요일

길어도 너무 긴 웹설문의 정확도를 높이려면?

길어도 너무 긴 설문이 응답의 정확성을 저해한다는 증거는 의외로 적다. 착각하면 안되는게 그렇다고 없다는 건 아닌거다. 사실 이런 주제는 리서처들이 별로 좋아하지 않는다. 왜냐하면 많은 문항을 한 번에 조사하는 것이 경제적이기 때문이다.

그러나 직관적으로 너무 긴 설문에서 뒤에 배치된 문항의 정확성은 떨어질 수 밖에 없다. 모르시겠다면 40분짜리 웹조사를 한 번 해보면 알게된다.

이번 논문은 길어도 너무 긴 설문의 정확성을 높이기 위한 솔루션을 제시해준다. 친절하게도 실험조사를 하여 그 증거까지 제시해주고 있다.

결과적으로 설문문항을 쪼개란 것이다. 사실 설문지를 쪼개는 방법은 두 가지가 있다. 우선 선 쉽게 할 수 있는 것은 설문의 파트를 두개로 나누는 것이다. 즉 1번부터 100번까지를 한 파트, 101번부터 200번까지를 다른 파트로 나누는 것이다. 그러나 이 논문에서 제시한 방법은 이 방법이 아니다. 문항마다 랜덤하게 응답자를 선정하는 것이다. 즉 어떤 응답자는 1번, 3번, 5번을 응답하게 되고 또 다른 응답자는 1번, 2번, 4번을 응답하게 되는 것이다.

긴 설문은 해야겠고, 응답의 정확성도 포기할 수 없는 연구자의 경우 이 방법을 사용할 법하다. 나는 첫 번째로 설명한 쪼개기(1부와 2부로 나누는 것)도 시도할만 하다고 본다. 물론 아직 증거는 없다.

2018년 11월 8일 목요일

5점 척도 분석 시 (환산) 평균값이 최상일까?

중간 보기가 없는 2점이나 4점의 경우는 긍정비율(찬성, 만족 등)을 가지고 주로 분석을 한다. 그러나 중간 보기가 있는 3점이나 (특히) 5점의 경우 긍정비율보다는 평균값(3점 or 5점 만점, 아니면 이를 100점으로 환산)을 많이 활용한다. 왜 일까? 아마도 중간 보기의 해석이 어려워서일거다.

그러나 최근에 통계청 2018 사회조사 결과를 보면서 5점 척도의 경우 평균값을 활용하지 않는다는 것을 알게 되었다. 심지어 평균값 자체를 산출하지 않는다고 했다. 척도 간 등간성이 확실하지 않은 상황에서 평균을 내는 것은 결과치를 왜곡할 수 있다는 이유에서였다. 물론 1점에서 5점 사이의 주관식 값으로 응답을 받은 거라면 평균을 낼 것이라고 했다.

(이 기회에 저의 취재(?)를 응해주신 사회조사 담당 통계청 직원분께 감사의 말씀을...^^)

사실 10여년 간 5점 척도를 활용한 문항을 분석할 때 비율을 쓸지 평균을 쓸지 고민을 많이 했었다. 물론 선배 리서처들의 보고서에서 대부분 평균을 활용했길래 그걸 따라했었다. 그러나 오늘부터는 평균과 이별해야겠다.

2018년 11월 5일 월요일

확률표집과 비확률표집 중 더 정확한 것은?

확률표집에 대한 회의와 의심이 높아져서일까? 최근 확률표집이 비확률표집보다 더 정확하다는 류의 논문이 다량 생산되고 있다. 사실 당연한 걸로 생각했는데 이렇게 논문이 많이 나오니 오히려 의심이 든다.

이 논문은 좀 더 많은 조사와 변수를 RMSE(root mean squared error) 방식으로 분석했으니 더 믿을 수 있어요를 반복하고 있다. 그러면서 깨알같이 응답율이 예전만 못해도 확률표집이 '짱'이라고 설파하고 있다.

그러나 조사회사 자료가 대부분 2012년이라는 점에서 신뢰하기가 좀 어려운 부분이 있다. 2018년이니 2017년 정도는 썼어야하지 않았을까?

자세한 내용은 아래 사이트에서 확인하면 된다.
https://academic.oup.com/poq/advance-article-abstract/doi/10.1093/poq/nfy038/5151369?redirectedFrom=fulltext

2018년 10월 21일 일요일

왜 유선전화보다 무선전화로 인터뷰할 때 시간이 길까?

영어 번역이 귀찮아 파파고 번역을 통해 논문 요약을 하면 아래와 같다.
앞으로 이런 식의 성의 없는 논문 요약이 자주 등장할거다...^^ 뭐 대충 내용만 이해하면 땡이니까...

왜 전화 인터뷰가 유선전화보다 휴대폰에서 더 오래 지속될까요? 이 현상에 대한 일반적인 설명에는 질문 하위 집합으로의 차등 선택, 질문 답변 순서 밖의 활동(셀-분 보상을 위한 연락처 정보 수집 등), 응답자 특성, 응답자의 인식 및 이해에 지장을 나타내는 행동 및 행동 i가 포함된다.붕괴에 대한 시청자의 반응 우리는 우리가 인터뷰의 질문-답변 부분에만 집중하고 공유된 질문에만 집중하더라도(즉, 위의 처음 두 개의 설명을 삭제) 시간 차이는 지속된다는 것을 알게 된다. 그 차이가 지속되는 이유를 알기 위해, 우리는 미국 성인을 대상으로 한 이중 프레임 전화 설문 조사인 미국/일본 신문 의견 설문조사의 행동 코드를 사용하여 만족, 선 품질 문제 및 주의 산만함의 지표를 조사합니다. 전반적으로, 우리는 휴대폰에 대한 응답자들이 더 혼란스러워졌고, 휴대폰 응답자들이 받아들일 수 있는 답변을 제공하는 데 시간이 더 오래 걸리기 때문에 인터뷰 지속시간의 차이가 발생한다는 것을 알게 되었다. 면접관들도 질문을 할 때 연설의 속도를 늦춘다. 두 배우의 느린 말하기 비율은 응답자들이 휴대전화를 사용할 때 더 길고 더 비싼 인터뷰를 하게 된다.

실증 자료를 통해 다양한 분석을 하는데...결론은 엄청 허무하다. 그냥 무선전화로 응답하는 응답자들이 말을 길게 오래한다는 거다. 내 생각엔 그냥 무선전화로 인터뷰하는게 조금 더 익숙하고 편해서이지 않을까?

2018년 9월 14일 금요일

여론 측정(measure public opinion)과 여론 기술(describe public opinion)의 차이

여론조사의 질문은 그 목적에 따라 여론을 측정하는 것(measure public opinion)과 여론을 기술하는 것(describe public opinion)의 두 개의 범주로 나뉜다.

우선 우리가 흔히 보는 여론조사 분석은 대다수가 여론을 기술한 것이다. 해당 주제에 대한 찬반이나 그 이유를 물어서 국민의 몇 % 정도가 찬성 혹은 반대하는지 그 이유는 무엇인지를 알려준다. 매주 나오는 한국갤럽의 보고서는 여론 기술의 가장 좋은 예이다.

그렇다면 여론을 측정하는 것은 무엇일까? 여론을 측정하기 위해서는 단순히 태도 문항만을 활용해서는 안된다. 그 보다는 태도 기저에 있는 가치 혹은 신념을 태도와 함께 측정해야한다. 만약 위에서 예로든 부동산 정책에 대한 태도 문항을 측정할 경우 정부의 시장 개입에 인식 혹은 정부의 효율성 인식 등 부동산 정책 태도와 연관이 있어보이는 가치 혹은 신념을 같이 물어봐야한다.

그와 더불어 가능하다면 가치 혹은 신념 문항을 2X2 혹은 2X3 혹은 3X3으로 교차하여 유형화(typology)까지 하면 더 좋다. 유형화 작업을 할 경우 정책의 타겟을 설정할 수 있다는 실용적인 장점이 있기 때문이다.

아무튼 이러한 인지 단계별 측정을 통해 태도에 대한 단순한 기술을 넘어 설명이 가능해진다. 왜 그러한 태도를 보이는 것인지 어떤 유형화 집단이 타겟인지를 유추할 수 있게 된다.

웹조사에서는 질문(stem) 말고 보기(options)에 양보하세요...

고객마다 설문지를 구성하는 스타일이 있다. 중간이 없는 4점 척도 보기를 좋아하는 고객이 있는가 하면 중간이 있는 5점 척도 보기를 좋아하는 고객도 있다. 그러나 모든 고객들이 가진 공통점이 있다. 바로 보기(options)보다는 질문(stem)에 훨씬 많은 신경을 쓴다는 것이다. 워딩 고민의 99%는 질문이다. 전화면접이나 대면면접에서는 질문에 신경쓰는 것이 맞다. 왜냐하면 면접원이 말로 질문을 해야하기 때문이다.

그러나 웹조사 영역에서는 질문에 신경을 쓰는 일은 심하게 말해 무의미한 일이다. 왜냐하면 응답자들은 질문에는 눈길을 거의주지 않고 오로지 보기에만 집중하기 때문이다. 아이트랙커를 통해 실험한 결과를 보면 질문 쪽에는 아예 눈길조차 가지 않는 것을 알 수 있다. 이는 목적 지향적 행동으로 응답자는 선택해야 할 보기에 자연스럽게 집중하는 것이다.

이런 점을 감안할 때 웹조사에서는 질문은 최소화하고 보기에 역량을 집중하는 전략이 필요하다.

(X)

문. 귀하께서는 A라는 정책에 대해 찬성하십니까? 아니면 반대하십니까?

1. 찬성한다

2. 반대한다

3. 모르겠다

(O)

문. 귀하의 의견은?

1. A라는 정책에 대해 찬성한다

2. A라는 정책에 대해 반대한다

2018년 9월 12일 수요일

우리나라 조사회사에서만 활용하는 요상한(?) 직업 문항을 아십니까?

여론조사를 하다보면 직업 문항은 거의 들어가기 마련이다. 보통 아래와 같은 형태이다.

<R&R>

<한국갤럽>

<한국리서치>

그런데 이러한 설문은 사실은 산업, 직업, 종사상 지위, 비고용이유 등의 문항이 짬뽕된 형태로 문제가 매우 많다. 자세히 보면 이렇다. 일단 농/임/어업은 산업 형태 중 하나이다. 자영업은 종사상 지위 중 하나이다. 판매직이나 전문직 등은 직업이다. 더 재미있는 것은 주부, 학생, 무직/퇴직과 같은 직업이나 고용상태와 무관한 보기도 있다는 것이다. 한마디로 배타성이 결여된 괴팍한 문항(자영업이면서 전문직일 수 있으니)이다.

예를 들어 알바를 아주 쬐끔하는 주부는 가정주부 혹은 주부로 응답할 가능성이 크다. 알바를 하는 학생 역시 마찬가지이다. 또한 변호사 사무실을 개업한 변호사의 경우 종사상 지위는 자영업자이지만 직업은 전문직이니 어디에다 응답해도 된다. 그 뿐인가? 남편의 가계를 도와주는 주부의 경우 자영업으로 응답할 가능성도 있다(사실은 무급가족종사자일테지만). 정말 "그때 그때 달라요"이다.

그렇다면 왜 이런 설문을 계속 유지하는걸까? 아마도 한 개 문항으로 산업, 직업, 종사상 지위, 비고용이유 등을 한방에 알 수 있기 때문이다. 조사회사는 조사회사대로 편하니 이렇게 물었을테고 고객측에서도 이러한 사정을 모르니 그냥 두었을 것이다. 앞으로라도 정말 시정되어야할 부분이다.