2026년 4월 9일 목요일

[심리적 맥락 문항 해부 ①] '너무 멀리 나갔다'는 반대가 아니다

— AP-NORC의 3점 척도가 드러내는 정치적 지형

미국 여론조사를 읽다 보면 같은 구조의 문항이 반복적으로 등장하는 것을 알게 된다. 정책에 대한 찬성과 반대를 묻는 대신 "너무 멀리 나갔다(gone too far) / 적당하다(about right) / 충분하지 않다(not far enough)"의 3점 척도로 묻는 문항이다. 언뜻 평범해 보인다. 그러나 이 문항이 하는 일은 찬반 척도로는 결코 잡을 수 없는 층위를 드러내는 것이다. 2026년 2월 AP-NORC 조사를 사례로 그 구조를 해부해 보자.

실제 문항과 수치

AP-NORC가 2026년 2월 5~8일에 실시한 조사(AmeriSpeak 확률패널, n=1,156)는 트럼프 행정부의 네 가지 이민 관련 조치에 동일한 3점 척도를 적용했다. 문항 문구는 이렇다.

"When it comes to each of the following, would you say Donald Trump has gone too far, not gone far enough, or been about right?"

네 개 항목에 대한 응답 분포는 다음과 같다.

조치	너무 멀리	적당하다	충분하지 않다
미국 도시에 연방 이민 요원 투입	62%	26%	10%
미국 도시 시위 현장에 연방 법 집행 투입	61%	25%	12%
합법 이민 제한	54%	34%	11%
불법체류자 추방	52%	32%	14%

"6 in 10 think Trump has gone too far"라는 보도 제목은 첫 행의 62%에서 나왔다. 여기까지는 흔한 요약이다. 그러나 이 수치를 "반대 62%"로 번역하는 순간, 이 조사가 측정한 것의 절반을 잃는다.

찬반 척도가 놓치는 것

동일한 쟁점을 "당신은 연방 이민 요원의 도시 투입 정책에 찬성하십니까, 반대하십니까?"로 물었다고 가정해 보자. 돌아올 답은 찬성과 반대의 비율뿐이다. 그런데 현실 정치에서 "반대"라는 한 단어는 최소 두 가지 다른 심리를 가린다.

하나는 정책의 방향 자체에 반대하는 사람이다. 이민 단속을 강화하는 것 자체가 틀렸다고 보는 층. 다른 하나는 정책의 방향에는 동의하지만 집행의 속도나 강도가 과하다고 느끼는 사람이다. 이 두 집단은 찬반 척도 위에서는 똑같이 "반대"로 집계되지만, 정치적으로는 전혀 다른 존재다. 전자는 정책의 전환을 원하고, 후자는 정책의 조정을 원한다. 다음 선거에서 이 두 집단은 다른 메시지에 반응하고 다른 방식으로 움직인다.

AP-NORC의 3점 척도는 바로 이 층위를 분리한다. "너무 멀리 나갔다"고 답한 응답자는 방향에 대한 판단을 유보한 채 속도에 대한 반감만 표명할 수 있다. 방향 자체에 반대한다면 이들은 정책의 폐기를 원할 것이다. 속도에만 반감이 있다면 이들은 다음 선거에서 "좀 더 차분한 버전의 같은 정책"을 원할 것이다. 이 구분이 정책 담당자에게 얼마나 결정적인지는 더 설명할 필요가 없을 것이다.

반대편도 마찬가지다. 이 문항은 "찬성" 응답자도 두 집단으로 나눈다. "적당하다"와 "충분하지 않다"이다. 전자는 현 정책에 만족하고 추가 강화를 원하지 않는 층이다. 후자는 더 강경한 조치를 요구하는 층이다. 둘 다 찬반 척도에서는 "찬성"으로 뭉뚱그려지지만, 다음 정책의 방향을 결정하는 유권자로서의 역할은 전혀 다르다.

결국 이 3점 척도가 실제로 하는 일은, 찬반이라는 일차원 위에 "현재의 집행 수준"이라는 기준점을 하나 심어 넣는 것이다. 응답자에게 "이 정책이 현재 어디까지 와 있다고 느끼는가"라는 위치 판단을 먼저 요구한 뒤, 그 위치가 과한지 모자란지 적절한지를 답하게 한다. 단순한 찬반보다 한 단계 복잡한 인지 작업이 필요하지만, 그 대가로 한 차원 더 많은 정보를 얻는다.

시계열로 보면 더 선명해진다

AP-NORC 토플라인에는 "불법체류자 추방" 항목의 시계열이 있다. "너무 멀리 나갔다"고 답한 비율은 2025년 4월 48%, 9월 49%, 2026년 1월 51%, 2026년 2월 52%로 나타난다. 약 10개월 사이 4%p의 완만한 상승이다.

만약 이 조사가 단순한 찬반 척도였다면 해석은 "반대층이 4%p 늘었다"로 끝난다. 그러나 3점 척도 시계열이 보여주는 것은 그 이상이다. 같은 기간 "적당하다"와 "충분하지 않다" 비율이 함께 이동했을 가능성, "충분하지 않다"에서 "적당하다"를 거쳐 "너무 멀리"로 천천히 이동하는 중간 이탈의 경로. 이 동학은 본질적으로 중도층 내부에서 일어나는 인식 변화이고, 정책의 지속가능성을 가늠하는 결정적 신호다. 방향 반대층이 4%p 증가한 것과, 현 정책을 괜찮다고 보던 사람이 과하다고 느끼기 시작한 것은 전혀 다른 정치 현상이다. 찬반 척도는 후자를 전자로 오역한다.

이 문항 설계가 요구하는 조건

모든 이슈에 3점 척도를 쓸 수 있는 것은 아니다. 이 문항이 제대로 작동하려면 최소 세 가지 조건이 충족되어야 한다.

첫째, 응답자가 해당 정책의 방향을 어느 정도 공유하거나 적어도 이해할 수 있어야 한다. 방향 자체가 극단적으로 거부되는 이슈에는 "적당하다"라는 중간점이 심리적으로 성립하지 않는다. "적당한 계엄령"이나 "적당한 전쟁 선포" 같은 개념이 성립하지 않기 때문이다.

둘째, 정책이 이미 실행되고 있어야 한다. 가상의 정책이나 미래 공약에 대해서는 "속도" 판단 자체가 불가능하다. 이 문항은 본질적으로 사후적(post hoc) 평가 척도다. 현재 집행 중인 정책의 강도를 기준점으로 삼아 그것이 적절한지 묻는 구조이기 때문이다.

셋째, "적당하다"가 심리적으로 의미 있는 선택지여야 한다. 응답자가 "모르겠으니 중간을 찍는" 회피 선택지로 활용하면 데이터 전체가 오염된다. AP-NORC가 이 문항을 그리드 형태로 묶어 네 개 항목을 동시에 제시하고, 응답 옵션 순서를 half sample에 역순으로 제시하는 것도 이 점과 관련이 있다. 응답자가 각 항목을 서로 비교하며 의식적으로 위치를 정하도록 유도하는 설계다.

한국 실무자를 위한 함의

한국의 정책 조사에서 이 3점 척도는 거의 사용되지 않는다. 대부분의 공공정책 조사는 찬성/반대 이분법 또는 5점 리커트 찬반 척도로 설계된다. 그러나 위에서 본 것처럼, 찬반 척도는 방향 반대와 속도 반감을 구분하지 못한다.

한국 정치에서 이 구분이 결정적이었던 이슈를 떠올려 보자. 주 52시간 근무제에 대한 반대에는 "노동시간 단축 자체에 반대하는 목소리"와 "방향은 맞는데 전환 속도가 현장 여건에 비해 빠르다는 목소리"가 뒤섞여 있다. 부동산 세제 강화에 대한 반대에도 같은 두 층이 있었다. 연금 개혁, 교육 정책, 탈원전 — 모든 장기 전환 정책에서 이 두 층은 섞여 측정되고 섞여 해석된다. 결과적으로 "반대가 60%"라는 식의 정치적 언어가 반복되지만, 그 60% 안에서 정책 조정을 요구하는 층과 정책 폐기를 요구하는 층의 비율은 공표되지 않는다. 측정 자체가 되지 않았기 때문이다.

이 문항 설계를 한국 조사에 이식하려면 단순히 "너무 지나치다 / 적절하다 / 부족하다"로 번역하는 것 이상이 필요하다. 중간점의 의미론적 안착, 정책 제시문의 방향 중립성, 항목 간 비교를 가능케 하는 그리드 구조. 이 조건이 갖춰질 때 비로소 한 문항이 찬반 척도 열 개보다 더 많은 정보를 드러낸다.

한 문항의 무게

"Gone too far, about right, not far enough." 영어로 여섯 단어짜리 척도다. 그러나 이 척도가 AP-NORC 조사에서 한 일은 찬반 척도로는 보이지 않는 정치적 지형 전체를 드러낸 것이다. 반대층 내부의 분화, 찬성층 내부의 분화, 시계열 이동의 내부 동학. 전부 이 세 개의 선택지에서 나왔다.

심리적 맥락을 측정한다는 것이 반드시 화려한 실험 설계나 복잡한 통계 모델을 의미하지는 않는다. 때로는 선택지 한두 개를 늘리거나 응답 축 하나를 재정의하는 것으로 충분하다. 그 선택지 하나가 응답자에게 찬반이라는 강제된 이분법 밖의 인지 공간을 열어주기 때문이다.

다음 편에서는 이 3점 척도보다 한 단계 더 복잡해진 설계 — Zogby가 2026년 이란전쟁 여론조사에서 사용한 "시간 시나리오 분기" — 를 본다. "지상군 투입에 찬성하는가?"라는 질문이 "1개월이면? 6개월이면? 1년 이상이면?"으로 쪼개질 때, 응답자의 머릿속에서 어떤 일이 벌어지는가.

2026년 4월 8일 수요일

한국에서 여론조사 등급제는 왜 어려운가?

한국에서 여론조사 등급제는 왜 어려운가

미국의 폴스터 등급제가 작동하는 이유

538(FiveThirtyEight)이나 AAPOR 같은 기관이 조사회사를 등급화할 수 있는 건, 단순히 의지와 기준이 있어서가 아니다. 구조적 조건이 뒷받침되기 때문이다.

미국 선거조사에는 세 가지 응답자 베이스가 통용된다. 성인 전체(All Adults), 등록 유권자(RV, Registered Voters), 그리고 실제 투표 가능성이 높은 유권자(LV, Likely Voters). 선거가 임박할수록 LV 베이스가 핵심 예측 지표로 부각된다.

LV를 어떻게 정의하느냐는 기관마다 다르다. Gallup은 과거 투표 참여, 관심도, 등록 여부 등 7~8개 문항으로 점수를 매겨 커트라인을 정하고, NYT/Siena는 등록 데이터와 과거 투표 이력을 결합해 가중치로 처리한다. 중요한 건, 이 LV 베이스가 "예측치 vs 실제 결과" 비교를 깔끔하게 만들어준다는 점이다.

여기에 더해, 미국은 연방·주·지방 단위 선거가 연간 수백 건 쏟아진다. 조사회사별로 충분한 비교 관측치가 쌓이고, 방법론 정보는 표준화된 형식으로 공개되며, 538이 수십 년치 데이터를 아카이브로 관리한다.

등급제는 이 모든 조건 위에서 작동한다.

한국에서 같은 논리가 성립하지 않는 이유

비교 기준점이 없다

한국은 유권자 등록이 자동이다. 전 국민이 이미 등록 유권자이므로 RV 개념 자체가 없다. LV 필터를 도입한다 해도, "투표 의향 확실" 응답자를 걸러내는 것이 예측력을 얼마나 높이는지는 별도로 검증해야 할 문제다. 대선 투표율이 70~80%에 달하는 구조에서, "누가 나오느냐"의 변별력은 미국만큼 크지 않다.

선거 건수가 너무 적다

등급제의 논리는 충분한 반복 관측으로 편향과 분산을 추정하는 것이다. 한 조사회사가 대선에서 크게 틀렸을 때, 그것이 방법론 문제인지 그 선거의 특수성인지 구별하려면 반복 데이터가 필요하다. 그런데 한국의 전국 단위 선거는 대선·총선·지선 합쳐 2년에 한 번꼴이다. 회사별 비교 관측치가 현실적으로 n=3~5 수준에 머문다. 이 데이터로 등급을 산출하면 신뢰구간이 너무 넓어 의미가 없다.

오차 귀책이 불가능하다

공직선거법은 선거일 6일 전부터 조사 공표를 금지한다. 마지막으로 공표된 수치와 실제 결과 사이에 6일이라는 간격이 생긴다. 그 사이에 후보 단일화, 사퇴, 돌발 변수가 개입하면 조사 오차와 상황 오차를 분리할 방법이 없다. 오차의 귀책 자체가 불명확한 구조다.

그렇다면 정성적 평가로 보완하면 되지 않는가

여기서 핵심 질문이 나온다. 정량 평가가 어렵다면, 정성적 기준을 도입해 보완하면 되지 않을까?

물론 방법론적 투명성(응답률 공개 여부, 가중변수 명시 여부), 독립성·이해충돌(의뢰처 비중, 편향 패턴), 절차적 준수(심의위 규정 위반 이력) 같은 항목들은 기준을 만들 수 있다. 일부는 정량화도 가능하다.

그러나 정성 평가는 결국 "누가 평가하느냐" 문제로 귀결된다. 평가 주체가 업계와 이해관계가 없는 제3자여야 하는데, 한국의 현실에서 그 역할을 누가 맡을 수 있는지는 별도의 난제다. 538이 신뢰받는 이유 중 하나는 평가 주체의 독립성이다. 그 조건이 충족되지 않으면, 등급제는 외양만 있고 실질은 특정 기관을 배제하거나 보호하는 도구로 전락할 위험이 있다.

내 입장: 정량만 해야 한다, 그러나 한국에서 그 정량이 지금은 불가하다

나는 조사회사 평가는 정량적 기준으로만 이루어져야 한다고 생각한다. 정성이 끼어들면 심사위원회의 주관 평가가 되기 때문이다. 그런데 한국에서 그 정량이 구조적으로 성립하지 않는다.

LV 베이스 없음 → 비교 기준 불명확
선거 건수 부족 → 통계적 유의성 없음
공표 금지 기간 → 오차 귀책 불가
단일화·사퇴 변수 → 노이즈 분리 불가

이 네 가지가 동시에 걸리는 한, 정량 등급제는 구조적으로 성립하지 않는다. 억지로 만들면 숫자의 외양을 한 주관 평가가 된다.

현실적 대안: 등급(Grade)이 아니라 인증(Certification)

그렇다면 한국에서 가능한 건 무엇인가. 나는 최소 기준 인증제가 현실에 맞는 형태라고 본다.

이 조사는 응답률을 공개했는가
가중변수를 명시했는가
의뢰처를 공개했는가
표본설계 방식을 기술했는가

이런 yes/no 항목들로 구성된 체크리스트 기반 인증이다. 등급을 매기는 게 아니라, 최소한의 투명성 기준을 충족했는지를 확인하는 것이다.

등급제는 "얼마나 잘하느냐"를 묻는다. 인증제는 "기본은 하느냐"를 묻는다. 지금 한국 여론조사 환경에서는 후자가 우선이다. 공시 의무 강화와 원데이터 공개가 선행되어야 그 위에 평가 체계를 논할 수 있다.

평가 체계의 수준은 데이터 인프라의 수준을 넘을 수 없다.

미국 선거조사 방법론의 다양성은 자랑이 아니라 상처의 흔적이다

— 그리고 한국 조사가 단조로워 보이는 진짜 이유

최근 미국 여론조사 기관들의 방법론을 하나씩 훑어볼 일이 있었다. AP-NORC의 AmeriSpeak, NYT/Siena의 live caller, YouGov의 매칭 패널, Verasight와 Echelon Insights의 voter file matched online, Atlas Intel의 RDR(Random Digital Recruitment)까지. 같은 1,000명짜리 전국 조사인데도 표본을 뽑는 방식이 기관마다 전혀 다르고, 가중치 변수도, 분석 단위도, 심지어 응답자에게 접근하는 매체조차 다 달랐다.

한국 조사자라면 한 번쯤 이런 생각이 들 수 있다. "미국은 정교하고, 우리는 단조롭다." 그러나 이 통념은 절반 이상 틀렸다고 본다. 미국 선거조사가 그렇게 다층적인 모습을 갖게 된 것은 정교함을 추구해서가 아니라, 단순하게 만들 수 있는 장치가 거의 하나도 없었기 때문이다. 다섯 가지 구조적 제약이 동시에 작동한 결과다.

첫째, 국가가 제공하는 sampling frame이 없다

이것이 가장 근본적이다. 한국에는 주민등록이 있고, 그 위에 통신 3사가 제공하는 안심번호 체계가 얹혀 있다. 전국 성인 sampling frame이 사실상 공공재로 존재한다. 미국은 그렇지 않다. 연방 차원의 주민등록 자체가 정치적 금기에 가깝고("national ID" 논쟁은 건국 이래 진행 중이다), 그 결과 프레임을 만드는 일이 통째로 민간 시장의 몫이 되었다. L2, Catalist, Aristotle 같은 회사들이 50개 주의 voter file을 각자 긁어모아 상품으로 판매하는 생태계가 그래서 자라났다. 기관마다 어느 회사의 voter file을 쓰느냐, 거기에 어떤 consumer data를 결합하느냐부터가 달라진다.

둘째, 연방제이기 때문에 분석 단위가 다층적이다

미국 선거는 전국 단위 지지율만으로는 아무것도 예측할 수 없다. Electoral College 때문에 주 단위, 그것도 swing state 6~7개의 개별 정밀 추정이 핵심이고, 하원은 435개 district, 상원은 33~34개 주를 동시에 다뤄야 한다. 한국처럼 "전국 1,000명"으로 끝나지 않는다. MRP(다층 회귀 사후층화) 같은 소지역 추정 기법이 미국 선거조사에서 그토록 중요해진 이유, Focaldata나 YouGov가 자기 강점으로 내세우는 능력이 결국 소지역 추정인 이유가 여기에 있다. 분석 단위의 다층성이 방법론의 다층성을 강제한다.

셋째, TCPA와 응답률 붕괴와 STIR/SHAKEN의 3중 펀치

이 부분은 구조적으로 보면 "전화 조사의 사형 선고"가 30년에 걸쳐 천천히 집행된 과정이다. 1991년 TCPA로 autodialer가 막히고, 2000년대 휴대폰 전환으로 유선 RDD가 붕괴하고, 2010년대에 응답률이 1% 아래로 내려가고, 2020년대에 STIR/SHAKEN으로 발신번호가 "Scam Likely"로 표시되기 시작했다. 각 단계마다 조사 기관들은 살아남기 위해 새 방법을 찾아냈고, 폐기된 방법은 거의 없이 누적되었다. 그래서 지금 live caller(NYT/Siena), ABS 우편 초대(AP-NORC), voter file matched online(Verasight), opt-in online panel(YouGov), 그리고 ad-tech 기반 RDR(Atlas)이 동시에 공존하는 희한한 지층이 형성된 것이다.

넷째, 규제 기관이 없으니 표준도 없다

한국에는 중앙선거여론조사심의위원회가 있다. 문항, 가중치 변수, 공표 기준까지 관장한다. 외부에서 보면 답답할 수 있지만, 이것이 조사 시장 전체의 하한선을 만들어준다. "최소한 이 정도는 지켜야 공표할 수 있다"는 것이 존재한다는 사실 자체가 시장 신뢰의 인프라다. 미국에는 그런 것이 없다. AAPOR은 협회이지 규제 기관이 아니고, Transparency Initiative도 자발적 가입이다. 그래서 방법론은 표준화가 아니라 차별화의 방향으로 진화한다. 각 기관이 "우리만의 모델"을 내세워야 언론사 계약을 따낼 수 있기 때문이다. 다양성은 그 부산물이다.

다섯째, 2016과 2020의 트라우마

2016년 위스콘신·미시간·펜실베이니아를 놓친 충격, 2020년 전국 지지율을 2~3%p씩 덜 잡은 충격. 이 두 번의 실패가 일종의 methodological arms race를 촉발했다. 원인 진단이 두 갈래로 나뉘었는데, 하나는 학력 가중치 누락(대졸자가 조사에 더 잘 응답하는 편향)이었고, 다른 하나는 differential non-response(특정 성향 유권자가 조사 자체를 거부하는 현상)였다. 이후 학력 가중치는 표준이 되었고, recalled vote weighting(직전 대선 투표 회상으로 표본을 보정)도 사실상 표준이 되었다. 그리고 기관마다 "우리는 이 부분을 더 정교하게 한다"고 주장하면서 차별화 압력은 한층 강해졌다.

그래서 한국 조사는 단조로운가

여기까지 보면 한국 조사 환경이 단조로워 보이는 것이 어떤 의미인지 다시 생각하게 된다. 한국 시스템은 사실 한 가지 굉장한 자산 위에 서 있다. 신뢰할 만한 전국 단위 프레임을 국가가 공공재로 제공한다는 것. 미국 조사자들이 평생 갖고 싶어 하는 그것이 우리에게는 그냥 있다. 안심번호는 단순히 편한 도구가 아니라, 통신사 가입자 데이터베이스라는 거의 완벽에 가까운 sampling frame에 합법적 접근권을 부여한 제도다. 미국이 voter file 회사 세 곳이 50개 주를 짜깁기해서 만드는 것을, 한국 조사자는 출발선에서 이미 갖고 시작한다.

NESDC의 규제도 마찬가지다. 외부에서는 답답해 보일 수 있지만, 시장 전체의 신뢰 하한선을 끌어올리는 인프라 역할을 분명히 한다. 미국이 전혀 갖지 못한 자산이다.

한국 조사가 단조로워 보이는 것은 방법론이 빈약해서가 아니라, 안정적인 인프라 위에서 변동 요인을 줄일 수 있기 때문이다. 미국식 다양성은 자랑이 아니라 어떤 면에서는 상처의 흔적이다. 과학을 빌려온 수준이 아니라, 기댈 곳이 없어서 떠밀려 과학을 발명해야 했던 케이스에 가깝다.

다만 우리가 안고 있는 도전은 다른 종류다

물론 한국 조사도 위기 없는 시스템은 아니다. 다만 그 위기가 미국과 같은 종류가 아니라는 점이 중요하다. 미국은 "프레임이 없어서 발명해야 한다"의 문제이고, 한국은 "프레임은 좋은데 그 위에서 잡히는 사람이 점점 편중된다"의 문제다. ARS 응답률 2~3%, 60대 이상 고관여층 과대표집, 그것을 가중치로 강제 보정하면서 발생하는 표본 불안정성. 이것은 안심번호가 해결해주는 종류의 문제가 아니다.

그래서 한국 조사가 다음 단계로 가려면 미국 방법론을 베끼는 것이 답이 아니다. 한국 인프라의 강점은 유지하면서 그 위에 무엇을 하나 더 올릴 것인가를 고민해야 한다. 한국형 master address file 논의도, 확률 기반 패널의 가능성도, 결국 같은 방향의 사고다.

비교는 항상 위험하다. 두 시스템을 놓고 "누가 더 잘하나"를 묻는 것은 게으른 질문이다. 더 나은 질문은 "각자 무엇을 다음 과제로 안고 있는가" 다. 미국이 화려해 보이는 것은 그만큼 기본기가 부서져 있기 때문이고, 한국이 단조로워 보이는 것은 그만큼 기본기가 단단하기 때문이다. 두 시스템은 같은 사다리의 위아래 칸이 아니라, 다른 제약 조건에 대한 다른 해법이다.

2026년 4월 7일 화요일

한국은 정말 '패널조사 강국'인가?

한국은 정말 '패널조사 강국'인가 — 나라장터 100건이 보여주는 착시

들어가며

최근 나라장터에서 '패널조사' 키워드로 최근 개찰 결과 100건을 훑어볼 일이 있었다. 1년 남짓한 기간에 쏟아진 공고만 나열해도 한국노동패널, 고령화연구패널, 청년패널2021, 여성가족패널, 한국아동·청소년패널, 장애인고용패널, 장애인삶패널, 산재보험패널, 재정패널, 국민노후보장패널, 여성관리자패널, 사업체패널, 한국미디어패널, 교육고용패널, 인적자본기업패널, 경북·대구·전남 교육종단연구, 서울·부산·인천·대구·경기 소상공인 패널, 농어촌기본소득 가구패널, 에너지바우처 패널, 가구에너지패널, 서울·부산 청년패널, 대안교육기관 패널, 한국장학패널, 난민인정자 체류실태 패널, 공상공무원 패널, 어르신 일과 삶 패널, 청소년건강패널까지 족히 40종이 넘는다.

이 목록을 보고 많은 이들이 "한국이 다른 선진국에 비해 종단조사가 탁월하게 많다"고 말한다. 정책 담당자도, 연구자도, 학회 발표에서도 심심찮게 듣는 이야기다. 그런데 이 통념은 절반만 맞다. 오늘은 이 절반의 진실과 절반의 착시를 해부해 보려 한다.

1. "선진국보다 많다"는 통념은 국제비교에 취약하다

국가 간 종단조사 인프라를 비교할 때 흔히 인용되는 것이 CPF(Comparative Panel File) 프로젝트다. CPF는 "세계에서 가장 규모가 크고 오래된 가구 패널"로 7개국을 묶는데, 미국(PSID), 독일(SOEP), 영국(BHPS/UKHLS), 호주(HILDA), 스위스(SHP), 러시아(RLMS), 그리고 한국(KLIPS)이다. 한국은 이 그룹의 '특이하게 많은' 국가가 아니라 '그 그룹의 일원'이다.

개별 국가 내부를 들여다보면 그림은 오히려 반대에 가깝다.

미국: PSID(1968~)라는 세계 최장수 패널 위에 HRS(고령), NLSY(청년 코호트 여럿), Add Health, SIPP, ECLS(출생 코호트)가 층층이 쌓여 있다.
영국: UKHLS(구 BHPS)를 중심축으로 ELSA(고령), Millennium Cohort Study(2000년생), Next Steps, 1958·1970 Birth Cohort 같은 출생코호트가 수십 년을 따라간다.
독일: SOEP 외에 NEPS(교육 종단), pairfam(가족·관계), SHARE 참여까지 주제별 장기 패널이 탄탄하다.

특히 출생코호트 연구에서 한국은 오히려 뒤처진 편이다. 영국이 1946·1958·1970·2000년 네 차례 전국 출생코호트를 구축한 것과 같은 층위의 인프라를 한국은 갖고 있지 않다. "한국이 패널 강국"이라는 통념은, 공고 건수와 인프라의 두께를 구분하지 않았기 때문에 생긴 착시다.

2. 그럼 한국의 진짜 특징은 무엇인가

그렇다고 나라장터 100건의 존재감이 허상이라는 얘기는 아니다. 한국 패널 풍경에는 분명히 국제적으로 드문 특징이 있다. 다만 그 특징은 "많다"가 아니라 다음 세 가지다.

첫째, 주제·하위집단별 세분화가 극단적이다. 선진국은 대형 범용 패널 하나에 부가 모듈과 부스트 샘플로 해결하는 일을, 한국은 별도 패널을 신규 구축하는 방식으로 푼다. 청년만 해도 고용정보원 청년패널, 서울청년패널, 부산청년패널이 각자 표본을 뽑고 각자 추적한다. 교육종단은 KELS 위에 경북·대구·전남·서울이 시·도 교육청 단위로 별도 연구를 돌린다. 여성 관련 패널은 여가부 여성가족패널, 여성정책연구원 여성관리자패널, 저출생 대응 가족패널이 겹치는 영역을 각자 다룬다. UKHLS라면 ethnic minority boost 한 줄로 끝낼 일을, 한국은 예닐곱 개의 독립 패널로 쪼개 푸는 셈이다.

둘째, 국가 발주–외주 실사 구조가 고도로 제도화돼 있다. 나라장터 공고 → 일반경쟁·제한경쟁 → 실사업체 낙찰이라는 루틴이 선진국과 비교하면 이례적으로 촘촘하다. 독일 SOEP는 DIW가 Kantar와 장기계약으로 돌리고, 미국 PSID는 미시간대 ISR이 자체 수행한다. 매년 수십 건의 패널 실사가 공개입찰로 쏟아지는 조달시장은 한국의 상당히 독특한 풍경이다.

셋째, 패널 간 연계·통합보다 신규 구축이 반복된다. 같은 모집단을 대상으로 변수 표준화와 데이터 연계를 시도하기보다, 새 수요가 뜰 때마다 새 패널을 띄우는 경로 의존성이 강하다.

3. 왜 이렇게 되었나 — 저단가 대면면접이 깔아놓은 멍석

이 구조가 지속 가능했던 물리적 이유는 단순하다. 한국의 대면면접(F2F) 조사 단가가 싸기 때문이다.

미국 F2F 패널은 완료 케이스 1건당 실사비만 USD 300~500선, 추적 난이도가 높으면 USD 700 이상이 예사다. 독일 SOEP나 영국 UKHLS도 Kantar·NatCen 기준으로 완료 1건당 수백 유로를 잡는다. 반면 한국에서는 일반 성인 대상 CAPI 대면이 완료 1건당 5만~15만 원대, 추적 난이도 높은 장기패널도 20만~30만 원선에서 발주되는 경우가 흔하다. 환율을 감안하지 않고 노임 기준만으로도 2~5배 차이가 난다.

이유는 여러 겹이다. 조사원 인건비가 낮고, 국토가 좁아 이동비 부담이 작으며, 인구 절반이 수도권에 몰려 있어 추적 비용이 적고, 프리랜서 조사원 풀이 두텁게 형성돼 있다. 이 모든 요인이 합쳐져 한국은 세계에서 가장 싸게 대면 종단조사를 굴릴 수 있는 나라가 되었다.

그런데 여기서 중요한 것은, 저단가는 필요조건이지 충분조건이 아니라는 점이다. 단가가 쌌기 때문에 부처별·지자체별로 독립 패널을 띄울 엄두가 났고, 단가가 SOEP 수준이었다면 재정당국이 절대 허락하지 않았을 분산 구축이 한국에서는 제도적으로 지속 가능해졌다. 거꾸로 이 분산 구조는 다시 조사 시장을 "저단가 × 고빈도 공공발주"로 평탄화시키며 피드백 루프를 만들었다. 두 요인은 서로를 강화한다.

4. 그래서 한국은 '중구난방'인가

러프하게 말하면 그렇다. 다만 '비효율'이라는 단어를 어느 층위에서 쓰느냐에 따라 평가가 갈린다.

개별 패널의 방법론 설계는 의외로 나쁘지 않다. KLIPS, KLoSA(고령화연구패널), 재정패널, 여성가족패널 정도는 국제적으로도 제법 평가받고 있고 CNEF·CPF에 편입돼 있다. 담당 국책연구기관의 방법론 역량 자체는 세계 수준에 근접해 있다.

진짜 약한 곳은 패널 생태계 전체를 조망하는 메타 설계 쪽이다. "대한민국이 향후 20년간 사회·경제를 관측하기 위해 어떤 종단 인프라를 어떤 층위로 구축할 것인가"를 그리는 국가 차원의 마스터플랜이 없다. 통계청이 아직 MAF(Master Address File)를 갖지 못한 것과 정확히 같은 계열의 공백이다. 각 부처·국책연구기관이 자기 예산과 성과지표 안에서 각자도생하고, 그 결과가 지금의 패널 풍경이다.

좀 더 구체적으로 말하면 — 패널 간 변수 표준화가 안 돼 있어 교차 분석이 어렵고, 행정데이터 연계 수준도 패널마다 들쭉날쭉이고, 표본 설계 철학(가구 vs 개인, 확률표집 vs 할당, 추적 규칙)도 제각각이다. 이 상태에서 "한국은 패널 강국"이라고 말하는 것은 항공편 수만 세고 허브공항이 없다는 사실을 말하지 않는 것과 비슷하다.

5. 그럼에도 일방적으로 깎아내릴 수는 없는 이유

중구난방 구조에도 긍정적 부산물은 있다. 부처·지자체별 독립 발주 구조 덕분에 정책 수요에 반응하는 속도가 빠르다. 난민인정자 체류실태 패널이 법무부 단독 판단으로 몇 달 만에 돌 수 있는 나라는 많지 않다. 조사업계에는 꾸준한 일감이 공급되고, 방법론 종사자 풀이 두텁게 유지된다. 영국식 대형 통합 패널은 우아하지만 경직된다 — 신규 하위집단 연구를 붙이려면 몇 년이 걸린다.

그러나 이 모델의 전제 조건들이 지금 흔들리고 있다. 조사원 고령화와 공급 축소, 응답률 하락, 대면조사 기피, 최저임금·4대보험 이슈로 실사 단가가 최근 몇 년 사이 빠르게 오르고 있다. 저단가 F2F라는 멍석이 낡고 있는 것이다. 그만큼 웹·모바일·혼합모드로 넘어가는 패널이 늘고 있고, 플랫폼 패널(카카오뱅크, SKT 등)을 활용한 하이브리드 설계도 확산 중이다.

결론 — 평가는 정확하게 하자

한 문장으로 정리하면 이렇다.

한국의 개별 패널 방법론은 중상위권이지만, 국가 종단 인프라로서의 아키텍처는 존재하지 않는다. 저단가 F2F 시장이 이 아키텍처 부재를 오랫동안 가려주는 완충재 역할을 해왔다.

"한국은 패널 강국"이라는 통념은, 정확히 말하면 "한국은 국가 발주 패널조사가 주제·하위집단별로 이례적으로 세분화·다발화되어 있고, 공공조달 시장으로 제도화된 정도가 선진국 대비 매우 높은 나라" 정도로 번역되어야 한다. 이걸 '강국'이라고 부르고 싶다면 그래도 좋다. 다만 그 강국은 허브공항 없이 지선 항공편만 많은 공항 시스템에 가깝다는 점은 짚고 가야 한다.

그리고 이 완충재가 벗겨지는 향후 5년, 한국의 패널 생태계가 지금의 분산 모델을 그대로 끌고 갈지, 아니면 뒤늦게라도 영국·독일식 통합 아키텍처로 수렴할지는 조사 방법론 종사자라면 꼭 지켜볼 만한 관전 포인트다. 개인적으로는 후자로 가야 한다고 생각하지만, 그러려면 각 기관의 예산과 성과지표부터 재설계해야 한다. 방법론 문제가 아니라 거버넌스 문제라는 뜻이다.

한국 서베이 방법론은 왜 1세대 조사회사가 이끌었나?

한국 서베이 방법론은 왜 1세대 조사회사가 이끌었나 — 학계·업계의 제한된 협업과 양방향 정보비대칭

부재한 학위, 부재한 노드

미국과 유럽 일부 국가에는 서베이 방법론(Survey Methodology) 자체를 하나의 학제로 세운 대학원 과정이 있다. 미시간의 MPSM, 메릴랜드의 JPSM, 네브래스카, 유럽의 GESIS, Essex, Utrecht 등이 대표적이다. 이들은 표집, 측정, 무응답, 가중, 총조사오차(TSE) 같은 주제를 독립된 커리큘럼으로 묶어 석·박사를 배출한다.

한국에는 이런 트랙이 사실상 없다. 통계학과에서 표본론의 일부를, 사회학·정치학·심리학과에서 설문 설계와 측정론의 일부를 분산해서 다룰 뿐이고, 스스로를 "서베이 방법론자"로 정체화한 교수는 손에 꼽을 정도다. 학위 과정이 없으니 후속 세대가 자랄 토양 자체가 빈약했고, 결국 학계가 비워둔 자리를 1세대 조사회사들 — 갤럽, 미디어리서치, TNS, 코리아리서치 등 — 이 실질적으로 메웠다. 한국 서베이 방법론의 형성 과정을 이야기할 때 학계가 아닌 업계를 먼저 호명해야 하는 이유다.

그 구도의 양면성

이 구도는 양면을 갖는다.

긍정적인 면은 분명하다. 현장에서 클라이언트 요구와 한국적 조건 — 주민등록 기반 표집틀의 부재, RDD에서 모바일로의 급격한 전환, 짧은 필드 기간, 선거 보도의 실시간성 압력 — 에 부딪히며 다듬어진 방법론이기에 매우 적응적이고 응용력이 강하다. SMS 표집틀, 안심번호, 통신사 패널, 셀가중 같은 한국 특유의 해법들은 학계가 주도했다면 오히려 나오기 어려웠을 가능성이 높다.

부정적인 면은 더 구조적이다. 첫째, 지식이 회사 내부의 암묵지로 축적되어 표준화·문서화·동료심사를 거치지 않는다. 그래서 회사가 바뀌면 같은 문제를 또 푸는 일이 반복된다. 둘째, 비판적 검증의 외부 장치가 부재하다. 미국이라면 AAPOR Standards나 학술지 리뷰가 거르는 것들이 한국에선 그냥 통용된다. 셋째, 후속 인력 양성이 도제식이라 확장성이 없다. 넷째, 1세대 회사들이 영업과 방법론을 동시에 짊어지면서 "팔리는 방법론"과 "맞는 방법론" 사이의 긴장을 내부적으로 해소해야 했고, 그게 늘 잘 되지는 않았다.

제한된 협업의 구조적 원인

학계와 업계의 협업이 제한적인 것은 단순한 인적 교류의 부족이 아니다. 몇 겹의 구조적 원인이 겹쳐 있다.

교수 입장에서 조사회사와의 협업은 학술적 인센티브 구조에 잘 맞지 않는다. SSCI급 저널에 실리려면 방법론적 혁신이나 이론적 기여가 필요한데, 조사회사가 가진 것은 대부분 프로프라이어터리 데이터와 현장 경험이고, 이를 논문화하려면 회사가 데이터를 열어줘야 한다. 그러나 회사는 클라이언트 비밀유지, 경쟁사 견제, 방법론 노하우 보호 때문에 쉽게 열지 못한다.

미국이라면 ANES, GSS, Pew처럼 공개를 전제로 설계된 대형 프로젝트들이 학계-업계 접점 역할을 한다. 한국에서는 KGSS나 한국종합사회조사 정도를 빼면 이런 공공재적 데이터 인프라 자체가 빈약하다. 협업의 매개물이 없는 것이다.

양방향 정보비대칭

여기서 핵심은 정보비대칭이 한 방향이 아니라는 점이다.

흔히 이야기되는 것은 "학계가 현장 데이터를 못 본다"는 비대칭이다. 이것도 물론 사실이다. 그러나 거꾸로 "현장이 최신 방법론 문헌을 못 읽는다"는 비대칭도 똑같이 존재한다. Total Survey Error 프레임워크의 최근 확장, responsive/adaptive design, MRP(Multilevel Regression with Poststratification), 비확률표본의 pseudo-weight 추정법, 머신러닝 기반 imputation 같은 것들은 Survey Methodology, JSSAM, POQ에 꾸준히 실리는데, 한국 현장에서 이를 실시간으로 따라가는 회사는 극소수다.

결과적으로 한국 조사회사의 방법론은 1990~2000년대 초반의 지식 위에 현장 적응물을 얹은 형태로 굳어지고, 학계는 학계대로 현장에서 이미 검증된 한국적 해법을 모른 채 교과서적 원론만 반복한다. 서로가 서로의 20년 전만 알고 있는 기묘한 비대칭이 만들어지는 것이다.

더 나쁜 것은 이 비대칭을 건설적으로 풀 공론장이 없다는 점이다. 학회 발표장에서 만나도 회사 실무자는 영업 가능성을 타진하러 오고, 교수는 제자 취업을 부탁하러 오는 식의 교환이 되기 쉽다. "이 가중 방법이 정당한가"를 놓고 대등하게 싸우는 자리가 되기는 어렵다.

노드의 부재

이 문제를 푸는 방식은 결국 중간자 역할을 하는 개인 혹은 기관의 존재 여부에 달려 있다고 본다. 미국의 경우 Mick Couper, Roger Tourangeau, Frauke Kreuter 같은 이들이 Michigan, Maryland, Mannheim을 오가며 학계와 Westat, NORC, RTI 같은 실무기관을 실제로 연결하는 노드 역할을 한다. 이들은 한쪽에 소속되어 있으면서도 다른 쪽의 언어와 문제의식을 동시에 구사할 수 있고, 그래서 데이터와 지식이 양방향으로 흐른다.

한국에는 이런 노드가 제도화되어 있지 않다. 있다면 대개 개인기에 의존한다. KSDC, 한국조사연구학회, 사회조사분석사 제도 등이 일부 공백을 메우려 시도하고는 있지만, 학회는 학문공동체라기보다 실무자 네트워크 성격이 강하고 자격증은 입문 수준에 머물러 있다. "학위 부재"라는 근본 문제를 대체하지는 못한다.

암묵지를 텍스트로

그래서 당분간 한국의 서베이 방법론에서 가장 시급한 일은 거창한 제도 개혁이 아니라, 1세대가 만든 암묵지를 2세대가 텍스트로 옮기는 작업이라고 생각한다. 문서화되지 않은 지식은 비판될 수 없고, 비판되지 않는 지식은 발전하지 않는다. 3세대가 그 위에서 싸울 수 있으려면 먼저 싸울 대상이 명시적 형태로 존재해야 한다.

학위가 없다는 것, 교수가 없다는 것, 협업이 제한적이라는 것 — 이 세 가지는 앞으로도 당분간 해결되지 않을 가능성이 높다. 그러나 그것이 곧 방법론의 공백을 의미하는 것은 아니다. 공백은 이미 1세대가 메웠다. 다만 그 지식이 회사의 캐비닛과 개별 연구자의 머릿속에 잠겨 있을 뿐이다. 이를 공적 언어로 끌어내는 일 — 이것이 학계와 업계의 비대칭을 장기적으로 해소할 수 있는, 개인이 시작할 수 있는 거의 유일한 경로가 아닐까 한다.

2026년 4월 5일 일요일

산소마스크를 단 전화조사?

산소마스크를 단 전화조사

좋은 인프라가 혁신을 지연시킬 때

한국 전화조사의 축복

한국의 공표용 선거여론조사 환경은 세계적으로 보기 드문 축복을 누리고 있다.

가상번호(안심번호) 제도는 이동통신사 가입자 전체에서 성별, 연령, 지역 기준으로 무작위 추출된 전화번호를 제공한다. 사실상 확률 표본에 가까운 표집틀을 국가가 만들어주는 것이다. 전화면접이든 ARS든 관계없이 이 번호를 받을 수 있고, 오토다이얼링으로 휴대전화에 자유롭게 발신할 수 있다. 법적 제약이 없다.

이것이 얼마나 특별한 환경인지는 미국과 비교하면 분명해진다.

미국에는 1991년에 제정된 TCPA(Telephone Consumer Protection Act)라는 법이 있다. 이 법은 사전 동의 없이 자동 다이얼러(autodialer)로 휴대전화에 전화를 거는 것을 금지한다. 여론조사도 예외가 아니다. 미국에서 휴대전화로 여론조사를 하려면, 면접원이 전화번호를 손으로 직접 눌러야 한다. 수백 명의 면접원이 물리적으로 번호를 찍는 것이다.

유선전화에서는 오토다이얼링이 가능했지만, 유선전화 보유 가구가 급감하면서 커버리지가 무너졌다. 휴대전화를 포함하려면 수동 다이얼링 비용을 감수해야 한다. 전화조사의 비용이 계속 올라가는 동안 웹조사의 비용은 계속 떨어졌고, 미국의 조사업계는 비확률 온라인 패널 중심으로 재편됐다. 확률 표본이라는 전화조사의 핵심 장점을 사실상 포기한 것이다.

한국은 이 딜레마가 없다. 오토다이얼링이 자유롭고, 가상번호가 확률 기반 표집틀을 제공하고, 소지역 타겟팅까지 가능하다. 미국이 비용과 법 때문에 포기한 것들을 한국은 다 갖고 있다. 전화조사를 하기에 이보다 좋은 환경은 세계 어디에도 없다.

그런데 전화를 안 받는다

문제는 전화를 받는 쪽에서 일어났다.

모르는 번호로 걸려오는 전화를 받는 것은 이미 일상적인 행위가 아니다. 젊은 층은 말할 것도 없고, 50~60대도 낯선 번호의 전화를 꺼리는 시대가 됐다. 통화라는 커뮤니케이션 방식 자체가 후퇴하고 있다. 카카오톡 메시지를 보내는 것이 자연스러운 사회에서, 녹음된 목소리가 질문을 읽어주고 버튼을 누르라고 하는 ARS는 물론, 사람이 직접 말을 거는 전화면접조차 어색한 접촉 방식이 되어가고 있다.

응답률은 이 변화를 숫자로 보여준다. 표집틀이 아무리 좋아도, 전화를 안 받으면 그 표집틀에 도달할 수 없다. 가상번호가 확률 기반으로 완벽하게 추출되어 있어도, 그 번호의 주인이 전화를 받지 않으면 비응답 편향이 발생한다. 인프라의 질과 무관하게, 전화라는 모드 자체의 수용성이 떨어지고 있는 것이다.

전화를 받는 사람들은 점점 더 특정한 부류로 좁혀진다. 시간 여유가 있는 사람, 조사에 관심이 있는 사람, 정치적으로 동기화된 사람. 표집틀은 모집단 전체를 대표하지만, 실제로 응답하는 사람은 모집단의 일부다. 그 일부가 전체를 대표한다고 보기는 점점 어려워지고 있다.

산소마스크의 역설

여기서 역설이 발생한다.

한국의 전화조사 인프라가 나빴다면, 전화조사는 진작 쇠퇴했을 것이다. 미국처럼 비용이 감당이 안 되고, 법적 제약에 부딪히고, 표집틀이 무너지면서 자연스럽게 다른 방법론으로 전환했을 것이다. 그 과정이 고통스럽더라도, 커뮤니케이션 환경의 변화에 맞는 조사 방법론을 일찍 찾았을 수도 있다.

그러나 한국의 인프라는 너무 좋았다. 가상번호는 계속 나왔고, 오토다이얼링은 계속 가능했고, 비용은 여전히 감당할 수 있는 수준이었다. 환자에게 산소마스크를 달아준 것과 같다. 환자가 살아 있는 것은 맞지만, 그것이 회복은 아니다. 산소마스크가 좋을수록 환자는 자가 호흡을 시도할 동기를 잃는다.

미국이 TCPA 때문에 일찍 전화를 포기하고 웹으로 넘어간 것이, 결과적으로는 커뮤니케이션 환경 변화에 먼저 적응한 셈이 됐다. 미국의 전환이 자발적이었다고 보기는 어렵다. 법이 강제한 측면이 크다. 그러나 결과적으로 미국 조사업계는 온라인 패널, 혼합모드, 주소 기반 표집(ABS) 등 대안적 방법론을 먼저 탐색하고 발전시켰다. 물론 비확률 표본이라는 새로운 문제를 안게 됐지만, 적어도 "전화를 안 받는 사회"에 대한 적응은 한국보다 먼저 시작됐다.

한국은 인프라가 좋았기 때문에 오히려 전환이 늦었다. 전화조사가 아직 돌아가니까 굳이 바꿀 이유를 느끼지 못한 것이다. 그 사이 사회의 커뮤니케이션 방식은 돌이킬 수 없이 바뀌었다.

산소마스크를 떼는 방법

전화조사의 산소마스크를 단번에 떼어낼 수는 없다. 당장 대체할 완벽한 방법이 없기 때문이다. 그러나 자가 호흡으로의 전환을 준비하는 것은 가능하다.

이동통신사 고객 대상 휴대전화웹조사(문자조사)는 그 전환의 한 경로다. 같은 가상번호 인프라를 사용하되, 전화를 거는 것이 아니라 문자를 보내는 것이다. 확률 기반 표집틀이라는 전화조사의 핵심 강점은 유지하면서, 접촉 방식만 현재의 커뮤니케이션 습관에 맞게 바꾸는 것이다.

문자는 전화와 다르다. 전화는 상대방의 시간을 즉시 점유한다. 지금 당장 받아야 하고, 지금 당장 답해야 한다. 문자는 수신자가 자신의 시간에 맞춰 열어볼 수 있다. 웹설문 링크를 받아 자신이 편한 시간에 응답하는 것은, 낯선 번호의 전화를 받아 녹음된 목소리에 버튼을 누르는 것보다 훨씬 자연스러운 행위다.

물론 문자조사에도 한계는 있다. 고연령층의 웹설문 완료율이 낮다는 것은 앞서 다른 글에서 다루었다. 그러나 이 한계는 고연령층의 디지털 리터러시가 시간이 지나면서 자연스럽게 향상되는 방향으로 해소될 가능성이 있다. 오늘의 60대는 10년 전의 60대보다 스마트폰에 익숙하다. 전화 응답률의 하락은 구조적이고 비가역적이지만, 웹설문 완료율의 상승은 세대 교체와 함께 점진적으로 일어나고 있다.

인프라를 살리는 것은 모드를 바꾸는 것이다

한국이 가진 가상번호 인프라는 진짜 자산이다. 확률 기반 표집틀을 국가가 제공하는 나라는 드물다. 이 인프라를 버릴 이유는 없다.

그러나 이 인프라 위에 올리는 접촉 방식은 바뀌어야 한다. 가상번호로 전화를 거는 시대에서, 가상번호로 문자를 보내는 시대로. 표집틀은 그대로 두고, 모드만 전환하는 것이다.

한국 조사업계가 20~30년 동안 전화면접이냐 ARS냐를 놓고 싸우는 사이, 정작 중요한 질문은 따로 있었다. 전화라는 모드 자체가 언제까지 유효한가. 그 질문에 답하는 것이 인프라의 가치를 지키는 길이다.

산소마스크를 달고 있는 동안 자가 호흡을 준비해야 한다. 마스크가 좋다고 영원히 의존할 수는 없다.

전화면접 대 ARS, 20년 전쟁의 전말

한국 여론조사 업계가 방법론 연구 대신 선택한 것

2014년 7월 14일, 한국조사협회(KORA)는 41개 회원사 명의로 결의문을 발표했다. "ARS 여론조사를 수행하지 않겠다." 나아가 언론에도 ARS 조사 결과를 보도하지 말 것을 권고했다. 비과학적이라는 이유였다.

9년 뒤인 2023년 10월, 한국조사협회는 다시 한번 같은 선언을 했다. 이번에는 34개 회원사 명의로 '정치선거 전화여론조사기준'을 제정하며, ARS를 "과학적인 조사 방법이 아닐 뿐만 아니라 통신 환경마저 훼손하는 바람직하지 않은 방식"이라고 규정했다.

같은 주장을 9년 만에 한 번 더 해야 했다는 것은, 2014년의 선언이 작동하지 않았다는 뜻이다.

ARS는 어떻게 한국 선거조사 시장을 장악했는가

ARS 조사기관은 1990년대 선거기획사에서 독립한 소규모 업체들로 시작했다. 2000년대 초반 5곳 안팎이던 것이 한때 70여 곳까지 폭발적으로 늘었다. 이유는 단순하다. 싸고 빠르다.

전화면접은 면접원을 고용하고, 교육하고, 관리해야 한다. 조사비는 크게 오르지 않는데 인건비는 계속 올랐다. ARS는 녹음된 음성과 자동 발신 장비만 있으면 된다. 노트북 한 대로 30㎡ 오피스텔에서 운영할 수 있다. 전화면접 대비 비용이 3분의 1에서 4분의 1 수준이다.

정치권은 이 가격에 반응했다. 후보자 개인이, 소규모 정당이, 인터넷 언론사가 여론조사를 의뢰할 수 있게 됐다. 2022년 지방선거 기준, 전체 여론조사의 77.7%가 ARS였다. ARS가 시장을 장악한 것이 아니라, 시장이 ARS를 선택한 것이다.

"미국에서도 퇴출된 방식" — 그 비교는 정확한가

한국조사협회와 학계가 ARS를 비판할 때 자주 동원한 레퍼런스가 있다. "미국에서도 ARS(IVR)는 퇴출됐다"는 것이다. 사실 관계만 놓고 보면 틀린 말은 아니다. 미국에서 IVR 여론조사는 사실상 소멸했다. 그러나 퇴출의 이유가 다르다.

미국에는 1991년에 제정된 TCPA(Telephone Consumer Protection Act)라는 법이 있다. 이 법은 사전 동의 없이 휴대전화에 자동 다이얼러(autodialer)로 전화를 거는 것을 금지한다. 여론조사도 예외가 아니다. 면접원이 휴대전화에 전화를 걸려면 번호를 일일이 손으로 눌러야 한다. 자동 발신이 허용되는 건 유선전화뿐이다.

미국의 IVR 조사기관들은 유선전화에서만 자동 발신으로 조사를 돌릴 수 있었다. 유선전화 보급률이 급감하면서 커버리지가 무너졌고, IVR은 자연스럽게 퇴조했다. Rasmussen Reports 같은 대표적 IVR 업체는 유선전화 IVR에 온라인 패널을 결합하는 하이브리드 방식으로 전환했다.

한국은 상황이 완전히 다르다. 한국에서는 공표용 여론조사로 등록하면 전화면접이든 ARS든 관계없이 가상번호를 제공받을 수 있고, 자동 다이얼링으로 휴대전화에 얼마든지 발신할 수 있다. 법적 제약이 없다. 따라서 미국에서 IVR이 퇴출된 구조적 원인 — 휴대전화 자동 발신 금지로 인한 커버리지 붕괴 — 이 한국에는 존재하지 않는다.

"미국에서도 퇴출됐다"는 말은 사실이지만, 퇴출 사유가 다른 두 나라를 하나의 결론으로 묶는 것은 정확한 비교가 아니다.

규제가 인증이 되는 역설

한국조사협회가 ARS를 퇴출하려 했던 시기에, 한국의 제도 환경은 오히려 ARS를 공인하는 방향으로 움직였다.

중앙선거여론조사심의위원회(여심위)가 만들어지고, 여론조사기관 등록 체계가 정비됐다. ARS 조사기관도 여심위에 등록할 수 있었다. 가상번호(안심번호) 제도가 도입됐을 때, ARS 기관도 동일하게 가상번호를 발급받을 수 있었다. 등록하고, 번호를 받고, 조사 결과를 공표하는 절차에서 전화면접과 ARS 사이에 제도적 차별은 없었다.

ARS를 비과학적이라고 선언한 것은 한국조사협회였지만, 제도는 ARS를 과학적 여론조사와 동일한 자격으로 인정했다. 규제 체계가 의도치 않게 ARS에 정당성을 부여한 것이다. 퇴출하려 했는데 인증이 된 셈이다.

20년 동안 놓친 것들

내가 이 글에서 말하고 싶은 것은 ARS가 좋다거나 나쁘다는 판단이 아니다. ARS에는 분명한 한계가 있다. 응답자의 성별과 연령을 확인할 수 없고, 응답률이 낮아 정치 고관여층이 과대 대표되며, 문항 수와 질문 방식에 제약이 크다. 자동응답이라는 조사 방식의 구조적 특성에서 오는 문제들이고, 이것은 부정하기 어렵다.

그러나 한국 조사업계를 대표하는 기관이 20~30년의 시간을 이 싸움에 집중한 것은 다른 문제다.

그 시간 동안 세계 조사업계에서는 많은 일이 벌어졌다. 온라인 패널 조사가 주류로 올라섰다. 모바일웹 조사가 등장했다. 혼합모드(mixed-mode) 설계가 표준이 되어갔다. 비확률 표본의 보정 방법론이 발전했다. 응답률 하락이라는 전 세계적 현상에 대한 대응 연구가 쏟아졌다. 그리고 지금은 합성 응답자(synthetic respondent)까지 논의되고 있다.

한국조사협회가 ARS 퇴출에 에너지를 쏟는 동안, 이 방법론적 변화들에 대한 업계 차원의 체계적 연구와 대응은 상대적으로 부족했다. 전화면접이라는 기존 방식을 지키기 위해 ARS라는 적을 만드는 데 집중했지, 전화면접 자체의 한계를 인정하고 대안적 방법론을 탐색하는 데는 같은 수준의 열정을 보이지 않았다.

전화면접도 응답률이 하락하고 있다. 전화면접도 정치 고관여층 편향에서 자유롭지 않다. 전화면접도 젊은 층에 대한 접근성이 떨어진다. 이것은 ARS의 문제가 아니라 전화조사 전체의 구조적 문제다. ARS를 없앤다고 해결되는 문제가 아니었다.