신세틱 공론조사를 한 번 해보면 어떨까
며칠째 신세틱 서베이로 이런저런 실험을 하고 있다. 전북도지사 선거 가상 조사 500명을 돌려보고, 같은 방식으로 전국 500명 정치 조사도 돌려봤다. 페르소나를 셀별로 추출하고 룰을 짜서 응답을 생성하는 일. 결과가 실제 여론조사 분포와 꽤 비슷하게 나오는 것까지 확인하니, 이 방법이 어디까지 쓸모 있는지 윤곽이 잡히는 듯하다.
그러다 전북 좌담회 참석자 선정질문지를 보다가 문득 들었다. 이걸로 FGI를 시뮬레이션해도 될까?
답은 명확하게 아니었다. FGI의 핵심은 8명이 한 공간에서 만들어내는 발화의 우연성과 상호작용인데, 합성 페르소나는 평균값으로 끌려가서 "어, 이 발언 의외인데?" 같은 통찰이 안 나온다. 진짜 FGI에서 가장 중요한 부분이 LLM 평균에 묻혀버린다.
그런데 거기서 한 발 더 가면 — 공론조사는 어떨까.
공론조사를 신세틱으로 옮긴다는 발상
피쉬킨(James Fishkin)이 정립한 공론조사(Deliberative Polling)는 단순한 여론조사가 아니다. T1에서 사전 의견을 측정하고, 참여자들에게 균형 잡힌 자료집을 제공하고, 전문가 패널과 소그룹 토론을 거친 뒤, T2에서 다시 측정한다. 정보를 받고 숙의(deliberation)를 거친 뒤 의견이 어떻게 변하는지 보는 방법이다.
한국에서도 신고리 5·6호기 공론화(2017), 대입제도 개편(2018) 같은 굵직한 사안에서 활용됐다. 다만 비용이 수십억대고 시간도 수개월이라 일상적으로 돌리기 어려운 도구다. 그러니 의제 하나당 한 번 정도가 한계다.
신세틱으로 옮기면 어떻게 될까. 일단 명백한 장점들이 있다.
실시간으로 돌릴 수 있다. 자료집 만들고 LLM에 주입하고 응답 받기까지 몇 시간이면 끝난다.
같은 사람을 추적할 수 있다. 실제 공론조사의 큰 골칫거리 중 하나가 패널 중도이탈이다. T1에 응답한 사람이 T2까지 안 남으면 비교가 깨진다. 합성 페르소나는 16번 부르든 1,600번 부르든 같은 사람으로 일관되게 응답한다.
자료집을 변형해서 비교할 수 있다. 같은 사실을 다른 프레이밍으로 제시했을 때 변화 차이는 어떤가. 찬성 측 자료를 먼저 보여줬을 때와 반대 측을 먼저 보여줬을 때 어떻게 다른가. 진짜 공론조사로는 절대 못 하는 A/B 비교가 가능하다.
셀별 민감도를 측정할 수 있다. 어떤 인구학적 셀이 정보에 더 잘 반응하는가. 50대 여성과 20대 남성이 같은 자료를 받았을 때 변화량이 다른가. 이건 정량 비교가 가능한 영역이다.
그런데 그냥 LLM에 자료를 던지면 안 된다 — RAG가 필요하다
여기까지만 보면 그럴듯한데, 막상 구현 단계로 들어가면 큰 함정이 있다. LLM 단독으로 응답을 생성하게 두면 자료집 외부의 사전학습 지식을 끌어와서 응답한다. 공론조사의 본질이 "주어진 자료를 받고 의견이 어떻게 변하는가"를 측정하는 건데, LLM이 자기 학습 데이터의 정보를 섞어버리면 측정 자체가 오염된다.
이걸 풀어주는 게 RAG(검색 증강 생성) 구조다. 페르소나에게 주입할 자료집을 외부 문서 컬렉션으로 따로 두고, 응답할 때 그 컬렉션에서만 검색해 근거로 쓰게 한다. LLM이 사전학습에서 끌어오는 노이즈를 줄이고, 자료집 내용에 정렬된 응답을 생성하게 강제한다.
이렇게 가면 신세틱 공론조사가 비로소 진짜 통제 가능한 실험이 된다.
자료 환경을 명시적으로 통제할 수 있다. 찬성만 든 컬렉션, 반대만 든 컬렉션, 균형 컬렉션을 따로 만들어두고 페르소나별로 다른 컬렉션을 붙인다. 같은 페르소나가 다른 정보 환경을 받았을 때 어떻게 다르게 반응하는지 깨끗하게 비교된다.
근거 추적이 된다. 페르소나가 어떤 응답을 했을 때 검색된 문서 인용이 함께 따라온다. "이 페르소나는 자료집의 어떤 부분에 가장 영향받았는가"를 사후에 분석할 수 있다. 진짜 공론조사 사후 분석에서도 어려운 부분이다.
시점을 고정할 수 있다. 자료 컬렉션의 시점을 고정하면 T1·T2·T3가 같은 정보 환경에서 측정된다. LLM 학습 데이터에 새 정보가 섞일 위험이 줄어든다.
그러면 진짜 deliberation은 모사할 수 있나
여기서 이 아이디어의 가장 어려운 지점에 부딪힌다. 공론조사의 핵심은 단순한 정보 노출이 아니라 숙의 — 다른 입장의 사람을 직접 만나 토론하면서 의견이 변하는 과정 — 이다. 피쉬킨의 연구에서 일관되게 나오는 발견 몇 가지를 떠올려보면:
- 사람들은 정보를 받으면 정책의 미묘한 차이를 더 잘 인지한다.
- 토론을 거치면 극단적 입장이 줄어든다.
- 다른 입장의 사람을 대면하면 상대 진영을 덜 적대적으로 본다.
이 중 LLM이 그럴듯하게 모사할 수 있는 건 첫 번째뿐이다. 두 번째와 세 번째는 인간 간 상호작용의 산물이라 합성으로는 거의 못 만든다. 그래서 신세틱 공론조사는 엄밀히 말하면 공론조사의 일부만 시뮬레이션하는 것이다 — 정보 노출 효과는 잡되, 진짜 deliberation은 못 잡는다.
다만 이 한계를 단점으로만 볼 필요는 없을 것 같다. 오히려 "자료집 효과와 토론 효과를 분리해서 측정할 수 있다"는 장점이 된다. 진짜 공론조사에서는 이 둘이 한 사이클 안에 묶여 있어 분리가 어려운데, 신세틱에서는 자료만 주입한 단계와 가상 토론 요약까지 주입한 단계를 따로 측정할 수 있다.
여기서 RAG가 한 번 더 일을 한다. T2 단계에서 페르소나가 자료집을 받은 뒤, 그룹 내 다른 페르소나의 발언을 요약 문서로 RAG 컬렉션에 추가한다. 그러면 페르소나는 자료집 + 동료 발언을 둘 다 검색해 응답을 생성한다. 한 라운드씩 돌리면서 발언을 누적시키면 일종의 비동기 토론 시뮬레이션이 된다. 물론 이건 진짜 토론이 아니다. 인간이 마주 보고 만드는 인터럽트·동조·감정 폭발은 못 만든다. 다만 "다른 입장의 발언을 정보로서 접한 뒤 의견이 변하는 부분"은 분리해서 측정할 수 있다.
가능한 설계
머릿속에서 그려보면 이런 그림이다.
| 단계 | 조작 (RAG 컬렉션 구성) | 측정 |
|---|---|---|
| T1 | 페르소나만 (자료 컬렉션 비움) | 사전 의견, 확신도, 찬반 비율 |
| T2a | 찬성 측 균형 자료 컬렉션 주입 | 자료1 받은 후 의견·확신도 변화량 |
| T2b | 반대 측 자료 추가 (양측 다) | 양면 정보 효과, 확신도 변화 |
| T2c | 동일 그룹 내 다른 페르소나 발언 요약을 컬렉션에 추가 | 동료 발언 노출 효과 |
| T3 | 일정 라운드 누적 후 | 최종 의견, 집단 수렴/양극화 |
흥미로운 건 측정 변수가 의견 자체만 있는 게 아니라는 점이다. 확신도 변화, 이슈 인지 정확도 변화, 의견은 그대로인데 근거만 바뀌는 패턴, 자료 비대칭에 대한 민감도, 검색-인용된 문서의 셀별 차이 같은 게 다 측정 대상이 된다. RAG 구조이기 때문에 마지막 변수가 새로 가능해진다 — "어떤 셀이 어떤 정보를 더 자주 끌어다 쓰는가"를 추적할 수 있다는 뜻이다.
그래서 뭐가 되나
당장은 아이디어 단계다. 다만 이게 단순한 호기심 이상으로 의미가 있을 것 같은 이유는, 한국에서는 공론조사 사례 자체가 적어서 이 방법론에 대한 누적된 실증 연구가 빈약하다는 점이다. 신세틱으로 같은 의제를 여러 번, 여러 변형으로 돌려보는 게 가능해지면, 적어도 자료 노출 효과의 셀별 차이 같은 건 정량적으로 잡을 수 있다.
물론 진짜 공론조사를 대체하는 게 아니다. 진짜 토론에서 나오는 인간 상호작용의 가치는 합성으로 안 잡히고, 그건 그것대로 인간이 모인 자리에서 해야 한다. 다만 진짜 공론조사를 설계하기 전 단계에서 "어떤 자료집 구성이, 어떤 그룹에게, 어떻게 영향을 줄 가능성이 큰가"를 미리 시뮬레이션해보는 사전 도구로는 의미가 있을 것 같다.
또 흥미로운 건, 이미 진행된 한국의 공론조사 사례(신고리, 대입개편 등)를 동일 자료집으로 신세틱에 돌려보고 결과를 비교하는 작업이다. 어디서 일치하고 어디서 갈라지는지 보면, 합성 데이터의 적용 한계 자체가 정량화된다.
신세틱 서베이가 정량 분포 시뮬레이션에서 어디까지 쓸모 있는지는 이번 주 작업으로 어느 정도 그림이 잡혔다. 그 다음 단계는 시점 간 변화 측정이고, 그 첫 후보가 RAG 기반 신세틱 공론조사일 것 같다.
조만간 한 번 돌려봐야겠다.
댓글 없음:
댓글 쓰기