죽어가던 소셜 빅데이터 분석, AI는 어떻게 살려냈는가?
서론: ‘언급량’과 ‘감성점수’의 시대, 그리고 그 한계 2010년대 초반, 트위터와 페이스북을 필두로 소셜 미디어가 폭발적으로 성장하며 ‘소셜 빅데이터’는 마케팅과 여론 분석의 새로운 성배처럼 여겨졌습니다. 기업과 기관들은 ‘소셜 리스닝’ 툴을 도입하여, 온라인상에서 자신들의 브랜드나 정책이 얼마나, 그리고 어떻게 언급되는지를 실시간으로 추적하기 시작했습니다. 매일 아침 보고서에는 언급량, 연관 키워드, 그리고 긍정/부정 감성 점수가 가득했습니다. 하지만 이 ‘1세대 소셜 빅데이터 분석’의 시대는 금세 한계에 부딪혔습니다. 수많은 데이터 속에서 건져 올린 것은 “지난주보다 언급량이 15% 늘었고, 긍정 비율이 3%p 상승했다”는 식의 피상적인 결과뿐이었습니다. 이러한 결과는 “그래서 우리는 무엇을 해야 하는가?”라는 핵심적인 질문에 답을 주지 못했습니다. 결국 소셜 빅데이터 분석은 ‘있어 보이지만, 실질적인 도움이 되지는 않는’ 계륵과 같은 존재로 여겨지며 점차 그 열기가 식어가고 있었습니다. 1. 우리는 왜 소셜 빅데이터에 피로해졌는가?: 얕은 분석의 딜레마 1세대 소셜 빅데이터 분석이 외면받기 시작한 이유는 명확합니다. 이는 **‘의미’가 아닌 ‘빈도’**에만 집중한, 얕은 분석의 근본적인 딜레마 때문이었습니다. 맥락 없는 감성 분석의 오류 : 초기의 감성 분석은 단순히 ‘좋다, 최고, 추천’과 같은 긍정 단어와 ‘나쁘다, 최악, 불만’과 같은 부정 단어의 개수를 세는 방식에 의존했습니다. 이는 한국어의 복잡한 뉘앙스를 전혀 이해하지 못했습니다. 예를 들어, “이번 신제품, 디자인은 예쁜데 가격이 너무 사악하네”라는 문장은 ‘예쁘다’와 ‘사악하다’ 때문에 긍정과 부정이 상쇄되어 ‘중립’으로 분류되거나, “서비스가 너무 좋아서 미쳤다”는 극찬은 ‘미쳤다’는 단어 때문에 ‘부정’으로 오인되기 일쑤였습니다. ‘소음’과 ‘신호’의 구분 실패 : 수많은 데이터 속에는 실제 소비자의 목소리뿐만 아니라, 광고성 게시물, 어뷰징, 봇(bot)이 생성한 무의미...