데이터 기반 인플루언서 모델 선정 프로젝트 후기

2019-08-23

1

데이터를 기반으로 의사결정을 하는 조직의 성공담을 우리는 익히 들어 알고 있다. 그런 이야기를 들으면 자연스레 뒷얘기가 궁금해진다. 그 조직은 어떤 시행착오를 겪었을까? 아주 처음에 내부 데이터를 체계적으로 관리하는 시스템조차 없었을 때 어떻게 시작할 수 있었을까? 산업공학과의 데이터마이닝 수업을 듣다가 힌트를 발견했다(산업공학과의 강좌들은 컴퓨터공학부의 수업에 비해 현실적인 비즈니스 상황과 액션 플랜에 초점을 둔다는 인상을 받았다). 교수님이 이런 말을 했다. 기업의 의사결정권자들한테 데이터를 근거로 하는 아이디어를 발표한다고 했을 때, 처음부터 블랙박스 모델을 쓰는 것은 지양해야한다고. 최대한 단순한 분석에서 시작하여 구성원 간 신뢰를 쌓은 후에 복잡한 모델을 사용해야한다고. 데이터 팀이 없는 화장품 브랜드의 모델을 선정하면서 그 과정을 직접 체험하게 됐다.

클라이언트는 아모레퍼시픽의 린스타트업으로 전체 멤버가 열 명이 채 되지 않는 화장품 브랜드였다. 그 열 명 중 데이터를 다루는 사람은 없었다. 그러다보니 내부 데이터랄 것도 없었다. 어딜 봐도 데이터 기반 의사결정이 싹트기 불리한 조건이었지만 단 하나, 조직원들이 데이터 분석에 우호적이었다. 특히 그들의 실험 정신이 인상 깊었다. 프로젝트를 하면서 주로 팀의 마케터들과 소통했는데 A/B 테스트와 그 결과에 기반한 고객 개인화에 대한 아이디어를 들을 수 있었다. 광고의 사소한 요소 하나까지 실험을 통해 결정하고, 고객을 세분화하여 랜딩 페이지 구성까지 결정한다는 계획이었다.

마케터들의 상상력을 실현 가능한 방향으로 이끄는 것은 데이터 분석가들의 역할이었다. 재밌는 아이디어들이 많이 나왔지만 데이터 분석으로 비즈니스 액션을 도출하는 첫 시도인 만큼 가장 직관적인 결과가 예상되는 주제를 골랐다. 내부 데이터가 없는 현 상황에서 범위가 지나치게 넓지 않고 참고할 만한 데이터가 있는지도 중요했다. 그렇게 브랜드의 차기 모델로 적합한 소셜 인플루언서를 데이터 분석을 통해 가려내보기로 했다. 그리고 프로젝트의 성격을 분명히 했다. 데이터 직군이 아니더라도 쉽게 검증할 수 있고 적용할 수 있는 데이터 리포트를 만들기로한 것이다. 그 동안 배운 화려한 모델들은 배제하기로 했다. 소박하더라도 투명하고 효과적인 결과를 내는 데에 집중했다. 데이터 팀이 없는 조직의 첫 발판이 되기를 바라면서.

아모레퍼시픽 사옥 곁다리지만 아모레퍼시픽 사옥은 정말 멋졌다...!

2

클라이언트는 팔로워들과 소통이 활발할 인플루언서 모델을 원했다. 그렇다면 그들의 채널에서 소통을 관찰하는 것이 가장 확실한 방법이었다. 기본적으로 브이로그, 먹방, 패션/뷰티 등 카테고리에서 20위 내로 드는 유튜버들을 후보로 하고, 이들의 유튜브 채널과 인스타그램 채널을 크롤링했다. 팔로워수, 댓글수처럼 인기의 척도가 되는 기본적인 수치뿐 아니라 게시 간격, 팔로워들의 댓글에 대한 답글 빈도 등을 확인하기 위함이었다. 최종적으로 우리는 인플루언서 개개인의 브랜드 모델로서의 적합성을 프로파일링하고자 했다.

크롤링 업무를 시작하자 플랫폼에 따라 유튜브팀과 인스타그램팀으로 나뉘었다. 나는 인스타그램팀을 택했다. 해시태그나 인물태그 등 분석을 시도해볼만한 부가적인 기능이 더 널리 사용되고 있고, 인플루언서 당사자 뿐만 아니라 팔로워들의 프로필까지 접근할 수 있다는 점에 매력을 느꼈기 때문이다. 하지만 부가 기능이 다양하다는 것은 크롤링 코드에서 하나하나 설정해야 할 영역이 늘어난다는 것을 뜻했고, 만 단위를 가뿐히 뛰어넘는 팔로워 규모에 크롤링 작업은 생각보다 오래 이어졌다. 데이터의 수집과 전처리가 시간의 80%를 차지한다고들 하지만, 무턱대고 크롤링이 완료되길 기다릴 수는 없는 노릇이었다.

다시 처음으로 돌아가 데이터의 우선순위를 논의했다. 원하는 데이터를 모두 수집한 후 그 안에서 여러 분석을 시도하는 것이 이상적인 시나리오겠지만, 데이터가 실제로 어떻게 펼쳐질 지 모르는 상황에서 최대한 합리적으로 분석의 범위를 제한하는 것도 분석 업무의 숙명인 것 같았다. 욕심을 자제하고 분석 목표에 비추어 정보의 중요도를 냉정하게 파악했다. 이 때 좋아요수 예측을 시도한 이 글을 참고했다. 이 글에서는 베이스 모델을 구축할 때 alias(사용자가 설정하는 유저네임), 바이오 등을 포함한 프로필과 게시글수, 팔로워수, 팔로잉수를 기본 정보라고 생각하고 수집한 뒤, 여기에서 변수들을 확장시켜나갔다. 우리는 여기에 더해 회사 측에서 요구한 커뮤니케이션 정도를 확인하기 위해 최근 10개 게시글과 그 댓글을 수집했으며, 타겟 고객 검토에 활용할 수 있도록 팔로워들의 프로필도 수집했다.

여전히 장벽은 존재했다. 예상치 못한 수많은 에러들을 처리해야 했다. 심지어 언제 업로드된 게시글인가에 따라 내부 html 구조가 달라지기도 했다. 그럴 때는 마지막이길 바라면서 try-except 문을 추가해나갔다. 팔로워들의 프로필을 수집하고자 하는 계획도 인플루언서들의 막대한 팔로워 수로 인해 일부를 랜덤 샘플링하는 방안으로 타협했다. 아주 가끔 html 구조는 우리 쪽에 좋은 방향으로 구성되어 있기도 했다. 댓글 내용까지 크롤링하게 된 연유가 여기에 있다. 인스타그램의 댓글수를 수집하기 위해서는 ‘댓글 더보기’ 버튼을 끝까지 클릭해야 하는데, 그러면 당연히 댓글의 내용도 나타난다. 원래 수집하려던 댓글 수를 수집하는 과정에서 추가적인 노력을 조금만 더 들이면 댓글의 작성자와 내용을 추가적으로 크롤링할 수 있다는 뜻이었다. 이렇게 기본적으로는 합의한 우선순위에 기반하여 크롤링 코드를 짜고 이슈가 생길 때 마다 공유하면서 크롤링 범위를 조정해나갔다. 실질적인 코딩 업무에 착수한 이후였기 때문에 탁상공론에 그치지 않고 시간과 노력의 투자량 및 실현 가능성을 동시에 고려하여 일을 진행해나갈 수 있었던 것 같다.

3

크롤링한 텍스트와 숫자들은 스스로 말하지 않는다. 분석 단계에는 이 숫자들에 목소리를 입히는 일이었다. 가장 눈에 먼저 들어오는 것은 팔로워수(유튜버의 경우 구독자수)다. 이 수치가 높다고 무조건 좋은 것은 아니다. 구독자수가 많을 수록 유튜버들의 계약 단가는 올라가기 마련이다. 이렇듯 하나의 숫자에도 해석할 수 있는 방향이 여러가지라는게 재밌었다. 우리 프로젝트의 예시를 하나 들어보자. 댓글을 작성한 계정이 다양하면 좋은 걸까? 다양한 사람들이 댓글을 단다는 것은 광범위한 사람들에게 소구할 수 있다는 것을 뜻한다. 반대로 다양하지 않다면 댓글의 수에 비해 댓글을 작성한 계정의 종류 수가 적다는 것을 뜻한다. 즉, 소수의 계정이 여러 번 댓글을 작성하는 경우인데, 이는 충성도가 높은 팔로워 집단이 존재한다는 뜻으로 해석할 수 있다. 우리는 댓글의 총 개수를 댓글을 단 유저들의 종류수로 나누어 id concentration으로 제시했다. 쉽게 말하자면 ‘한 사람 당 평균 몇 개의 댓글을 달고 있는가’를 나타낸다. 비즈니스 상황에 따라 id concentration을 어떻게 해석하는 방향은 달라진다. 브랜드를 처음 고객들한테 인지시키는 것이 목적이라면 보다 광범위한 고객에게 어필할 필요가 있으므로 다양한 사람과 소통하는 인플루언서가 적합할 수 있다. 반대로 특정 상품이 타겟층에 정확히 도달하여 구매까지 이끌어내는 것이 목적이라면 충성도가 높은 집단이 있는 인플루언서가 보다 효과적일 것이다.

텍스트는 풍부하게 수집했음에도 분석에 시간을 쏟지 못해 아직도 아쉬움이 많이 남는다. 전처리를 많이 필요로 하는 자연어의 특성 상 어쩔 수 없었다. 하지만 데이터를 정제하면서 댓글을 계속 읽다보니 간단한 지표를 하나 구상할 수 있었다. 인플루언서가 입고나온 옷, 방문한 카페, 머무는 숙소에 대해서 물어보는 댓글이 눈에 띄었던 것이다. 이렇게 자신의 소비를 염두에 두고 정보를 묻는 성격의 댓글들을 골라내보기로 했다. ‘어딘지 알려주세요’, ‘구매처가 어떻게 되나요’, ‘오늘 입으신 옷 정보 좀요’, ‘가방 어디껀지 궁금해요’ 등의 예시에서 볼 수 있는 ‘알려’, ‘구매’, ‘정보’, ‘궁금’를 포함하는 댓글들의 개수를 카운트했다. 이렇게 집계된 댓글이 그렇게 많지 않았기 때문에 하나하나 검토할 수 있었다. 한 게시글에 100개 이상의 키워드가 나타나서 확인한 결과 평소에 본인에게 궁금한 것이 있었다면 물어보라는 QnA 게시글이었다. QnA 게시글의 댓글을 제외하고 센 결과는 다음과 같았다. 아주 간단한 방법이라 반신반의했지만 실제 결과는 내가 구상한 ‘소비요정 지표’가 꽤 설득력 있음을 증명했다. 소비요정 지표 1위부터 3위까지가 모두 이미 소셜 셀링으로 팔로워들의 소비에 영향을 주고 있는 인플루언서였던 것이다. 골치 아픈 전처리와 임베딩을 거치지 않아도 룰베이스로 강력한 지표를 만들 수 있었다. 실제로 이 지표는 최종 피티 당시 ‘이 지표로 따로 사업할 생각 없냐’는 농담이 나올 정도였다.

소비요정 지표 소비요정 지표의 분포와 상위 득점 인플루언서. 모두 소셜셀링사업을 하고 있었다.

이렇게 팀원들 각자, 혹은 함께 생성한 2차 지표들이 꽤 쌓였다. 이 지표들이 열 개를 넘어가면서 한 눈에 파악할 수 있도록 돕는 체계를 부여할 필요를 느꼈다. 통계, 프로그래밍, 데이터에 대한 사전지식이 비교적 부족한 다른 직군을 상대로 하는 일이기 때문에 더욱 주의를 기울였다. 우리는 지표의 성격에 따라 대중성, 적합성, 영향력, 충성도, 소통/교류로 묶어서 제시했다. 후보 인플루언서는 이 다섯까지 분류에서 기록한 수치의 방사형 그래프로 한 눈에 나타낼 수 있었다. 또한 우리는 각 지표의 정의 뿐 아니라 실제 인플루언서를 예시로서 제시해서 이해를 도왔다.

4

최종 피티 당일에는 의뢰받은 브랜드의 직원뿐 아니라 아모레퍼시픽 신사업부의 이사까지 참석하는 큰 자리가 되었다. 우리 팀 리드가 발표를 했고, 추가적인 질의응답을 리드 혹은 관련 부분을 담당한 팀원들이 맡았다. 전반적으로 브랜드 모델 고용 비용과 효과를 설득력있게 수치화했다는 평을 들었다. 특히 유튜브팀의 커뮤니티 응집도나 내가 담당한 인스타그램팀의 소비요정 지표는 막대한 관심을 받았다. 상세한 계산 방법을 물어보며, 추후의 의사결정에도 참고하고 싶으니 관련 자료와 가이드라인을 제공해달라는 요청이 있었다. 300여명의 후보에서 선정된 열댓명의 최종 후보들은 내부 회의를 통해 2019년 하반기 A/B 테스트로 시험해 볼 예정이라고 한다.

종합해보자면 데이터팀이 없는 조직에 처음 데이터 분석을 도입하면서, 그들의 기대와 조율해 나가는 일이 쉽지 않았다. 처음에는 그들의 기대에 부응하기가 부담스럽고 실망할까봐 겁나는 것도 사실이었는데 이것은 안된다고, 혹은 이 방향으로 실행해볼 수 있다고 말하게 되었다. 마케터와 주로 교류했기에 그들의 아이디어 덕을 많이 봤다. 그들은 마케팅 현장, 여기서는 유튜브와 인스타그램의 현장성을 생생하게 그려냈고, 미처 생각하지 못했던 지점을 덕분에 분석에 포함시킬 수 있었다. 구독자의 충성도에 대해서도 알람 설정을 해 놓은 구독자들을 충성도 높은 구독자로 볼 수 있지 않냐는 의견도 나왔다. 이는 장기적으로 충성도 분류를 강화할 수 있는 새로운 지표로 사용할 만하다. 예를 들면 충성도가 높은 구독자는 알람을 설정해 놓고 업로드 후 몇 시간 내에 와서 시청할 확률이 높으므로 업로드 초반의 조회수 및 댓글수 추이를 트래킹 할 수 있는 크롤링 스케줄러를 만드는 것이다. 그렇기에 서로 다른 직군이라고 해도 최대한 우리가 하고 있는 일을 납득할 수 있게 설명해나가는 것이 중요한 것 같다.

개인적으로 아쉬움이 남는 부분은 아무래도 기간이다. 주제 선정부터 결과물 도출까지 한 달은 아무래도 짧은 기간이다. 클라이언트와 프로젝트의 범위를 조절하고 팀원들과 커뮤니케이션 관습을 확립해나가는 것까지 포함해서 한 달 안에 끝내야 했다. 데이터도 전무한 채 크롤링으로 시작해야하다보니 분석을 할 시간이 그렇게 많지 않았다. 소비요정지표와 커뮤니티 응집도와 같은 2차 지표를 시도해 볼 시간이 부족했던 것이다. 인플루언서와 브랜드가 어울리는 정도를 측정할 수 있는 지표들은 아이디어 단계에서 중단되고 말았다. 앞으로 인스타그램 인플루언서 분석을 하게 된다면 다음은 꼭 시도해보고 싶다.

호칭 정리

팔로워들이 인플루언서를 부르는 호칭은 다양하다. oo님이라든지, oo형이라든지. 경어를 사용하기도, 친근하게 반말을 하용하기도 한다. 이 호칭에서 인플루언서와 팔로워들의 관계를 엿볼 수 있을 것 같았다. 더 나아가, 이는 인플루언서의 이미지와도 연결되는데, 서로를 다소 험하게 대하며 친근감을 표시하는 유형인지, 다소 멀고 경외하는 이미지인지 알 수 있다.

서로 다른 호칭 출처: 프로게이머 류제홍 인스타그램(@ryujehong1), 유튜버 꽈뚜룹 인스타그램(@real_quaddrup)

이모지 임베딩

이제 이모지는 단순히 특수문자로 제외하고 지나갈 수 없을 만큼 텍스트 커뮤니케이션의 필수불가결한 요소가 되었다. 그래서인지 많은 아티클에서 이모지 임베딩을 시도하지만 임베딩을 한 후에 다른 자연어처럼 처리하는 것은 동일하다. 나는 여기에서 더 나아가 댓글의 자연어와 이모지를 활용해 리액션의 유형화를 시도해보고 싶다. 다른 자연어 없이 이모지만으로 구성된 댓글들이 인스타그램에서 특히 많이 나타난다는 점에서 착안했는데, 이들 댓글은 특정한 내용을 전달하기 보다는 ‘좋아요’의 연장선 상에서 인플루언서에 대한 애정을 표현하는 수단으로 읽어낼 수 있다. 이렇게 이모지는 자연어보다 리액션의 유형을 날카롭게 가를 수 있는 수단이며 응원과 지지/정보공유/2차 반응 유도(팔로워가 다른 팔로워 혹은 인플루언서의 관심을 촉구하기 위함) 등으로 댓글의 유형을 나눌 때 강력한 indicator가 될 수 있다.

사진의 분위기

인스타그램은 alt 태그를 통해 사진의 내용은 ‘사람 1명’, ‘풍경’ 처럼 단순한 형태로 제공한다. 하지만 인플루언서의 성격에 대해 더 강력하고 일관된 메시지를 주는 것은 사진의 분위기라고 생각한다. 간단하게 필터를 사용한 사진이 전체 게시글의 어느 정도를 차지하는지만 봐도 해당 인플루언서는 인스타그램 게시글을 신중하게 가공해서 올린다는 것을 알 수 있다.

팔로워 활동유형 분석

팔로워들의 목록을 랜덤샘플링이라도 해서 가지고 있던 것은 이를 시도하기 위해서였으나, 역시 시간적 한계로 실행하지 못했다. 팔로워들의 개인적 성향을 알기에는 해당 계정의 게시글이나 팔로잉 계정의 성격 등 추가적인 정보가 필요하므로 인스타그램 활동 유형을 분석하는 것까지는 계정의 기본정보로 시도해볼 만 하다. 본 프로젝트에서는 기본정보를 유령계정을 분류해내는 정도로만 활용했으나 팔로워/팔로잉 수의 비율을 활용해서 본인이 관심있는 정보를 받아보는 ‘구독계’인지, 게시물 수가 많고 팔로워와 팔로잉 비율이 비슷하여 친구들과 상호 교류하는 목적으로 활용되는 ‘친목계’인지 등을 구별해보는 것이다. 인스타그램 계정은 비공개 설정이 가능하므로 더 다양한 흥미로운 층위가 있을 것이다.