데이터 잘 읽는 방법 - ② 기준의 중요성

조회수 2632

👉1편 소스의 중요성에 이은 데이터 잘 읽는 법 두 번째 콘텐츠입니다. 


마케팅 업무를 하다 보면 다른 회사, 다른 부서와 데이터를 주고받는 경우가 특히 많은데요.

데이터를 숫자로만 읽을 때는 한눈에 인사이트를 찾기 어려우므로 우리는 “데이터 시각화”를 하게 됩니다.

 

 

 📖 데이터 시각화(네이버 지식백과)

 데이터 시각화는 데이터 분석 결과를 쉽게 이해할 수 있도록 도표라는 시각적 수단을 통해 정보를 효과적으로 전달하는 것을 말한다


아래는 최근 10일간의 국내 코로나19 일 확진자 수 추이를 나타낸 표와 그래프입니다.



한눈에 봐도 오른쪽 그래프가 추이를 더 빠르게 해석하기에 좋은데요. 그래프가 주는 효과를 더 극대화하기 위해 작성자는 다양한 옵션을 넣기도 하는데, 이 옵션들을 하나하나 살펴보지 않으면 왜곡된 데이터 해석을 낳을 수 있습니다.




2편 : 기준의 중요성

데이터를 보실 때 주로 검은 영역을 위주로 보셨을 텐데, 데이터를 잘 보기 위해서는 흰 영역 (상하좌우)를 먼저 체크하는 것이 좋습니다.



“광고 라이브 후에 최적화 작업을 통해 광고 효율 극대화” 된 데이터입니다.

막대그래프만 보면 최근 데이터가 2개월 전보다 2~2.5배 가까이 클릭이 상승한 것 같은데요. 세로축의 최소 값이 높게 설정되어 축 기준을 보지 않으면 잘못된 해석을 낳을 수 있는 그래프이며, 최소 값을 0으로 설정하면 오른쪽과 같이 거의 변동이 없는 데이터입니다.



오른쪽의 그래프는 데이터를 사실적으로 표현할 수는 있지만 작은 변화의 알기는 어렵습니다. 그래프는 시각화한 작업자의 의도에 따라 변화무쌍하게 바뀌기 때문에 데이터를 읽는 사람이 기준을 참고하여 데이터를 해석해야 합니다.


한국은행에서 발표한 “예금취급기관의 가계대출” 데이터를 그래프로 표현했습니다.

세로축 기준을 다르게 할 때마다 동일한 데이터가 다르게 보이시죠? 그리고 하나 더, 수치의 단위가 너무 클 때는 단위를 넣어 수치를 축소하는데요. 이 부분도 간과해서는 안 됩니다. 단위까지 보지 않으면 100만 달성한 영상 조회 수를 1000으로 읽을 수도 있으니까요. 


! 데이터의 단위는 십억원입니다. 우리나라의 월 가계대출의 규모가 어느 정도 인지 가늠이 되시나요?



기준은 보조 축이 있을 때 더 유심히 봐야 합니다. 

자주 보시는 광고 효율 그래프입니다. 하단에 각 세로축의 기준까지 명시가 잘 되어있는데요. 조회 수는 조금 하락했지만 클릭은 오히려 상승한 것을 알 수 있습니다.



하지만, 40만 뷰 이상의 영상조회에서 400이 안되는 클릭은 클릭률이 0.07%밖에 되지 않은 적은 숫자로 바로 CTA (클릭유도문안)가 개선되어야 할 수치입니다. 그래프의 상승과 하락세만 보면 놓치게 되는 포인트이니 보조 축이 있을수록 기준을 더 유심히 보는 것이 좋습니다.



“나눌수록 좋은 것” 

바로 데이터죠. 데이터를 볼 때 가로축의 항목(기간, 성별, 연령 등)도 꼼꼼하게 확인해야 합니다.


부동산 앱의 설치자 연령별 비중을 분석했는데요. (👉참고 자료 : 인사이트 리포트 부동산)

가장 비중이 높은 연령대 (20~50대)만 보면 아래와 같습니다. 청약홈과 네이버 부동산은 30~50대 비중이 거의 흡사했고요. 다방은 20대, 직방은 30대의 비중이 높았습니다.



하지만 연령대를 더 나눠서 보니 다른 인사이트를 확인할 수 있었습니다. 30대 비중이 같지만 청약홈은 30대 초반의 비중이, 네이버 부동산은 30대 후반의 비중이 컸습니다. 다방과 직방의 주요 연령대는 20대와 30대가 아닌 25~34세로 확인되고요.



데이터 항목의 범위가 어떻게 되는지에 따라 보이는 인사이트와, 그에 따른 마케팅 방향은 크게 달라질 수 있습니다.



5월부터 8월까지의 “마사지건” 검색량 추이입니다. (출처 : 네이버 데이터랩, 검색어 트렌드)

월별로 봤을 때는 5월과 6월이 비슷하게 높은데요. 일별로 확인해보니 6월 21일에 최고 수치를 기록했습니다. 확인해보니 6월 21일, SBS 런닝맨의 마사지건 PPL 노출이 영향을 준 것으로 보입니다. 데이터를 나눠보니 어떤 이슈로 마케팅 효과를 누리게 되었는지 더 자세히 알 수 있게 되었습니다.



“지리학 전공자의 평균 초봉 2억9천만원”

미국 노스캐롤라이나 주립대에서 가장 높은 초봉을 받는 과는 IT 계열도, 금융계열도 아닌 지리학과라고 하는데요. 지리학과를 졸업한 마이클 조던의 첫 계약 연봉이 55만 달러로, 지리학과의 평균 초봉을 25만 달러 (한화 약 2억9천만원)로 높였습니다. (참고 기사 : 한국일보 – 농구황제 마이클 조던의 11가지 비밀, 2014-10-27)


아직 지리학과가 노스캐롤라이나에서 가장 평균 초봉이 높은 과인지는 알 수 없지만, 위 이야기의 핵심은 바로 “평균의 함정”입니다. 사실 평균 수치뿐 아니라, raw 데이터에서 어떤 데이터를 선택했는지에 따라 시각화의 결과는 달라지는데요. 이 함정에 빠지지 않으려면 봐야 할 것이 차트 제목입니다. 당연한 이야기이지만 의외로 많은 분이 유의 깊게 보지 않으시기도 합니다.


구글에서 검색한 전 세계 228개 나라의 코로나19 확진 수로 만든 그래프입니다.  (검색일 : 2020-9-22, 데이터 정보)



동일한 항목이지만 그래프에 차이는 있는데요. 왼쪽은 평균, 오른쪽은 전체 수입니다.  전체수, 평균, 상위 100, 평일, 주말, UN 회원국, OECD국… 등 작성자에 따라서 데이터를 다르게 선별할 수 있어 차트 제목을 통해 어떤 데이터인지 인지하고 그래프를 해석해야 합니다. 


그래프를 보면 평균은 중동이 높은데, 전체 확진 수는 유럽이 높습니다. 데이터에 포함된 유럽의 나라 수가 중동보다 2배 이상 많기 때문에 평균 수치가 낮아졌는데요. 데이터를 잘 보는 법! 이전 콘텐츠에서 다룬 모수와 분포 잊지 마세요. <참고 : 잘 읽는 방법 – 소스의 중요성>



 




무료 인사이트 리포트와 최신 마케팅 트렌드 자료를 받아보고 싶다면

다이티 뉴스레터를 구독해보세요!