Blair  - Soul Eater [패스트캠퍼스] 데이터분석 12기 SQL프로젝트 후기

• 패스트캠퍼스 데이터분석 부트캠프 12기

[패스트캠퍼스] 데이터분석 12기 SQL프로젝트 후기

oujin 2024. 2. 26. 02:16
728x90

 

 


 

24.02.06 ~ 24.02.23 동안 진행된 sql 프로젝트에 관한 회고록을 작성해 보려고 합니다:)

기억이 날아가기 전에 후다닥 꼼꼼하게 적어보려합니다~!


0. 목차

1. 데이터셋 설명 + 프로젝트 진행과정

2. 주제 +팀구성 + 전반적인 흐름

3. 분석과정

4. 결과물

5. 프로젝트를 통해 깨닫고 극복한점, 배운점 등 

 


1. 데이터셋 설명 + 프로젝트 진행과정 + 팀구성

▷ 데이터셋 : Marketing Funnel by Olist

https://www.kaggle.com/datasets/olistbr/marketing-funnel-olist

 

Marketing Funnel by Olist

8k leads, closed deals and connection to 100k orders

www.kaggle.com

케글에 올라온 올리스트라는 브라질 이커머스 회사의 마케팅 데이터 입니다.

여러 특징이 있지만 큰 문제는 데이터의 양이 매우적다는 것에 있습니다.

하지만 마케팅 데이터도 다루어 보고 싶었기 때문에 양이 적더라도 마케팅하는 관점에서 데이터를 분석해 볼 수 있는 기회는 흔치 않을 거라 생각해 해당 데이터를 지원하게 되었습니다.

 

해당 데이터셋 기반으로 마케팅 관점으로 분석할 수 있는 주제로는 크게 6가지가 있습니다.

1. 리드 분석: 올리스트라는 회사에 관심있어하고 판매가지 될 리드의 특징을 분석하고 어떤 리드를 대상으로 마케팅을 진행할지 분석하는 것
2. 전환 분석: 리드에서 판매자가 되기까지의 전환율을 리드 유형, 리드 행동 프로필, 거래 체결까지 걸리는 시간 등과 연관하여 분석 하는것
3. 시간 분석: 단순히 관심있어하는 mql에서 판매자가 되기까지 걸리는 계약체결기간에 대해서 분석하기
4. 계약 성과 분석: 어떤 영업사원(sr)이 가장 리드에서 판매자로 전환을 잘 시키는지 분석하기
5. 채널 효율성: 어떤 채널이 가장 리드를 유입시키는데 효율적인지 분석하기
6. 비즈니스 부문 분석: 가장 높은 리드에서 판매자로의 전환율을 가진 비즈니스 타입이 어떤지 분석하기

 

 

▷ 프로젝트 진행과정 / 팀구성 / 전반적인 흐름

프로젝트는 총 3차발표로 진행이 됩니다.

일정을 크게 보면 다음과 같습니다.

2.6 팀별 첫회의 및 발표준비 
2.7 1차 발표 (팀의 방향성 및 배경지식 공유)
2.9~2.12 설연휴
2.14 2차발표
2.16 줌에서 강사님 팀별 피드
2.19~2.22 sql 강의 및 프로젝트 최종 발표 준비 동시진행
2.23 프로젝트 최종 발표

 

저희조는 총 4명으로 구성되어 한분빼고는 마케팅에 대한 배경지식이 거의 없는 상태였습니다.

따라서 첫날 피어세션을 거치면서 서로에 대해 간단하게 알아간 뒤, 데이터에 대해서 바로 분석하기 시작했습니다.

분석에 바로 들어간 것이 아니라

b2b 마케팅이란 무엇이고, mql이란 무엇인지, 리드가 무엇이고 해당데이터에서 말하는 '전환' 이 무엇인지 등

마케팅에 대한 배경지식과 용어정리 , 비즈니스타입 이해와 올리스트라는 회사에 대한 이해 그리고 데이터의 각 컬럼이 의미하는 것 등을 먼저 알려고 하였습니다.

 

분석을 하려고 해서 위와 같은 것을 모른다면 다각도에서 깊이 있는 분석이 어려울 것이라는 생각이 당연히 들었고

원래 마케팅에 대한 배경지식이 많이 없엇던 터라 이부분에서 시간이 많이 소모된 것 같습니다.

하지만 나중에 생각해 보면 이때 시간을 많이 들여서 올리스트와 마케팅, 그리고 비즈니스타입에 대해서 많이 공부를 해두었기 때문에 주제와 방향성을 잡는데 많은 도움이 되었다고 생각합니다.

 

이후에 mysql workbench 를 사용하여 분석하면서, 데이터를 살펴보며 갖게되는 의문점과 문제점이라고 생각되는 부분에 대해서 서로 의견을 활발하게 나누었습니다.

 

저는 마케팅 데이터와 이커머스 데이터를 같이 살펴보던 중 유입된 mql에서 판매자로 전환된 셀러가 800명인데 

이 800명의 셀러가 물건판매에 모두 성공하지 않았고, 절반에도 못미치는 약 45%의 셀러만이 물건을 판매하는데 성공했다는 것을 알게 되었습니다.

따라서 이 점을 올리스트의 문제점이라고 판단하였고 이 부분을 보완할 수 있는 방법. 즉 해당 부분에 대한 인사이트를 얻고자 하는 것을 제안하였습니다.

 

이때가 거의 2차 발표 피드백 직후였으니 생각보다 데이터를 살펴보고 이해하는데 시간이 오래걸렸다고 볼 수 있습니다.

하지만 주제가 정해지고나니, 앞선 시간들을 거름 삼아 빠르게 분석을 할 수 있었습니다.

 

따라서 저희는 셀러로 전환이 되어도 실제판매까지 이어지는 셀러가 44.89%라는 것을 문제점으로 하고

판매까지 이어지는 셀러중에서 판매를 잘하는 굿셀러를 찾고, 그특징을 가진 mql(셀러가되기전의 리드)의 유입과 전환에 집중하는 것을 분석 목표로 하여 분석을 진행하였습니다.

 

이러한 흐름으로 최종 발표까지 진행 하였습니다.

 

프로젝트 진행에 대한 기록은 노션을 이용하였습니다


2. 주제

* 올리스트의 수익구조 : 판매자의 판매건당 수수료, 따라서 판매자가 물건을 비싼것 판매하는 것보다 여러개 판매하는 것이 올리스트의 수익 측면에서 더 좋다고 판단하고 분석을 진행함

 

유입이 된 mql (리드)이 셀러로 전환이 되는데 이러한 셀러들 중에서 굿셀러를 기준을 정해 선정하고, 특징을 분석한다. 해당 굿셀러의 특징을 가진 리드(mql)의 유입과 전환 증가를 위해 sr, 랜딩페이지, 유입경로 3가지 특성을 분석한다.

 

3. 분석과정

물건판매에 성공한 셀러의 상위 50%는 189명인데, 이 189명이 전체 판매건수의 90% 이상을 차지한다.

우리는 이 189명 중에서도 굿셀러를 선정할 것인데

리드행동유형, 리드타입, 비즈니스 타입 3가지를 고려하여 선정하려고 한다.

리드행동유형의 경우에는 총 판매건수가 캣 이글 샤크 울프 순이였으나

리드행동유형의 수로 나누어 1인당 평균판매건수를 보았을때 샤크 이글 캣 울프 순이였다.

그러나 샤크 유형은 굿셀러의 기준에서 제외를 하였는데 그 이유는 다음과 같습니다.

샤크가 일인당 평균 판매건수가 131건으로 압도적으로 높으나 셀러의 수가 3명으로 너무 적고 셀러별 판매건수의 격차도 너무 커서 유의미한 결론 도출이 어렵다고 생각했기 때문이다.

 

*피드백

더보기

두번째로 높은 이글과 세번째로 높은 캣을 선정하였는데, 하나가 아니라 두개를 선정한 이유에 대한 근거가 부족하다는 강사님의 피드백을 받았다.

 

리드 타입에서는 일인당 평균판매건수가 온라인스몰 온라인빅 온라인탑 온라인미듐 순서로 많았기 때문에 온라인 스몰과 온라인 빅을 굿셀러로 선정하였다.

 

*피드백

더보기

리드 행동 유형과 마찬가지고 온라인 스몰 하나만 선택하는 것이 아니라 온라인 빅까지 두개의 리드타입을 선정한 이유에 대한 근거가 부족하다는 피드백을 받았다.

비즈니스 타입에서는 일인당 평균 판매건수가 리셀러가 높아서 리셀러를 굿셀러의 특징으로 선정하였다.

따라서 선정된 굿셀러의 특징은 위와 같다.

 

이렇게 선정한 굿셀러의 영향력을 분석해 보려고 한다.

 

 

올리스트의 비즈니스모델을 통해 판단한 수익구조는 셀러의 물건 건당 판매수에 따른 수수료 부과방식이다.

따라서 굿셀러의 판매건수와 전체셀러의 판매건수 , 낫굿셀러(전체셀러-굿셀러)의 판매건수와 전체셀러의 판매건수를 각각 선형회귀를 통해 영향력을 분석해 보았고

그결과 굿셀러가 1개 팔때가 낫굿셀러가 1개 팔때보다 전체 판매수에 더 큰 기여를 한다는 것을 알 수 있었다.

따라서 굿셀러를 잘 선정 했다고도 볼 수 있고, 이러한 특징을 가진 셀러의 영입을 더 적극적으로 하면 올리스트의 수익에 도움이 될 것이 라는 판단을 할 수 있게 되었다.

 

 

이렇게 선정한 굿셀러 38명을 대상으로 이런 특징을 가진 mql의 유입과 전환에 집중하여 분석을 하고 증가시키기 위한 방법을 제안하려고 한다.

 

먼저 전환분석에서는 sr이 몇명의 리드를 전환시켰는지와 처음 유입이 된후 계약까지 걸린 평균기간을 계산하여 

전환시킨 리드수는 많을 수록, 계약까지 걸린 평균기간은 짧을 수록 나열하고 두값모두에서 중간값 안에 있는 영업사원(sr)을 선정하였다.

 

이렇게 세개의 슬라이드를 보면 캣,이글 / 온라인스몰,온라인빅 / 리셀러의 조합으로 이루어져 잇다.

여기서 이글 온라인스몰 리셀러의 조합은 셀러가 0명이라 제외하였다. 

해당 조합으로 sr을 보았을때 각각 sr을 선정하였다.

 

따라서 sr은 총 5명을 추천하게 되었다.

이 sr은 리드타입별로 또 전환수 별로, 그리고 조합별로 나누어 추천 할 수 있다.

 

다음으로는 유입경로별/랜딩페이지별 유입수에 관하여 분석한 내용이다.

굿셀러 38명이 어떤 유입경로로 많이 유입이 되었는지를 확인한다.

 

굿셀러 38명이 어떤 랜딩페이지로 많이 유입이 되었는지를 확인한다.

 

 

유입경로와 랜딩페이지를 교차하여 설명해보면

오가닉 서치와 페이드 서치를 통해 유입이 많이 되며

오가닉 서치에서는 22c2랜딩페이지로 많이 유입이 되나

페이드 서치에서는 굿셀러가 잘 유입이 되는 눈에띄는 랜딩페이지는 없다고 판단하였다.

 

* 피드백

더보기

강사님께서 페이드서치중에서 굿셀러에 특화된 랜딩페이지가 없다고 판단한 것까지는 좋으나, 개선이 필요하다고까지 말 할 필요는 없다고 하심.

4. 결과물

리드행동유형으로는 cat, eagle
리드타입으로는 online big, online small
비즈니스타입으로는  reseller
타입을 가진 셀러를 굿셀러라고 선정하였다.

그리고 위와 같은 타입을 가진 굿셀러를 효과적으로 유입시키고 전환시키기 위해서는
sr은 4ef1, d3d1, 2695, 85fc, c638
유입경로는 organic_search, paid_search
랜딩페이지는 22c2를 추천한다가 우리의 결론이자 인사이트 이다.

 

 

5. 프로젝트를 통해 깨닫고 극복한점, 배운점 등 

저는 이번 프로젝트를 진행하면서 데이터 분석을 할때 아무리 그럴것 같아 보이는 것도 당연히 여기고 넘어가는 것이 아니라 데이터내에서 수치로 확인 하여야 한다는 것을 알게되었습니다.

이 데이터 셋에서 어느 부분에서 그렇게 느꼈냐면, 저는 저희가 굿셀러라고 선정한  셀러들의 일별 유입수에 따라서 올리스트의 전체 판매건수에 영향을 줄 것이라고 판단하였지만 실제로 다항회귀를 통해 확인해보니 큰 상관성이 없다는 것을 알 수 있게 되었습니다.

이 경험을 통해 제가 그럴것 같다고 단순히 생각하는 것은 당연히 그렇게 되는 것이 아니며 데이터로 꼭 확인하고 검증하여야 하며, 모든 판단은 데이터를 보고 해야한다는 것을 다시한번 알 수 있었습니다.

 

즉 논리를 정하고 해당 논리의 근거를 찾아가는것이 아니라 데이터를 기반으로 논리를 정의해야 한다는 것을 다시 한번 배
울 수 있었던 프로젝트였다고 말하고 싶습니다. 또한 원하는 데이터를 추출하고 그 데이터로 팀원들과 여러 측면에서 이야기를 나누면서 데이터분석사고란 어떤것인지에 대해 많이 배울 수 있었습니다

 

저는 데이터를 보면 다양한 아이디어가 생각이 나서 한 주제에 대해서 깊게 파고들기보다, 생각이 여러 갈래로 나뉘어 이것도 분석해보고싶고, 저것도 분석해보고 싶은 마음이 자꾸 들어서 한가지 분석에 집중하기가 어려웠습니다. 

그래서 분석의 방향이 모호해 지려고 할때마다 팀원분들께서 저의 생각의 길을 바로잡아 주시고 팀의 방향성 또한 잃지 않게 다양한 피드백을 주셔서 저희 팀이 올곧게 올 수 있다고 생각합니다. 

저희팀은 제가 생각하기에도 의견을 굉장히 많이 나누고 스몰톡도 많이 했다고 생각하는데요

(저는 다른분의 퍼스널컬러 진단도 해드림)

스몰톡을 통해 팀의 분위기도 좋고 서로 친해지다 보니까 더욱 편하게 의견도 나눌 수 있엇던 것 같습니다.

이것뿐만 아니라 팀원 모두 서로의 의견에 대한 피드백을 할때 듣는 사람의 마음을 생각해서 조심스럽지만 분명하게 본인의 생각을 전달 할 줄 아는 소프트 스킬이 높은 분들이었기 때문에 원활한 회의가 되었다고도 생각합니다.

저도 이런 소프트 스킬을 배워야 겟다고 생각했습니다

 

 

프로젝트가 끝나고 서로 주고받는 덕담에 마음이 따뜻해졌습니다 :)

너무 좋은 팀원을 만나서 다양한 의견을 나누며, 데이터분석 사고 능력도 향상시킬 수 있었다고 생각합니다.

 

sql 강의 및 프로젝트에서 아쉬운 점:

1. sql 수업을 들을때 강사님이 문제를 푸는 시간을 주시고나서 강사님께서 문제풀이를 진행해주시는데, 강사님께서 문제푸는 시간이 너무 오래걸리는 것입니다ㅜㅜ

강사님께서 문제푸는 과정을 보여주시는 것은 너무 좋으나..! 강사님께서 문제 풀면서 틀리시고 다시 고치시고 하는 과정에서 조금 지루하다고 생갹했습니다.

차근차근 풀이과정을 보여주시면 좋을텐데 즉석에서 갑자기 문제를 막 푸는 느낌이 나서 문제를 설명해주시는 것이 아니라 그냥 강사님께서 문제를 푸는걸 보는 느낌이었습니다.

이렇게 느낀 이유중에는 강사님께서 문제를 풀면서 설명을 잘해주지 않으십니다. 그냥 강사님께서 문제풀고 끝인 느낌이라서 제가 못푼 문제에 대한 해답이 잘 되지 않았습니다. 

2. 그리고 강사님의 강의 전달력이 조금 아쉽다고 느꼈습니다. 말씀을 천천히 하시는 것은 수업을 듣는 학생이 이해하기에 좋으나, 말씀 사이에 음.. 아.. 과 같은 말을 자꾸 하셔서 말씀이 명확하게 받아들여지지 않았습니다.

3.그리고 수업 중간중간 강사님 주위에서 들리는 사람소음 및 말소리가 들려서 깜짝 놀랐습니다ㅜㅜ

4. 프로젝트 기간과 sql 온라인 강의 기간이 겹치는 것이 아쉬웟습니다. 

프로젝트 기간에 프로젝트를 하느라 온라인 강의 들을 시간이 없는데 하루에 필수록 들어야 하는 강의는 정해져 있어서 그냥 재생만 해놓고 프로젝트 분석을 하는 날들이 이어졌습니다.

결국 듣지는 못하고 플레이만 해놓는 것이 아깝다고 느껴졌습니다.

5. 프로젝트 발표가 3번인데 너무 많다고 느껴졌습니다. 2번째 발표는 줌으로 팀별 피드백이었다면 더 좋았을것 같다는 개인적인 생각이 들었습니다.

6. 프로젝트 첫날 피어세션을 하고 바로 다음날 첫번째 발표가 있는데 매우 촉박하다고 생각했습니다. 하지마 이거는 첫날 열심히 하면 어느정도 해결이 되기 때문에 나쁘지는 않다고 생각합니다..!

적고보니 아쉬운 점이 매우 많은데 저는 프로젝트에 전반적으로 아주 만족합니다:)

 

이상으로

Marketing Funnel by Olist 데이터셋을 활용한 데이터 분석 프로젝트 후기를 마치도록 하겠습니다.

궁금하신 부분이 있으시면 댓글 부탁드립니다! 

 

 


 

728x90