취업 중급 오프라인 4조 fastcampus miniproject EDA Report

목차

  1. 분석 개요
  2. 분석 데이터
  3. EDA
  4. 활용방안

분석개요

분석 주제 및 배경


출처: 패스트캠퍼스

배경 2022년 기준 MZ(성인포함) 대상 교육 인터넷 강의가 증가추세임 -> MZ세대 경우 평생직장은 사라지지만 평생교육은 필요해짐 패스트캠퍼스의 경우 선두주자로 매출 증가하고 있지만 공급 시장 규모가 커짐에 따라 입지를 다지기 위해 고객군 데이터(raw data) 분석을 통해 마케팅팀, 콘텐츠 기획이 어떤 일을 추가로 해야하는 지 파악하고자 함

고객층 취업 준비·직무 교육, 기업고객·정부사업

주제 패스트 캠퍼스 수익성 분석을 통해 쿠폰 및 카테고리, 시간대별 구매 패턴을 파악하여 필요시 쿠폰 발행 및 강의 추가 개설

분석 방향

하위 카테고리

시간

재구매

쿠폰 카테고리


분석 데이터

데이터 목록

원본 데이터 컬럼 상세 설명

num Column Non-Null Count Dtype colums_ex
0 id 105419 non-null int64 해당 거래 내역(pk), 고유값
1 customer_id 105416 non-null float64 결제한 고객 ID
2 course_id 100212 non-null float64 강의 ID(프로모션에 대해서는 값이 할당되어 있지 않음
3 type 105419 non-null object 거래 종류 (paymaent, refund만 사용)
4 state 105419 non-null object 거래에 대한 상태(completed, requested만 사용)
5 course_title 105403 non-null object 강의 제목
6 category_title 105395 non-null object 강의 대분류
7 format 105403 non-null object 온라인 강의의 기획 종류
8 completed_at 105419 non-null object state가 COMPLETED로 변경된 시점
9 transaction_amount 105419 non-null int64 최종 결제 금액
10 coupon_title 31817 non-null object 쿠폰 종류
11 coupon_discount_amount 31817 non-null float64 쿠폰 할인 금액
12 sale_price 104291 non-null float64 판매 금액
13 tax_free_amount 104291 non-null float64 보안성 공유 어려움
14 pg 90344 non-null object PG사 종류
15 method 92323 non-null object 결제 방식
16 subcategory_title 85590 non-null object 강의 중분류
17 marketing_start_at 87440 non-null object 강의 판매 시점

데이터 정제(전처리) 방안

전체 전처리 과정 요약

데이터 전처리

1. coupon_discount_amount 변수의 경우 쿠폰유무에 따라 1,0로 나눠 new_coupon_discount column 생성함

2. customer_id 변수결측치 0으로 대체 (결측치 확인결과 필요없는 데이터임)

3. category_title 변수 현재 패스트캠퍼스 카테고리에 맞게 축소 및 변경, 테스트 데이터(관리) 삭제

- 다소 많은 카테고리가 있음을 확인했고

- 카테고리를 축소하는 과정을 거쳐

- 현재 패스트캠퍼스 카테고리에 맞게 축소 및 변경

- 테스트용 결제내역 삭제

4. 매출과 무관한 쿠폰사용 제거

coupon_title 데이터 중 값에 crm팀, 사내 (테스트) 데이터 등 매출과 관련 없는 데이터라 제거함

- 이런 종류들의 쿠폰들 삭제

5. type칼럼에서 'order' row 제거: 변수가 유효하지 않음

6. state칼럼에서 'PENDING', 'CANCELLED' ,'HIDDEN', 'DELETE' : 보안 이슈로 공개x -> 해당 row 제거

7. type REFUND삭제.

- 데이터를 나누고 merge를 활용하여 환불한 구매 데이터들을 삭제했다.

- type이 다르고 강의 이름이 같다는 조건을 활용하여 환불과 구매를 매칭시켰다.

- 강의 이름이 같은 row들을 찾아 원본데이터에서 삭제해줬다.

8. type컬럼에서 'TRANSACTION' row 제거: 변수가 유효하지 않음


EDA

EDA 프로세스

3.2.1 & 3.2.2 분석을 위한 추가 전처리

1. course_title 결측치 확인 결과, category_title, format NaN값임 ->drop하면 course_id만 전처리하면 됨 결측치 개수:1

2. subcategory_title 결측치의 경우 course_title와 category_title를 확인하여 해당 결측치의 index를 확인하며 하위 카테고리 값을 대체하기로 함 결측치 개수:7593

3. transaction_amount에서 0인값 제거
주제와 맞지 않아 제거함

분석 내용(EDA)

1. 하위 카테고리

2. 시간

3. 쿠폰 카테고리

[가설 1.] 하위 카테고리에서 개설 된 강의 수가 많을수록 결제 건수도 많을 것이다.

하위 카테고리 별 결제 건수와 개설 된 강의를 비교하여 어느 강의가 인기있는지와 하위 카테고리가 많은 강의들이 수강생들이 많이 듣는지 비교하여
하위 카테고리의 강의 수가 많을수록 결제 건수도 많다면, 강의를 추가로 개설하여 결제 건수 상승을 노릴 수 있다.
[데이터 살펴보기]
특이점
1. 글쓰기/카피라이팅, 커뮤니케이션, 업무 자동화 카테고리의 경우 강의 수는 적지만 결제 건수는 상대적으로 많아,
강의당 결제 건수가 높다는 것을 확인할 수 있었다.
2. 취업/이직준비, 마케팅, 업무생산성은 상위 3개 카테고리에 비해 강의 수가 많았지만 강의당 결제율이 낮았다.
[결론]
[결론]
1. 하위카테고리의 결제율과 평균 결제액과 상관관계가 높지 않아 영향을 준다고 보기 어렵다.
2. 평균 결제액과 하위카테고리 강의 수는 거의 0에 가깝다
->이는 평균 결제액과 강의 수는 상관관계가 없음을 의미한다.
3. 결제 건수와 강의 수의 상관관계가 높다고할 수 없으나 위 그래프의 상관관계 중 둘의 관계가 1에 가장 가까워 강의 수가 많다면 결제 수가 많다고 할 수 있음

[가설 2.] 카테고리 별 결제건이 많은 강의를 확인해 주요 고객층을 예상할 수 있다.

고객층 분류 예상: : 취업 준비·직무 교육, 기업고객·정부사업
카테고리 내 결제 건수가 많은 상위 5개의 강의명을 통해 각 카테고리가 어떤 고객층에게 수요가 높은지 예측할 수 있다.

pie(카테고리) -> barplot(['course_title'].value_counts()[:5])

설명
상위 카테고리 기준으로 course_title의 상위 5개의 항목을 결제 건수로 집계한 막대그래프임

결과
category title 별로 course title의 name으로 고객을 유추할 수 있다.
[예상 고객층]
- 취준생/이직 : 프로그래밍, 영상/3D, 부동산/금융, 데이터사이언스, 디자인
- 기업교육 : 올플랜, 프로그래밍, 데이터사이언스
- 사회초년생 : 업무 생산성, 데이터사이언스, 마케팅
- 재테크 : 투자/재테크

[가설 3.] 요일 및 시간대에 따른 결제 건수 빈도 분석을 통해 프로모션 효과가 높은 시간대를 찾을 수 있다.

사람들은 평일/주말 중 언제 결제를 많이 할까?
하루 중 강의 결제가 가장 활발하게 이루어지는 시간대는 언제일까?

와 같은 궁금증에 대한 답을 찾기 위해 "completed_at" column을 분석하였다.
요일별 구매건 수 비교 시, 눈에 띄는 편차는 월요일과 토요일이었다.
한 주의 시작인 월요일에 학습에 대한 욕구가 비교적 강하게 발현되고 주말에는 줄어드는 모습을 찾을 수 있었다.
반면 새로운 주의 월요일을 앞둔 일요일은 다시 결제 건수가 증가했다.
광고 노출이나 쿠폰 발행 등의 프로모션은 되도록 월요일이나 일요일에 하는것이 효과적일 것이다.
결제는 주로 오후 시간대에 이루어지며, 늦은 밤이나 새벽을 제외하고는 큰 차이가 없었다.
프로모션을 진행할 경우 시간대에는 요일만큼의 영향을 미치지 않겠지만, 굳이 시간대 별 프로모션을 한다면 오후 시간대를 위주로 지정하고,
0시~8시 구간의 시간대는 피하는 것이 좋을듯 하다.
결론
평일은 오후시간대 주말은 저녁시간에 구매가 주로 이루어지며 구매 패턴의 명확한 차이를 보인다.
눈에 띄는 구간은 일요일 밤 시간대로 시간대 별 구매율이 가장 높고, 동 시간대 중 가장 낮은 구매율을 보인 목요일과 비교하면 두배 이상 많은 건수를 보여준다.
요일별 시간대 분석은 이전 결과와는 다른 양상을 보이며 좀 더 구체적인 분석의 필요성을 느낄 수 있었다.
구매 건수에 대한 요일과 시간대 모두 고려했을 때,
월요일 오후 시간대 타겟 프로모션 보다 일요일 밤 시간대 타겟 프로모션이 더욱 효과적일 것이다.

[가설 4.] 쿠폰 사용 비율이 높은 카테고리는 결제 건수가 많을 것이다.

[데이터 살펴보기]

전처리를 통해서 쿠폰을 사용한 고객은 1, 사용하지 않고 구매한 고객은 0으로 표시한 컬럼이 추가되었다.
이 열을 통해 카테고리 별로 쿠폰 사용률이 얼마나 되는지 알아보자.

[결론]
- 쿠폰 사용률이 가장 높은 카테고리는 투자/재테크, 가장 낮은 카테고리는 마케팅이었다.
- 카테고리 별 쿠폰 사용률과 결제 건수 간 상관관계는 낮다.
- 교육 카테고리는 모두 B2B결제였기 때문에 쿠폰을 사용하지 않았다.
=> 다른 분석에서 B2C 를 타겟으로 한다면 '교육' 카테고리를 제외할 필요가 있어보인다.

[가설 5.] 카테고리 별 결제 건수와 강의 개수의 비를 통해 카테고리 별 수요를 알 수 있다.

특정 카테고리의 결제 건수가 많다고 해서 단순히 해당 카테고리의 수요가 많다고 결론 내리기에는 다소 성급해보인다.
카테고리 별로 판매하고 있는 강의 개수가 각각 다를 것이기 때문에, 강의 수 당 몇 번이나 팔렸는지 확인해
결제 건수가 많은 카테고리가 진짜로 인기가 많아서 많이 팔린 것인지, 강의 수 자체가 많은지 알아보았다.

투자/재테크 카테고리의 총 결제건수 1417건 중 쿠폰 사용 건은 819건, 그 중 투자 혹은 재테크 키워드를 가진 쿠폰은 112건으로
전용쿠폰이 아니라 다른 카테고리에도 쓸 수 있었던 쿠폰을 투자/재테크 카테고리 강의의 구매에 사용한 것을 알 수 있었다.
[결론 & 제안사항]
[결론]
- 강의 건수 대비 판매율이 높다 = 인기있는 카테고리다.
강의 건수 대비 판매율과 쿠폰 사용 여부가 유의미한 상관관계를 가짐을 확인할 수 있었다.
- 인기있는 카테고리 구매 시 쿠폰 사용률이 높았다.
투자/재테크 카테고리의 경우 2020년 코로나19로 인해 위축된 시장이 회복세를 보이면서 2021년 투자에 대한 관심이 는 것으로 추측된다.
![alt text](2020_stock.png "Title") ![alt text](2021_stock.png "Title") [suggestion]
- 강의 건수 대비 판매율이 높은 카테고리인 투자/재테크, 영상/3D 강의 개수를 늘리자. 다만 2022년 상황이.. 그렇게 좋지 않기 때문에 투자/재테크 카테고리에서 주식보다는 다른 분야의 재테크 강의를 런칭하는 것이 더 좋아 보인다.
아래와 같이 각 카테고리 내에서 판매 건 수가 많았던 하위 카테고리들을 고려하여 신규 강의 런칭 계획을 짤 수 있을 것이다. - 추가로, 신규 강의 런칭 시 신규 고객 유도를 위한 관련 쿠폰을 같이 발급하면 결제 건수를 늘릴 수 있을 것이다.

[가설 6.] customer id를 기준으로 결제 횟수를 분석해 재구매 유도 전략이 유의미할지 확인할 수 있다.

1. 기존 고객의 재구매 유도하기 vs 신규 고객의 첫 구매 유도하기 중 어떤 것이 더 효과 있을까?
전체 구매 데이터 내에서 1번만 구매한 고객/재구매 이력이 있는 고객으로 나눠보기
2. 웰컴쿠폰/WELCOME 쿠폰 발급은 신규 고객의 유입을 위한 전략이다. 효과가 있었을까?
데이터 내에서 결제 횟수가 2번 이상인 고객 중에서, 하루에 2건 이상의 결제를 한 고객 id 를 찾아 '재구매 하지 않음'으로 분류하였다.
결과적으로 84.4%의 고객이 주어진 기간 내, 즉 6개월간 재구매 하지 않았음을 알 수 있었다.
[결론]
데이터가 주어진 기간 내 '2회 이상 재구매'를 한 고객보다는 '신규 고객' 혹은 '한 번에 많은 수의 강의를 산 고객' 의 수가 많았다.
전체 쿠폰 사용 구매 건 수의 과반 이상이 웰컴 쿠폰 사용자임을 고려했을 때 웰컴쿠폰이 신규고객 유입에 상당한 효과가 있는 것으로 확인하였으므로
웰컴 쿠폰 이벤트를 유지하고, 앞으로 신규 고객을 적극적으로 늘리기 위한 추가적인 프로모션을 기획할 필요가 있다.

[가설 7.] 가장 많이 사용되는 결제 대행사와 관련된 프로모션 전략이 유효할 것이다.

1. 실제로 진행되었던 '카카오페이' 관련 프로모션이 효과가 있었는지 살펴보았다.
- 카카오이벤트(21. 07. 16 ~ 21. 07. 31) 효과 있었을까?? https://fastcampus.co.kr/event_online_kakaopay
2. 특정 결제 대행사와 관련있는 프로모션이 효과가 있었다면, 가장 많이 사용되는 결제 대행사와의 협업을 통해 그 효과를 키울 수 있을 것이다.

카카오페이 이벤트 기간(7.16~7.31)동안 구매건수가 카카오페이를 통한 평균 구매 건수 평균(빨간 점선)보다 2배 가량 높은 것을 확인할 수 있었다.
전체 기간 대비 구매건수 비율로 보았을때도 전체 기간 중 10%의 기간동안 약 20.5%에 달하는 구매 건 수를 기록하였다.
이처럼 특정 결제대행사와 관련된 혜택을 제공했을 때 유의미하게 결제 건수가 늘어남을 확인하였으니,
가장 큰 효과를 볼 수 있는 결제 대행사를 찾아보자.
[결론]
1. 특정 결제대행사를 통한 할인 프로모션이 결제 건수 증가에 유의미한 영향을 끼침을 확인하였다.
2. 대형 플랫폼 기업인 네이버나 카카오보다 국내 PG 선발 브랜드인 이니시스가 결제 대행사를 통한 결제건 중 압도적인 점유율을 보였다.
3. 이니시스와의 협업이나 결제 이벤트 등 프로모션 추진이 유효할 것이다.

활용방안 정리


번외.

‘회사 내 협업'의 관점에서, 데이터 팀에 추가로 요청할만한 항목들