您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何理解R語言數據分析中的Cohort存留分析,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
相信經常做數據分析的同學都聽說過Cohort 分析,特別是互聯網運營中,用于分析客戶存留等場景,以往這種分析大都借助SQL+Excel完成。
最近在嘗試學習 Cohort 用戶存留分析時,找到了國外一個數據分析愛好者Cohort 存留分析的Python版本完整代碼,并且很良心到的提供了練習數據,作為一個R比Python要熟練的菜鳥分析師,自然是首先想到如何把這個代碼翻譯成R版本。
http://www.gregreda.com/2015/08/23/cohort-analysis-with-python/
終于功夫不顧有心人,忙活了一天用R語言代碼還原了這個Cohort分析的R語言版本,這里分享給大家,代碼不佳之處,敬請見諒,只是一個demo,還沒有做封裝。
library('xlsx')
library('ggplot2')
library('dplyr')
library('magrittr')
library('tidyr')
library('reshape2')
1、數據導入:
setwd("D:/R/File/") df <- read.xlsx('relay-foods.xlsx', sheetName = 'Purchase Data')
2、數據清洗:
存留分析使用到的字段只有購買日期、用戶ID等信息,分析月度存留,需要將日期規范化成年月形式,同時按照客戶id分組,計算出用戶首次購買的日期,代碼如下:
2.1 創建購買月份字段
df$OrderPeriod = format(df$OrderDate,'%Y-%m') #購買日期
2.2 創建用戶首次購買字段
CohortGroup = df %>% group_by(UserId) %>%
summarize( CohortGroup = min(OrderDate))
#計算用戶首購日期
CohortGroup$CohortGroup <- CohortGroup$CohortGroup %>% format('%Y-%m')
df <- df %>% left_join(CohortGroup,by = 'UserId')
#將首購日期與原始訂單表合并對齊
2.3 分組(按照首購日期、購買日期)計算總用戶數、總訂單數、總支付金額(用戶ID要去重)
chorts <- df %>% group_by(CohortGroup,OrderPeriod) %>% summarize( UserId = n_distinct(UserId), OrderId = n_distinct(OrderId), TotalCharges = sum(TotalCharges) ) %>% rename(TotalUsers= UserId , TotalOrders = OrderId)
2.4 按照用戶ID分組并根據購買日期月份添加順序標簽
chorts <- chorts %>% arrange(CohortGroup,OrderPeriod) %>% group_by(CohortGroup) %>% mutate( CohortPeriod =row_number())
3、計算當月購買新用戶數
cohort_group_size <- chorts %>%
filter(CohortPeriod == 1) %>%
select(CohortGroup,OrderPeriod,TotalUsers)
user_retention <- chorts %>%
select(CohortGroup,CohortPeriod,TotalUsers) %>%
spread(CohortGroup,TotalUsers)
#長表轉換為寬表#將具體用戶數換算為占基準月份比率
user_retention[,-1] <- user_retention[,-1] %>% t() %>% `/`(cohort_group_size$TotalUsers) %>% t() %>% as.data.frame()
user_retention1 <- user_retention %>% select(1:5) %>% melt( id.vars = 'CohortPeriod', variable.name = 'CohortGroup', value.name = 'TotalUsers' )
4、存留曲線
ggplot(user_retention1,aes(CohortPeriod,TotalUsers)) + geom_line(aes(group = CohortGroup,colour = CohortGroup)) + scale_x_continuous(breaks = 1:15) + scale_colour_brewer(type = 'div')
user_retentionT <- t(user_retention) %>% .[2:nrow(.),] %>% as.data.frame user_retentionT$CohortPeriod <- row.names(user_retentionT) row.names(user_retentionT) <- NULLuser_retentionT <- user_retentionT[,c(16,1:15)] user_retentionT1 <- user_retentionT %>% melt( id.vars = 'CohortPeriod', variable.name = 'CohortGroup', value.name = 'TotalUsers' )
5、存留分析熱力圖:
library("Cairo")
library("showtext")
font_add("myfont","msyh.ttc")
CairoPNG("C:/Users/RAINDU/Desktop/emoji1.png",1000,750)
showtext_begin()
ggplot(user_retentionT1 ,aes(CohortGroup,CohortPeriod,fill=TotalUsers))+
geom_tile(colour='white') +
geom_text(aes(label = ifelse(TotalUsers != 0,paste0(round(100*TotalUsers,2),'%'),'')),colour = 'blue') +
scale_fill_gradient2(limits=c(0,.55),low="#00887D", mid ='yellow', high="orange",midpoint = median(user_retentionT1$TotalUsers, na.rm =TRUE),na.value = "grey90") +
scale_y_discrete(limits = rev(unique(user_retentionT1$CohortPeriod))) +
scale_x_discrete(position = "top")+
labs(title="XXX產品Chort留存分析",subtitle="XXX產品在2019年1月至2010年三月中間的留存率趨勢")+
theme(
text = element_text(family = 'myfont',size = 15),
rect = element_blank()
)
showtext_end()
dev.off()
存留分析是互聯網數據分析和運用中經常會用到分析工具,本節的R代碼是源于篇首Python代碼的思路,大家可以對比兩者的優劣,作為今后分析使用的參考資料。
關于如何理解R語言數據分析中的Cohort存留分析就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。