group_by函數是dplyr包中的一個函數,用于按照指定的變量對數據進行分組。它通常與其他函數(如summarise、mutate和filter)一起使用,用于對每個組進行匯總、變換或篩選操作。
group_by的基本用法是:group_by(df, variable),其中df是要進行分組的數據框或數據表,variable是要分組的變量名。分組后,可以對每個組進行各種操作,如計算每組的平均值、總和、計數等。
以下是一個示例:
library(dplyr)
# 創建一個示例數據框
df <- data.frame(
group = c("A", "A", "B", "B", "B"),
value = c(1, 2, 3, 4, 5)
)
# 按照group變量進行分組
df_grouped <- group_by(df, group)
# 對每個組計算平均值
df_avg <- summarise(df_grouped, avg_value = mean(value))
# 輸出結果
print(df_avg)
輸出結果為:
# A tibble: 2 x 2
group avg_value
<chr> <dbl>
1 A 1.5
2 B 4.0
上述示例中,首先使用group_by函數按照group變量進行分組,然后使用summarise函數計算每個組的平均值。最后得到一個新的數據框df_avg,包含了每個組的平均值。