Ubuntu實現詞頻統計的示例:
使用shell實現簡單的詞頻統計,例如:統計如下中第二列單詞出現的次數。
1,huabingood,100
2,haha,200
3,huabingood,300
4,haha,100
5,haha,200
實現代碼命令:
cat a.txt | awk -F "," '{print $2}' | sort | uniq -c | sort -nrk 1
代碼解釋:
awk -F "," '{print $2}' # 將數據按照逗號進行分割,并取出第二列的內容
sort # 將取出的內容進行排序。因為uniq統計時,如果重復的數據不連續,就會被認為時兩個不同內容的行
uniq -c # 統計重復行出現的次數
sort -nrk 1 # 按照第一列重復的次數,按照數字順序進行降序排列