91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python實現快速計算詞頻功能示例

發布時間:2020-08-27 09:11:49 來源:腳本之家 閱讀:108 作者:chenKFKevin 欄目:開發技術

本文實例講述了Python實現快速計算詞頻功能。分享給大家供大家參考,具體如下:

這幾天看到一位同事的代碼,方法如下:

def cut_word(body):
  temp_dict={}
  if body is not None:
    temp=jieba.cut(body)
    for t in temp:
      temp_dict[t]=1
  else:
    pass
  return temp_dict

這個函數的功能是,輸入一段字符串,比如:'今天天氣很不錯',輸出一個字典,key為使用結巴的cut方法之后切分的詞,value為1,如:{'很':1,'今天天氣':1,'不錯': 1}。

然后我看到同事的另一個方法:

def union_dict(x,y):
  _keys = set(sum([obj.keys() for obj in [x,y]],[]))
  _total = {}
  for _key in _keys:
    _total[_key] = sum([obj.get(_key,0) for obj in [x,y]])
  return _total

是這樣調用的:

final_dict=reduce(union_dict,result)

result是這樣產生的:

result=df['body'].apply(cut_word)

也就是把df的body列每一行進行cut_word函數操作(即將字符串轉換成一個字典)。

result的類型是series,隨后對result用reduce函數進行union_dict操作。

union_dict的作用是,輸入兩個字典,比如{'很':1,'今天天氣':1,'不錯': 1}和{'很':1,'今天天氣':1,'差': 1},對key相同的進行value求和,也就是輸出會變成{'很':2,'今天天氣':2,'不錯': 1,'差':1}

所以這一系列的操作其實是為了計算一大堆文字的詞頻數,但同事使用的是對每一行分別進行拆分,生成字典,隨后

對字典進行合并,其實有些麻煩。

再學習自然語言處理的時候,我了解到nltk有一個方法,可以直接計算詞頻,用在此處正好。

# -*- coding:utf-8 -*-
import nltk
import jieba
str = '今天天氣很不錯。今天天氣很差'
a = list(jieba.cut(str))
cfd = nltk.FreqDist(a)

結果直接是一個帶有頻數的字典:{'很':2,'今天天氣':2,'不錯': 1,'很差':1,'。'}

由于同事的函數cut_word對每個詞只計一次頻數,所以不能直接拼接字符串后調用FreqDist函數,需要對每個cut出來的列表去重,隨后再拼接為大字符串調用FreqDist,這也比之前寫這兩個函數簡單許多。

對于普通的計算頻數的需求來說,這個函數能直接解決,十分方便。

更多關于Python相關內容感興趣的讀者可查看本站專題:《Python數學運算技巧總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設計有所幫助。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

老河口市| 峨边| 桐乡市| 彩票| 凤台县| 屯门区| 拜城县| 綦江县| 常山县| 冷水江市| 宁蒗| 钟祥市| 福贡县| 安新县| 茶陵县| 黔西县| 舟曲县| 广平县| 肇庆市| 竹山县| 永德县| 重庆市| 嘉黎县| 谢通门县| 浪卡子县| 屯门区| 汕尾市| 新乡市| 绥滨县| 那曲县| 海宁市| 调兵山市| 屏东市| 定结县| 涟水县| 定兴县| 延庆县| 罗平县| 余干县| 武定县| 若羌县|