您好,登錄后才能下訂單哦!
這篇文章主要介紹了python如何統計文章中單詞出現次數,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
python統計單詞出現次數
做單詞詞頻統計,用字典無疑是最合適的數據類型,單詞作為字典的key, 單詞出現的次數作為字典的 value,很方便地就記錄好了每個單詞的頻率,字典很像我們的電話本,每個名字關聯一個電話號碼。
下面是具體的實現代碼,實現了從importthis.txt文件讀取單詞,并統計出現次數最多的5個單詞。
# -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): """ :param path: 文件路徑 """ self.mapping = dict() with io.open(path, encoding="utf-8") as f: data = f.read() words = [s.lower() for s in re.findall("\w+", data)] for word in words: self.mapping[word] = self.mapping.get(word, 0) + 1 def most_common(self, n): assert n > 0, "n should be large than 0" return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n] if __name__ == '__main__': most_common_5 = Counter("importthis.txt").most_common(5) for item in most_common_5: print(item)
執行效果:
('is', 10) ('better', 8) ('than', 8) ('the', 6) ('to', 5)
知識點補充:
1、如何正確讀寫文件
2、如何對數據進行排序
3、字典數據類型的運用
4、正則表達式的運用
感謝你能夠認真閱讀完這篇文章,希望小編分享的“python如何統計文章中單詞出現次數”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。