91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python實現的統計文章單詞次數功能

發布時間:2021-04-07 09:54:23 來源:億速云 閱讀:163 作者:小新 欄目:開發技術

小編給大家分享一下如何使用Python實現的統計文章單詞次數功能,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

題目是這樣的:你有一個目錄,放了你一個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。

其實就是統計一篇文章出現最多的單詞,但是要去除那些常見的連詞、介詞和謂語動詞等,代碼:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

學習筆記:

collections模塊,是python內建的模塊,提供了許多有用的集合類。我們這里用到了Counter類和其中的most_common()方法

以上是“如何使用Python實現的統計文章單詞次數功能”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

哈巴河县| 大邑县| 汶上县| 高台县| 江山市| 综艺| 射洪县| 多伦县| 华阴市| 铜山县| 大方县| 泰来县| 信阳市| 阿拉尔市| 铜鼓县| 自治县| 朝阳市| 邳州市| 博白县| 康马县| 囊谦县| 正定县| 土默特左旗| 邢台县| 吕梁市| 科技| 西畴县| 化州市| 钦州市| 华安县| 沂水县| 海城市| 蓬溪县| 兰溪市| 宝鸡市| 含山县| 通海县| 江源县| 金溪县| 东方市| 紫云|