91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python中文分詞和詞頻統計如何實現

發布時間:2022-06-13 10:20:46 來源:億速云 閱讀:473 作者:zzz 欄目:開發技術

這篇文章主要介紹“python中文分詞和詞頻統計如何實現”,在日常操作中,相信很多人在python中文分詞和詞頻統計如何實現問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”python中文分詞和詞頻統計如何實現”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

一、文本導入

我準備了一個名為abstract.txt的文本文件

python中文分詞和詞頻統計如何實現

接著是在網上下載了stopword.txt(用于結巴分詞時的停用詞)

python中文分詞和詞頻統計如何實現

有一些是自己覺得沒有用加上去的 

另外建立了自己的詞典extraDict.txt

python中文分詞和詞頻統計如何實現

準備工作做好了,就來看看怎么使用吧!

二、使用步驟

1.引入庫

代碼如下:

import jieba
from jieba.analyse import extract_tags
from sklearn.feature_extraction.text import TfidfVectorizer

2.讀入數據

代碼如下:

jieba.load_userdict('extraDict.txt')  # 導入自己建立詞典

3.取出停用詞表

def stopwordlist():
    stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()]
    # ---停用詞補充,視具體情況而定---
    i = 0
    for i in range(19):
        stopwords.append(str(10 + i))
    # ----------------------
 
    return stopwords

4.分詞并去停用詞(此時可以直接利用python原有的函數進行詞頻統計)

def seg_word(line):
    # seg=jieba.cut_for_search(line.strip())
    seg = jieba.cut(line.strip())
    temp = ""
    counts = {}
    wordstop = stopwordlist()
    for word in seg:
        if word not in wordstop:
            if word != ' ':
                temp += word
                temp += '\n'
                counts[word] = counts.get(word, 0) + 1#統計每個詞出現的次數
    return  temp #顯示分詞結果
    #return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20])  # 統計出現前二十最多的詞及次數

5. 輸出分詞并去停用詞的有用的詞到txt

def output(inputfilename, outputfilename):
    inputfile = open(inputfilename, encoding='UTF-8', mode='r')
    outputfile = open(outputfilename, encoding='UTF-8', mode='w')
    for line in inputfile.readlines():
        line_seg = seg_word(line)
        outputfile.write(line_seg)
    inputfile.close()
    outputfile.close()
    return outputfile

6.函數調用

if __name__ == '__main__':
    print("__name__", __name__)
    inputfilename = 'abstract.txt'
    outputfilename = 'a1.txt'
    output(inputfilename, outputfilename)

7.結果  

python中文分詞和詞頻統計如何實現

附:輸入一段話,統計每個字母出現的次數

先來講一下思路:

例如給出下面這樣一句話

Love is more than a word
it says so much.
When I see these four letters,
I almost feel your touch.
This is only happened since
I fell in love with you.
Why this word does this,
I haven’t got a clue.

那么想要統計里面每一個單詞出現的次數,思路很簡單,遍歷一遍這個字符串,再定義一個空字典count_dict,看每一個單詞在這個用于統計的空字典count_dict中的key中存在否,不存在則將這個單詞當做count_dict的鍵加入字典內,然后值就為1,若這個單詞在count_dict里面已經存在,那就將它對應的鍵的值+1就行

下面來看代碼:

#定義字符串
sentences = """           # 字符串很長時用三個引號
Love is more than a word
it says so much.
When I see these four letters,
I almost feel your touch.
This is only happened since
I fell in love with you.
Why this word does this,
I haven't got a clue.
"""
#具體實現
#  將句子里面的逗號去掉,去掉多種符號時請用循環,這里我就這樣吧
sentences=sentences.replace(',','')   
sentences=sentences.replace('.','')   #  將句子里面的.去掉
sentences = sentences.split()         # 將句子分開為單個的單詞,分開后產生的是一個列表sentences
# print(sentences)
count_dict = {}
for sentence in sentences:
    if sentence not in count_dict:    # 判斷是否不在統計的字典中
        count_dict[sentence] = 1
    else:                              # 判斷是否不在統計的字典中
        count_dict[sentence] += 1
for key,value in count_dict.items():
    print(f"{key}出現了{value}次")

輸出結果是這樣:

python中文分詞和詞頻統計如何實現

到此,關于“python中文分詞和詞頻統計如何實現”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

天门市| 惠水县| 修水县| 探索| 江川县| 那曲县| 琼结县| 仁寿县| 原阳县| 霍林郭勒市| 凤庆县| 江山市| 独山县| 曲沃县| 民权县| 平陆县| 七台河市| 宁明县| 贵南县| 宁河县| 文昌市| 梁平县| 镇巴县| 三都| 呼和浩特市| 冷水江市| 壤塘县| 上高县| 平江县| 德州市| 五常市| 农安县| 克东县| 奎屯市| 小金县| 杭锦后旗| 沧州市| 尼玛县| 荥阳市| 邢台市| 连平县|