您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關怎么使用Python分詞工具jieba,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
結巴分詞是Python語言中最流行的一個分詞工具,在自然語言處理等場景被廣泛使用。
因為GitHub寫的文檔太啰嗦,所以整理了一個簡版的入門使用指南,看完可直接上手
pip install jieba
import jieba
result = jieba.cut("我愛中國北京大學")
for word in result:
print(word)
輸出
我
愛
中國
北京大學
句子切分成了5個詞組。
result = jieba.cut("我愛中國北京大學", cut_all=True)
for word in result:
print(word)
輸出
我
愛
中國
北京
北京大學
大學
全模式分出來的詞覆蓋面更廣。
從一個句子或者一個段落中提取前k個關鍵詞
import jieba.analyse
result = jieba.analyse.extract_tags("機器學習,需要一定的數學基礎,需要掌握的數學基礎知識特別多,"
"如果從頭到尾開始學,估計大部分人來不及,我建議先學習最基礎的數學知識",
topK=5,
withWeight=False)
import pprint
pprint.pprint(result)
輸出
['數學', '學習', '數學知識', '基礎知識', '從頭到尾']
topK 為返回前topk個權重最大的關鍵詞
withWeight 返回每個關鍵字的權重值
停止詞是指在句子中無關緊要的詞語,例如標點符號、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut
不支持直接過濾停止詞,需要手動處理。提取關鍵字的方法 extract_tags
支持停止詞過濾
# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
file_name 的文件格式是文本文件,每行一個詞語
以上就是怎么使用Python分詞工具jieba,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。