怎么使用Python分詞工具jieba

發布時間：2021-12-04 17:54:34 來源：億速云閱讀：154 作者：柒染欄目：大數據

本篇文章給大家分享的是有關怎么使用Python分詞工具jieba，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

結巴分詞是Python語言中最流行的一個分詞工具，在自然語言處理等場景被廣泛使用。

因為GitHub寫的文檔太啰嗦，所以整理了一個簡版的入門使用指南，看完可直接上手

安裝

pip install jieba

簡單分詞

import jieba

result = jieba.cut("我愛中國北京大學")
for word in result:
    print(word)

輸出

我
愛
中國
北京大學

句子切分成了5個詞組。

全模式分詞

result = jieba.cut("我愛中國北京大學", cut_all=True)
for word in result:
    print(word)

輸出

我
愛
中國
北京
北京大學
大學

全模式分出來的詞覆蓋面更廣。

提取關鍵詞

從一個句子或者一個段落中提取前k個關鍵詞

import jieba.analyse

result = jieba.analyse.extract_tags("機器學習，需要一定的數學基礎，需要掌握的數學基礎知識特別多，"
                                    "如果從頭到尾開始學，估計大部分人來不及，我建議先學習最基礎的數學知識",
                                    topK=5,
                                    withWeight=False)
import pprint

pprint.pprint(result)

輸出

['數學', '學習', '數學知識', '基礎知識', '從頭到尾']

topK 為返回前topk個權重最大的關鍵詞
withWeight 返回每個關鍵字的權重值

去掉停止詞

停止詞是指在句子中無關緊要的詞語，例如標點符號、指示代詞等等，做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞，需要手動處理。提取關鍵字的方法 extract_tags 支持停止詞過濾

# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)

file_name 的文件格式是文本文件，每行一個詞語

以上就是怎么使用Python分詞工具jieba，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么使用Python分詞工具jieba

安裝

簡單分詞

全模式分詞

提取關鍵詞

去掉停止詞

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么使用Python分詞工具jieba

安裝

簡單分詞

全模式分詞

提取關鍵詞

去掉停止詞

猜你喜歡

最新資訊

相關推薦

相關標簽