91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么使用Python分詞工具jieba

發布時間:2021-12-04 17:54:34 來源:億速云 閱讀:154 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關怎么使用Python分詞工具jieba,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

結巴分詞是Python語言中最流行的一個分詞工具,在自然語言處理等場景被廣泛使用。

因為GitHub寫的文檔太啰嗦,所以整理了一個簡版的入門使用指南,看完可直接上手

安裝

pip install jieba

簡單分詞

import jieba

result = jieba.cut("我愛中國北京大學")
for word in result:
   print(word)

輸出



中國
北京大學

句子切分成了5個詞組。

全模式分詞

result = jieba.cut("我愛中國北京大學", cut_all=True)
for word in result:
   print(word)

輸出



中國
北京
北京大學
大學

全模式分出來的詞覆蓋面更廣。

提取關鍵詞

從一個句子或者一個段落中提取前k個關鍵詞

import jieba.analyse

result = jieba.analyse.extract_tags("機器學習,需要一定的數學基礎,需要掌握的數學基礎知識特別多,"
                                   "如果從頭到尾開始學,估計大部分人來不及,我建議先學習最基礎的數學知識",
                                   topK=5,
                                   withWeight=False)
import pprint

pprint.pprint(result)

輸出

['數學', '學習', '數學知識', '基礎知識', '從頭到尾']
  • topK 為返回前topk個權重最大的關鍵詞

  • withWeight 返回每個關鍵字的權重值

去掉停止詞

停止詞是指在句子中無關緊要的詞語,例如標點符號、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動處理。提取關鍵字的方法 extract_tags 支持停止詞過濾

# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)

file_name 的文件格式是文本文件,每行一個詞語

以上就是怎么使用Python分詞工具jieba,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

桦川县| 黔南| 禄丰县| 郓城县| 于田县| 民丰县| 孝昌县| 遂平县| 天气| 绥江县| 鲜城| 库尔勒市| 湛江市| 衢州市| 浏阳市| 浮山县| 万源市| 繁昌县| 鄂伦春自治旗| 荥阳市| 尖扎县| 白沙| 伊金霍洛旗| 旬阳县| 塔河县| 青冈县| 阜南县| 云龙县| 富源县| 晴隆县| 乡城县| 湖北省| 额济纳旗| 伊吾县| 都兰县| 合江县| 中山市| 兴城市| 清徐县| 汉源县| 阿鲁科尔沁旗|