91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

發布時間:2023-03-02 13:37:28 來源:億速云 閱讀:130 作者:iii 欄目:開發技術

這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章的知識點大部分人都不太理解,所以小編給大家總結了以下內容,內容詳細,步驟清晰,具有一定的借鑒價值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章吧。

通過如下代碼,讀取一個txt的高頻詞匯:

            # 找到高頻詞匯
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情況下 jieba它不知道一些詞匯,比如說獲得的詞匯如下

建立可視化 是2個獨立的單詞

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

一、添加自定義詞

通過添加自定義詞

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

就可以看到,統計出來的詞是這個自定義詞

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

二、去除不需要長尾詞

有時 統計出來的某些詞匯jieba認為是一個詞匯 但是此時 我想讓他變為多個詞匯 ,可以通過如下代碼實現:

import jieba
import jieba.posseg as jp
jieba.del_word('創建活動')

此時 jieba 就會不認定 創建活動 是一個詞,它會將它們分開統計

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

以上就是關于“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”這篇文章的內容,相信大家都有了一定的了解,希望小編分享的內容對大家有幫助,若想了解更多相關的知識內容,請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

黑水县| 沐川县| 万全县| 石阡县| 津南区| 宁城县| 富蕴县| 自治县| 筠连县| 成都市| 大洼县| 桃园市| 贞丰县| 杂多县| 泰兴市| 固安县| 利津县| 彝良县| 香格里拉县| 特克斯县| 凌海市| 北海市| 岑溪市| 什邡市| 得荣县| 盐边县| 汕头市| 鹤壁市| 肥西县| 玉田县| 洪洞县| 乌什县| 电白县| 宣恩县| 贡山| 思茅市| 张家界市| 泰顺县| 海兴县| 威海市| 留坝县|