您好,登錄后才能下訂單哦!
這篇文章主要介紹“jieba怎么對文本進行分詞”,在日常操作中,相信很多人在jieba怎么對文本進行分詞問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”jieba怎么對文本進行分詞”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
jieba庫是一個強大的中文分詞庫,對中文進行分詞。(pip install jieba)
jieba有三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點:
1、精確模式:把句子最精確地分開,適合做文本分析。
2、全模式:把句子中所有的可以成詞的詞語都切開, 速度快,但有歧義。
3、搜索引擎模式:在精確模式的基礎上,對長詞再次進行切分,提高召回率,
適合用于搜索引擎的分詞
代碼如下:
import jieba
words = '數據科學公眾號團隊致力于分享關于數據科學的編程語言以及算法等知識'
# 精確模式
print("/".join(jieba.lcut(words)))
# 全模式
print("/".join(jieba.lcut(words,cut_all=True)))
# 搜索引擎模式
print("/".join(jieba.lcut_for_search(words, )))
結果如下:
# 精確模式 語文閱讀的文本分詞
數據/科學/公眾/號/團隊/致力于/分享/關于/數據/科學/的/編程語言/以及/算法/等/知識
# 全模式 列出所有可以成詞的文本
數據/科學/公眾/號/團隊/致力/致力于/分享/關于/數據/科學/的/編程/編程語言/語言/以及/算法/等/知識
# 搜索引擎模式 加強對長詞的切分,提高搜索的召回率
數據/科學/公眾/號/團隊/致力/致力于/分享/關于/數據/科學/的/編程/語言/編程語言/以及/算法/等/知識
到此,關于“jieba怎么對文本進行分詞”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。