如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

發布時間：2021-12-08 15:17:15 來源：億速云閱讀：371 作者：柒染欄目：大數據

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

jieba還可以進行關鍵詞提取以及詞性標注。

使用：

importjieba # 導入 jieba

importjieba.analyse as anls #關鍵詞提取

importjieba.posseg as pseg #詞性標注

其中，關鍵詞提取有兩種算法：

第一種是TF-IDF算法（Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率），其基本思想為：一個詞語在一篇文章中出現次數越多，同時在所有文檔中出現次數越少，越說明該詞語能夠代表該文章。

第二種是TextRank算法，基本思想：

將待抽取關鍵詞的文本進行分詞
以固定窗口大小(默認為5，通過span屬性調整)，詞之間的共現關系，構建圖
計算圖中節點的PageRank，無向帶權圖

代碼：

TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())

TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)

其中，topK是輸出多少個關鍵詞，withWeight是否輸出每個關鍵詞的權重。

輸入語句“jieba除了最重要的功能--分詞之外，還可以進行關鍵詞提取以及詞性標注”：

TF-IDF輸出的關鍵詞:

詞性 0.91

jieba0.85

-- 0.85

分詞 0.84

標注 0.66

關鍵詞 0.64

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

進行 0.27

可以 0.25

TextRank輸出的關鍵詞:

詞性 1.00

提取 0.99

關鍵詞 0.99

功能 0.90

分詞 0.90

進行 0.76

標注 0.75

相對而言，TextRank輸出的關鍵詞更規整一些。

詞性標注

使用jieba.posseg進行詞性的標注。

代碼：

importjieba.posseg

words =jieba.posseg.cut("我來到北京清華大學")

for x, win words:

print('%s %s' % (x, w))

輸出：

我 r

來到 v

北京 ns

清華大學 nt

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

看完上述內容，你們掌握如何進行NLP基本工具jieba的關鍵詞提取及詞性標注的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

猜你喜歡

最新資訊

相關推薦

相關標簽