您好,登錄后才能下訂單哦!
如何進行NLP基本工具jieba的關鍵詞提取及詞性標注,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
jieba還可以進行關鍵詞提取以及詞性標注。
使用:
importjieba # 導入 jieba
importjieba.analyse as anls #關鍵詞提取
importjieba.posseg as pseg #詞性標注
其中,關鍵詞提取有兩種算法:
第一種是TF-IDF算法(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率),其基本思想為:一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越說明該詞語能夠代表該文章。
第二種是TextRank算法,基本思想:
將待抽取關鍵詞的文本進行分詞
以固定窗口大小(默認為5,通過span屬性調整),詞之間的共現關系,構建圖
計算圖中節點的PageRank,無向帶權圖
代碼:
TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())
TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)
其中,topK是輸出多少個關鍵詞,withWeight是否輸出每個關鍵詞的權重。
輸入語句“jieba除了最重要的功能--分詞之外,還可以進行關鍵詞提取以及詞性標注”:
TF-IDF輸出的關鍵詞:
詞性 0.91
jieba0.85
-- 0.85
分詞 0.84
標注 0.66
關鍵詞 0.64
提取 0.54
之外 0.42
功能 0.39
除了 0.37
重要 0.29
以及 0.29
進行 0.27
可以 0.25
TextRank輸出的關鍵詞:
詞性 1.00
提取 0.99
關鍵詞 0.99
功能 0.90
分詞 0.90
進行 0.76
標注 0.75
相對而言,TextRank輸出的關鍵詞更規整一些。
詞性標注
使用jieba.posseg進行詞性的標注。
代碼:
importjieba.posseg
words =jieba.posseg.cut("我來到北京清華大學")
for x, win words:
print('%s %s' % (x, w))
輸出:
我 r
來到 v
北京 ns
清華大學 nt
看完上述內容,你們掌握如何進行NLP基本工具jieba的關鍵詞提取及詞性標注的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。