您好,登錄后才能下訂單哦!
小編給大家分享一下Python如何實現Wordcloud生成詞云圖,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
wordcloud是Python擴展庫中一種將詞語用圖片表達出來的一種形式,通過詞云生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。
首先貼出一張詞云圖(以哈利波特小說為例):
在生成詞云圖之前,首先要做一些準備工作
1.安裝結巴分詞庫
pip install jieba
Python中的分詞模塊有很多,他們的功能也都是大同小異,我們安裝的結巴分詞 是當前使用的最多的類型。
下面我來簡單介紹一下結巴分詞的用法
結巴分詞的分詞模式分為三種:
(1)全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題
(2)精確模式:將句子最精確地切開,適合文本分析
(3)搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞
下面用一個簡單的例子來看一下三種模式的分詞區別:
import jieba # 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度快,但是不能解決歧義問題 text = "哈利波特是一常優秀的文學作品" seg_list = jieba.cut(text, cut_all=True) print(u"[全模式]: ", "/ ".join(seg_list)) # 精確模式:將句子最精確地切開,適合文本分析 seg_list = jieba.cut(text, cut_all=False) print(u"[精確模式]: ", "/ ".join(seg_list)) # 默認是精確模式 seg_list = jieba.cut(text) print(u"[默認模式]: ", "/ ".join(seg_list)) # 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞 seg_list = jieba.cut_for_search(text) print(u"[搜索引擎模式]: ", "/ ".join(seg_list))
下面是對這句話的分詞方式:
通過這三種分詞模式可以看出,這些分詞模式并沒有很好的劃分出“哈利波特”這個專有名詞,這是因為在結巴分詞的字典中并沒有記錄這個名詞,所以需要我們手動添加自定義字典
添加自定義字典:找一個方便引用的位置 (下圖的路徑是我安裝的位置),新建文本文檔(后綴名為.txt),將想添加的詞輸入進去(注意輸入格式),保存并退出
在上面的代碼中加入自定義字典的路徑,再點擊運行
jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")
分詞結果,可以看出“哈利波特”這個詞已經被識別出來了
結巴分詞還有另一個禁用詞的輸出結果
stopwords = {}.fromkeys(['優秀', '文學作品']) #添加禁用詞之后 seg_list = jieba.cut(text) final = '' for seg in seg_list: if seg not in stopwords: final += seg seg_list_new = jieba.cut(final) print(u"[切割之后]: ", "/ ".join(seg_list_new))
可以看到輸出結果中并沒有“優秀”和“文學作品”兩個詞
結巴分詞還有很多比較復雜的操作,具體的可以去官網查看,我就不再過多的贅述了
下面我們正式開始詞云的制作
首先下載模塊,這里我所使用的環境是Anaconda,由于Anaconda中包含很多常用的擴展包,所以這里只需要下載wordcloud。若使用的環境不是Anaconda,則另需安裝numpy和PIL模塊
pip install wordcloud
然后我們需要找一篇文章并使用結巴分詞將文章分成詞語的形式
# 分詞模塊 def cut(text): # 選擇分詞模式 word_list = jieba.cut(text,cut_all= True) # 分詞后在單獨個體之間加上空格 result = " ".join(word_list) # 返回分詞結果 return result
這里我在當前文件夾下創建了一個文本文檔“xiaoshuo.txt”,并復制了一章的小說作為詞云的主體文字
使用代碼控制,打開并讀取小說的內容
#導入文本文件,進行分詞,制作詞云 with open("xiaoshuo.txt") as fp: text = fp.read() # 將讀取的中文文檔進行分詞 text = cut(text)
在網上找到一張白色背景的圖片下載到當前文件夾,作為詞云的背景圖(若不指定圖片,則默認生成矩形詞云)
#設置詞云形狀,若設置了詞云的形狀,生成的詞云與圖片保持一致,后面設置的寬度和高度將默認無效 mask = np.array(image.open("monkey.jpeg"))
接下來可以根據喜好來定義詞云的顏色、輪廓等參數 下面為常用的參數設置方法
font_path : "字體路徑" | 詞云的字體樣式,若要輸出中文,則跟隨中文的字體 |
width = n | 畫布寬度,默認為400像素 |
height = n | 畫布高度,默認為400像素 |
scale = n | 按比例放大或縮小畫布 |
min_font_size = n | 設置最小的字體大小 |
max_font_size = n | 設置最大的字體大小 |
stopwords = 'words' | 設置要屏蔽的詞語 |
background_color = ''color | 設置背景板顏色 |
relative_scaling = n | 設置字體大小與詞頻的關聯性 |
contour_width = n | 設置輪廓寬度 |
contour_color = 'color' | 設置輪廓顏色 |
完整代碼
#導入詞云庫 from wordcloud import WordCloud #導入圖像處理庫 import PIL.Image as image #導入數據處理庫 import numpy as np #導入結巴分詞庫 import jieba # 分詞模塊 def cut(text): # 選擇分詞模式 word_list = jieba.cut(text,cut_all= True) # 分詞后在單獨個體之間加上空格 result = " ".join(word_list) return result #導入文本文件,進行分詞,制作詞云 with open("xiaoshuo.txt") as fp: text = fp.read() # 將讀取的中文文檔進行分詞 text = cut(text) #設置詞云形狀 mask = np.array(image.open("monkey.jpeg")) #自定義詞云 wordcloud = WordCloud( # 遮罩層,除白色背景外,其余圖層全部繪制(之前設置的寬高無效) mask=mask, #默認黑色背景,更改為白色 background_color='#FFFFFF', #按照比例擴大或縮小畫布 scale=, # 若想生成中文字體,需添加中文字體路徑 font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf" ).generate(text) #返回對象 image_produce = wordcloud.to_image() #保存圖片 wordcloud.to_file("new_wordcloud.jpg") #顯示圖像 image_produce.show()
注:若想要生成圖片樣式的詞云圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形
我的詞云原圖:
生成的詞云圖:
看完了這篇文章,相信你對“Python如何實現Wordcloud生成詞云圖”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。