您好,登錄后才能下訂單哦!
這篇文章主要介紹“怎么用Python分析紅樓夢關鍵詞”,在日常操作中,相信很多人在怎么用Python分析紅樓夢關鍵詞問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么用Python分析紅樓夢關鍵詞”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
Python工具包準備
想要完成一個文本的分詞,我們需要分詞工具;而要將分詞統計結果用詞云圖畫出來,我們需要一個詞云工具:
jieba 是基于Python的中文分詞工具,安裝使用非常方便。
我們使用pip安裝:
wordcloud庫,可以說是python非常優秀的詞云展示第三方庫。詞云以詞語為基本單位更加直觀和藝術的展示文本詞云圖,也叫文字云,是對文本中出現頻率較高的“關鍵詞”予以視覺化的展現,詞云圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文本的主旨。
效果舉例:
我們使用pip安裝:
文本和圖片準備
為了讓分詞工具進行分析,我們下載紅樓夢小說txt格式。為了方便,我們將紅樓夢文檔放在程序“fenci.py”所在目錄“分詞”下的txt文件夾里面:
像上面的詞云圖的形狀是一個鯨魚,我們需要準備一個有圖案的背景圖,讓最后的詞云圖貼合背景圖案。
我們選用這張寶玉的美男子畫像圖作為背景圖:
文件保存在程序當前文件夾的img目錄下:
在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為StopWords(停用詞)。
但是,由于紅樓夢有很多特殊的用詞,比如“這會子”,"明兒"等等,大家可以選擇自行添加一些停用詞。比如我加了一些詞:
我們把停用詞放在words文件夾下面:
程序運行
我們將最大次數設置成500個,為了能讓背景圖案比較明顯:
從結果看來,寶玉是當之無愧的主角。鳳姐,賈母,王夫人等人戲份也不少。由于黛玉和林黛玉被分成了兩個詞,因此顯得戲份很少,大家想想有沒有辦法解決這個問題?另外,我們可以看到“這會子”這個詞出現頻率也不低,從中可以一窺當時的方言的感覺。
到此,關于“怎么用Python分析紅樓夢關鍵詞”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。