91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python統計180班QQ群聊文本可視化分析

發布時間:2021-10-19 10:21:07 來源:億速云 閱讀:127 作者:柒染 欄目:大數據

如何使用Python統計180班QQ群聊文本可視化分析,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

如何使用Python統計180班QQ群聊文本可視化分析

如何使用Python統計180班QQ群聊文本可視化分析

今天是八月三號  
 
習慣性的身邊復習的同學離開  
 
人越來越少
亞軍是我老鄉,也回家了  
 
寢室剩下我一人   如何使用Python統計180班QQ群聊文本可視化分析  
近幾天一直沒去復習  
 
復習狀態一直不太好  
 
只能看看課外書
學學Python,機器學習,數據挖掘...  
 
相關的書籍,為以后數據分析積累知識  
 
如何使用Python統計180班QQ群聊文本可視化分析
今天給大家講講我們班  
 
2016級統計學180班  
 
我們班有來自不同的地方  
 
標紅點的為來源的地方  
 
其中以河南省的同學人數最多

如何使用Python統計180班QQ群聊文本可視化分析

轉眼就到大四年級,留在學校的時日不多了

    
首先要獲取QQ群聊的文本數據
而爬蟲可以很好的實現網頁數據的爬取
一般爬取數據流程如下所示

如何使用Python統計180班QQ群聊文本可視化分析

分為網站請求、偽裝、解析、存儲四個過程

更為詳細的爬取流程如下所示

如何使用Python統計180班QQ群聊文本可視化分析

需要添加一些規則

然而,本文的文本數據

是我從QQ電腦端后臺導出的

目前對于網絡爬蟲的學習

我只會豆瓣影評、書評、淘寶價格的爬取

等具體學習成熟了

發一篇網絡爬蟲的推文

敬請期待

如何使用Python統計180班QQ群聊文本可視化分析

導出文本數據后

編寫程序,調試代碼,做可視化分析

詳細代碼如下所示

#QQ群聊數據分析代碼import reimport datetimeimport seaborn as snsimport matplotlib.pyplot as pltimport jiebafrom wordcloud import WordCloud, STOPWORDSfrom scipy.misc import imread# 日期def get_date(data): # 日期   dates = re.findall(r'\d{4}-\d{2}-\d{2}', data)   # 天   days = [date[-2:] for date in dates]   plt.subplot(221)   sns.countplot(days)   plt.title('Days')   # 周幾   weekdays = [datetime.date(int(date[:4]), int(date[5:7]), int(date[-2:])).isocalendar()[-1]               for date in dates]   plt.subplot(222)   sns.countplot(weekdays)   plt.title('WeekDays')# 時間def get_time(data):   times = re.findall(r'\d{2}:\d{2}:\d{2}', data)   # 小時   hours = [time[:2] for time in times]   plt.subplot(223)   sns.countplot(hours, order=['06', '07', '08', '09', '10', '11', '12', '13', '14', '15', '16', '17',                               '18', '19', '20', '21', '22', '23', '00', '01', '02', '03', '04', '05'])   plt.title('Hours')代碼演示:# 詞云def get_wordclound(text_data):   word_list = [" ".join(jieba.cut(sentence)) for sentence in text_data]   new_text = ' '.join(word_list)   pic_path = 'QQ.jpg'   mang_mask = imread(pic_path)   plt.subplot(224)   wordcloud = WordCloud(background_color="white", font_path='/home/shen/Downloads/fonts/msyh.ttc',                         mask=mang_mask, stopwords=STOPWORDS).generate(new_text)   plt.imshow(wordcloud)   plt.axis("off")# 內容及詞云def get_content(data):   pa = re.compile(r'\d{4}-\d{2}-\d{2}.*?\(\d+\)\n(.*?)\n\n', re.DOTALL)   content = re.findall(pa, data)   get_wordclound(content)def run():   filename = '新建文本文檔.txt'   with open(filename) as f:       data = f.read()   get_date(data)   get_time(data)   get_content(data)   plt.show()
 

如何使用Python統計180班QQ群聊文本可視化分析

做出文本可視話圖后,可以得出如下結論

在2018年1月1日~1月31日統計180班群聊中

1月2日這一天群聊次數最多

每周的星期二群聊次數做多

每天的16時群聊次數最多

做詞云圖發現

“全體成員”出現的詞頻最多


關于如何使用Python統計180班QQ群聊文本可視化分析問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

十堰市| 加查县| 城步| 玉山县| 明光市| 玉树县| 平罗县| 三门峡市| 漳平市| 前郭尔| 关岭| 沁水县| 阳信县| 福安市| 上杭县| 漳平市| 全椒县| 巴塘县| 扶沟县| 望奎县| 车险| 鲁山县| 沁阳市| 响水县| 拜城县| 理塘县| 和平区| 金乡县| 蒙城县| 若尔盖县| 霍山县| 定南县| 来凤县| 思茅市| 兴文县| 托克逊县| 南和县| 康保县| 科技| 马边| 项城市|