91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

太行山有Python爬取微博數據

發布時間:2021-10-11 17:02:02 來源:億速云 閱讀:215 作者:柒染 欄目:大數據

今天就跟大家聊聊有關太行山有Python爬取微博數據,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

爬蟲的最大功能之一就是整合數據,能弄到更全面的信息,真正做好大數據的分析,在這個數據說話的年代,影響是決定性的。(注意別侵權)



?思路流程


1、利用chrome瀏覽器,獲取自己的cookie。

2、獲取你要爬取的用戶的微博User_id

3、將獲得的兩項內容填入到weibo.py中,替換代碼中的YOUR_USER_ID和#YOUR_COOKIE,運行代碼。

?完整代碼

import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3):    page = str(p)    url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page    data = requests.get(url)    data_text = data.text    data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)    num = len(data_num)    for i in range(0,num):        url_detail = "https://m.weibo.cn/detail/" + data_num[i]        html = requests.get(url_detail)        time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)        timedata.append(time.group(1))        tm.sleep(random.uniform(1,4)) #反爬間隔        print("采集第%d頁第%d條微博數據"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')

用wordcloud等軟件生成詞云,它會根據信息的頻率、權重按比列顯示關鍵字的字體大小。

看完上述內容,你們對太行山有Python爬取微博數據有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

武宣县| 浦东新区| 婺源县| 广西| 和静县| 贡嘎县| 贵阳市| 松滋市| 武夷山市| 玉屏| 宜春市| 读书| 奈曼旗| 修武县| 元朗区| 福清市| 营山县| 榆社县| 繁峙县| 吴桥县| 凤阳县| 宜阳县| 柘荣县| 临沭县| 安远县| 神木县| 漠河县| 报价| 贵定县| 罗田县| 大田县| 承德县| 共和县| 蓝山县| 大港区| 察隅县| 大埔县| 健康| 绥宁县| 乃东县| 孙吴县|