91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何實現抖音評論數據抓取

發布時間:2022-01-21 09:14:13 來源:億速云 閱讀:5017 作者:小新 欄目:開發技術

小編給大家分享一下Python如何實現抖音評論數據抓取,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

1. 抓取數據

抖音出了 web 版,抓取數據方便了很多。

Python如何實現抖音評論數據抓取

抓評論

滑到網頁評論區,在瀏覽器網絡請求里過濾包含comment的請求,不斷刷新評論就可以看到評論的接口。

有了接口,就可以寫 Python 程序模擬請求,獲取評論數據。

請求數據要設置一定間隔,避免過大請求,影響別人服務

抓取評論數據有兩點需要注意:

  • 有時候接口可能返回空數據,因此需要多試幾次,一般過了人工滑動驗證后的接口基本可用

  • 不同頁面之間的數據可能會重復,所以需要跳頁請求

2. EDA

11.17 號的視頻有 12w 條評論,我只抓取了 1w 多條。

Python如何實現抖音評論數據抓取

text列是評論。

先對數據做一些探索性的分析,之前介紹過幾個EDA工具,可以自動產出基礎的數據統計和圖表。

這次我用的是ProfileReport

# eda
profile = ProfileReport(df, title='張同學抖音評論數據', explorative=True)
profile

Python如何實現抖音評論數據抓取

評論時間分布

從評論的時間分布來看,由于發布的視頻的時間是17號,所有17、18號評論發布量比較多。不過再往后甚至到了 12.9 號,仍然有不少新評論產生,說明視頻熱度確實很高。

Python如何實現抖音評論數據抓取

評論的長度分布

大多數評論的字數在 20 以內,基本不超過 40 個字,說明都是短文本。

Python如何實現抖音評論數據抓取

評論者身份

參與評論的人里, 99.8% 是沒有認證身份的,說明評論用戶里基本都是普通用戶。

3. LDA

上面的統計數據還是太粗略了。但我們要想知道大家的感興趣點在哪,又不可能細到把 1.2w 條評論全部看完。

所以需要對這些評論先做一次歸類,相當于把數據升維,抽象。因為只有將數據升維,了解每個維度的含義和占比,才能幫助我們從全局角度掌握數據。

這里我用LDA算法對文本聚類,聚合在一起的評論可以看做屬于同一個主題。

LDA算法的核心思想有兩點:

  • 具有一定相似性的文本會聚合在一起,形成一個主題。每個主題包含生成該主題需要的詞,以及這些詞的概率分布。以此可以人為推斷出主題的類別。

  • 每篇文章會它有在所有主題下的概率分布,以此可以推斷出文章屬于哪個主題。

比如,經過LDA算法聚類后,某個主題中,戰爭、軍費這類詞出現概率很高,那么我們可以將該主題歸類為軍事。如果有一篇文章屬于軍事主題的概率很高,我們就可以將該文章分為軍事一類。

簡單介紹完LDA的理論,下面我們來實戰一下。

3.1 分詞、去停用詞

# 分詞

emoji = {'可憐', '發呆', '暈', '靈機一動', '擊掌', '送心', '泣不成聲', '哈欠', '舔屏', '偷笑', '愉快', '再見', '666', '熊吉', '尬笑', '吐舌', '撇嘴', '看', '綠帽子', '捂臉', '呆無辜', '強壯', '震驚', '陰險', '絕', '給力', '打臉', '咖啡', '衰', '一起加油', '酷拽', '流淚', '黑臉', '愛心', '笑哭', '機智', '困', '微笑袋鼠', '強', '閉嘴', '來看我', '色', '憨笑', '不失禮貌的微笑', '紅臉', '摳鼻', '調皮', '紫薇別走', '贊', '比心', '悠閑', '玫瑰', '抱拳', '小鼓掌', '握手', '奸笑', '害羞', '快哭了', '噓', '驚訝', '豬頭', '吐', '暗中觀察', '不看', '啤酒', '呲牙', '發怒', '絕望的凝視', '大笑', '吐血', '壞笑', '凝視', '可愛', '擁抱', '擦汗', '鼓掌', '勝利', '感謝', '思考', '微笑', '疑問', '我想靜靜', '靈光一閃', '白眼', '淚奔', '耶'}
stopwords = [line.strip() for line in open('stop_words.txt', encoding='UTF-8').readlines()]

def fen_ci(x):
    res = []
    for x in jieba.cut(x):
        if x in stopwords or x in emoji or x in ['[', ']']:
            continue
        res.append(x)
    return ' '.join(res)

df['text_wd'] = df['text'].apply(fen_ci)

由于評論中有許多 emoji 表情, 我抽取了所以 emoji 表情對應的文本,生成 emoji 數組,用于過濾表情詞。

3.2 調用LDA

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np

def run_lda(corpus, k):
    cntvec = CountVectorizer(min_df=2, token_pattern='\w+')
    cnttf = cntvec.fit_transform(corpus)
    
    lda = LatentDirichletAllocation(n_components=k)
    docres = lda.fit_transform(cnttf)
    
    return cntvec, cnttf, docres, lda
    
cntvec, cnttf, docres, lda = run_lda(df['text_wd'].values, 8)

經過多次試驗,將數據分成 8 類效果較好。

選取每個主題下出現概率 top20 的詞:

Python如何實現抖音評論數據抓取

主題的詞分布

從這些詞概率分布,歸納各主題的類別,主題0 ~ 主題7分別是:居然看完、知道鑰匙在哪、農村生活、喂狗、拍攝手法、還用鎖門?、雞蛋放鹽多、襪子放枕頭下。

統計主題占比:

Python如何實現抖音評論數據抓取

主題占比

紅色的是主題3(喂狗),占比最大,很多人評論是:以為要做給自己吃,沒想到是喂狗的。我看的時候也是這樣認為的。

其他各主題占比比較均勻。

經過主題分類后,我們可以發現,張同學不僅僅是農村生活引起了大家的關注,更多的是視頻中大量反常態的鏡頭。

最后,用樹狀圖展示各主題及對應的具體評論。

Python如何實現抖音評論數據抓取

看完了這篇文章,相信你對“Python如何實現抖音評論數據抓取”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

苏州市| 淳安县| 沂南县| 泌阳县| 昌邑市| 潼关县| 南陵县| 东乌| 安阳市| 长汀县| 都昌县| 桓台县| 克什克腾旗| 乌拉特后旗| 扎鲁特旗| 肃北| 潢川县| 山阴县| 高安市| 资兴市| 合川市| 府谷县| 独山县| 苗栗县| 闽侯县| 满洲里市| 涟水县| 萝北县| 梅河口市| 永丰县| 正蓝旗| 恭城| 简阳市| 江油市| 平阴县| 平谷区| 尖扎县| 延津县| 镇坪县| 定南县| 陕西省|