91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何通過Python爬取網頁抖音熱門視頻

發布時間:2021-10-26 10:03:06 來源:億速云 閱讀:1734 作者:柒染 欄目:大數據

如何通過Python爬取網頁抖音熱門視頻,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

前言

抖音短視頻相信大家都聽過,也不陌生對吧!可以看到海量的短視頻,涵蓋了各大行業。個人覺得抖音有毒,刷著刷著根本停不下來,一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視頻數據!一睹為快吧

1、系統分析網頁性質

2、正則提取數據(難點)

3、海量音頻數據保存

環境介紹:

python 3.6
pycharm
requests
re

爬蟲的一般思路

1、分析目標網頁,確定爬取的url路徑,headers參數

2、發送請求 -- requests 模擬瀏覽器發送請求,獲取響應數據

3、解析數據 -- 正則表達式

4、保存數據 -- 保存在目標文件夾中

如何通過Python爬取網頁抖音熱門視頻

步驟:

1、導入工具

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

2、分析目標網頁,確定爬取的url路徑,headers參數

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

如何通過Python爬取網頁抖音熱門視頻

3、發送請求 -- requests 模擬瀏覽器發送請求,獲取響應數據

response = requests.get(url=base_url, headers=headers)
html_data = response.text

4、解析數據 -- 正則表達式

pattern = re.compile('onclick="open1\(\'(.*?)\',\'(.*?)\',\'\'\)')
result = pattern.findall(html_data)
print(result)

5、構建一個for循環

for page in range(8, 10):
    print('===================正在取第{}頁數據================='.format(page))
    # 1、分析目標網頁,確定爬取的url路徑,headers參數
    base_url = 'http://douyin.bm8.com.cn/d_{}.html'.format(page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

6、處理文件名非法字符

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? ">

7、保存數據 -- 保存在目標文件夾中

for title, url in result:
        # 請求抖音視頻數據
        data = requests.get(url=url, headers=headers).content

        new_title = change_title(title)
        with open('videos\\' + new_title + '.mp4', mode='wb') as f:
            f.write(data)
            print('保存完成:', title)

如何通過Python爬取網頁抖音熱門視頻

看完上述內容,你們掌握如何通過Python爬取網頁抖音熱門視頻的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

乌拉特后旗| 蓝山县| 沙田区| 定结县| 增城市| 重庆市| 临泉县| 定州市| 余干县| 平利县| 建平县| 保山市| 鱼台县| 江华| 龙井市| 河间市| 繁昌县| 镇康县| 永登县| 手游| 龙岩市| 万宁市| 惠水县| 望谟县| 抚宁县| 承德县| 密云县| 庆城县| 嘉鱼县| 肥城市| 新宾| 南江县| 莱阳市| 铁岭市| 阿勒泰市| 东丰县| 称多县| 台州市| 通江县| 静乐县| 临沂市|