Python怎么爬取yy全站小視頻

發布時間：2021-11-23 09:42:36 來源：億速云閱讀：197 作者：iii 欄目：大數據

本篇內容介紹了“Python怎么爬取yy全站小視頻”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

基本開發環境

Python 3.6
Pycharm

一、確定目標需求

Python怎么爬取yy全站小視頻

百度搜索YY，點擊分類選擇小視頻，里面的小姐姐自拍的短視頻就是我們所需要的數據了。

Python怎么爬取yy全站小視頻

如圖所示，所框選的url地址，就是短視頻的播放地址了。

Python怎么爬取yy全站小視頻

第三頁的數據請求參數：

很明顯這是根據data參數中的page改變翻頁的。

構建翻頁循環，獲取視頻url地址以及發布人的名字，保存到本地。

三、代碼實現

1、請求數據接口

import requests
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
params = {
    'callback': 'jQuery112409962628943012035_1613628479734',
    'appId': 'svwebpc',
    'sign': '',
    'data': '{"uid":0,"page":0,"pageSize":10}',
    '_': '1613628479737',
}
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)

問題來了，返回的數據是json數據嘛？

Python怎么爬取yy全站小視頻

如上圖所示，很多人看到這樣的數據肯定就覺得這不就是一個json數據嘛？

Python怎么爬取yy全站小視頻

通過response查看就知道了，返回給我們的數據是多了一段 jQuery112409962628943012035_1613628479734()
其中的json數據是包含在里面的，如果想要提取數據有三種方法。

1、返回response.text，使用正則表達式提取url地址以及發布人的名字

video_url = re.findall('"resurl":"(.*?)"', response.text)
user_name = re.findall('"username":"(.*?)"', response.text)

2、返回response.text，使用正則表達式提取 jQuery112409962628943012035_1613628479734() 中的數據，然后通過json模塊把字符串轉成json數據，然后遍歷提取數據。

string = re.findall('jQuery112409962628943012035_1613628479734\((.*?)\)', response.text)[0]
json_data = json.loads(string)
result = json_data['data']['data']
pprint.pprint(result)

Python怎么爬取yy全站小視頻

3、把請求的url地址中的 callback 刪掉，可以直接獲取json數據

import pprint
import requests

url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
params = {
    'appId': 'svwebpc',
    'sign': '',
    'data': '{"uid":0,"page":1,"pageSize":10}',
    '_': '1613628479737',
}
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
json_data = response.json()
result = json_data['data']['data']
pprint.pprint(result)

2、保存數據

    for index in result:
        video_url = index['resurl']
        user_name = index['username']
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + user_name + '.mp4', mode='wb') as f:
            f.write(video_content)
            print(user_name)

注意點： 用戶名有特殊字符，保存的時候會報錯

Python怎么爬取yy全站小視頻

所以需要使用正則表達式替換掉特殊字符

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? ">

完整實現代碼

import re

import requests
import re


def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title


page = 0
while True:
    page += 1
    url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
    params = {
        'appId': 'svwebpc',
        'sign': '',
        'data': '{"uid":0,"page":%s,"pageSize":10}' % str(page),
        '_': '1613628479737',
    }
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, params=params, headers=headers)
    json_data = response.json()
    result = json_data['data']['data']
    for index in result:
        video_url = index['resurl']
        user_name = index['username']
        new_title = change_title(user_name)
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + new_title + '.mp4', mode='wb') as f:
            f.write(video_content)
            print(user_name)

Python怎么爬取yy全站小視頻

“Python怎么爬取yy全站小視頻”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python怎么爬取yy全站小視頻

基本開發環境

相關模塊的使用

一、確定目標需求

三、代碼實現

完整實現代碼

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python怎么爬取yy全站小視頻

基本開發環境

相關模塊的使用

一、確定目標需求

三、代碼實現

完整實現代碼

猜你喜歡

最新資訊

相關推薦

相關標簽