您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關Python如何進行包圖網免費付費素材爬取,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
包圖網大家都知道吧 集齊海量設計素材 十分好用 可惜太貴了,今天就帶大家使用Python—爬蟲爬取這些素材并且保存到本地!
抓取一個網站的內容,我們需要從以下幾方面入手:
1-如何抓取網站的下一頁鏈接?
2-目標資源是靜態還是動態(視頻、圖片等)
3-該網站的數據結構格式
import requestsfrom lxml import etreeimport threading class Spider(object): def __init__(self): self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"} self.offset = 1 def start_work(self, url): print("正在爬取第 %d 頁......" % self.offset) self.offset += 1 response = requests.get(url=url,headers=self.headers) html = response.content.decode() html = etree.HTML(html) video_src = html.xpath('//div[@class="video-play"]/video/@src') video_title = html.xpath('//span[@class="video-title"]/text()') next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0] # 爬取完畢... if next_page == "http:": return self.write_file(video_src, video_title) self.start_work(next_page) def write_file(self, video_src, video_title): for src, title in zip(video_src, video_title): response = requests.get("http:"+ src, headers=self.headers) file_name = title + ".mp4" file_name = "".join(file_name.split("/")) print("正在抓取%s" % file_name) with open('E://python//demo//mp4//'+file_name, "wb") as f: f.write(response.content) if __name__ == "__main__": spider = Spider() for i in range(0,3): # spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html") t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",)) t.start()
效果展示
上述就是小編為大家分享的Python如何進行包圖網免費付費素材爬取了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。