您好,登錄后才能下訂單哦!
這篇文章主要介紹python怎么爬取天貓店鋪商品鏈接,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
Python是一種編程語言,內置了許多有效的工具,Python幾乎無所不能,該語言通俗易懂、容易入門、功能強大,在許多領域中都有廣泛的應用,例如最熱門的大數據分析,人工智能,Web開發等。
在使用python爬蟲爬取網頁時會遇到很多含有特殊符號的情況,當把鏈接復制到瀏覽器打開,發現每個節點都多了個\,直接使用response.xpath()無法定位元素,為避免定位不到元素的問題,應先對響應內容做一下過濾,然后使用response.replace()將過濾后的html文檔重新賦值給response,本文以爬取天貓店鋪商品鏈接為例,向大家介紹爬取過程。
爬取思路
1、使用response.text獲取html文本,去除其中的\;
2、使用response.replace() 重新將去除\后的html賦值給response;
3、使用response.xpath()定位元素,成功獲取商品鏈接。
具體代碼
# -*- coding: utf-8 -*- import re import scrapy class TmallSpider(scrapy.Spider): name = 'tmall' allowed_domains = ['tmall.com'] start_urls = [ 'https://wogeliou.tmall.com/i/asynSearch.htm?_ksTS=1611910763284_313&callback= jsonp314&mid=w-22633333039-0&wid=22633333039&path=/search.htm&search=y&spm=a220o.1000855.0.0.7fcc367fsdZyLF' ] custom_settings = { 'ITEM_PIPELINES': { 'tn_scrapy.pipelines.TnScrapyPipeline': 300, }, 'DEFAULT_REQUEST_HEADERS': { "user-agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36', 'cookie': '登錄后的cookie' } } def parse(self, response): html = re.findall(r'jsonp\d+\("(.*?)"\)', response.text)[0] # 替換掉 \ html = re.sub(r'\\', '', html) # print('html:', html) response = response.replace(body=html) link = response.xpath('//div[@class="item5line1"]/dl/dd[@class="detail"]/a/@href').extract() print('link: ', link)
以上是“python怎么爬取天貓店鋪商品鏈接”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。