python怎么爬取天貓店鋪商品鏈接

發布時間：2021-04-27 14:54:04 來源：億速云閱讀：205 作者：小新欄目：編程語言

這篇文章主要介紹python怎么爬取天貓店鋪商品鏈接，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

python可以做什么

Python是一種編程語言，內置了許多有效的工具，Python幾乎無所不能，該語言通俗易懂、容易入門、功能強大，在許多領域中都有廣泛的應用，例如最熱門的大數據分析，人工智能，Web開發等。

在使用python爬蟲爬取網頁時會遇到很多含有特殊符號的情況，當把鏈接復制到瀏覽器打開，發現每個節點都多了個\，直接使用response.xpath()無法定位元素，為避免定位不到元素的問題，應先對響應內容做一下過濾，然后使用response.replace()將過濾后的html文檔重新賦值給response，本文以爬取天貓店鋪商品鏈接為例，向大家介紹爬取過程。

爬取思路

1、使用response.text獲取html文本，去除其中的\；

2、使用response.replace() 重新將去除\后的html賦值給response；

3、使用response.xpath()定位元素，成功獲取商品鏈接。

具體代碼

# -*- coding: utf-8 -*-
import re
import scrapy


class TmallSpider(scrapy.Spider):
    name = 'tmall'
    allowed_domains = ['tmall.com']
    start_urls = [
        'https://wogeliou.tmall.com/i/asynSearch.htm?_ksTS=1611910763284_313&callback=
        jsonp314&mid=w-22633333039-0&wid=22633333039&path=/search.htm&search=y&spm=a220o.1000855.0.0.7fcc367fsdZyLF'
    ]

    custom_settings = {
        'ITEM_PIPELINES': {
            'tn_scrapy.pipelines.TnScrapyPipeline': 300,
        },
        'DEFAULT_REQUEST_HEADERS': {
            "user-agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
            Chrome/78.0.3904.70 Safari/537.36',
            'cookie': '登錄后的cookie'
        }
    }

    def parse(self, response):
        html = re.findall(r'jsonp\d+\("(.*?)"\)', response.text)[0]
        # 替換掉 \
        html = re.sub(r'\\', '', html)
        # print('html:', html)
        response = response.replace(body=html)
        link = response.xpath('//div[@class="item5line1"]/dl/dd[@class="detail"]/a/@href').extract()
        print('link: ', link)

以上是“python怎么爬取天貓店鋪商品鏈接”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python怎么爬取天貓店鋪商品鏈接

python可以做什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python怎么爬取天貓店鋪商品鏈接

python可以做什么

猜你喜歡

最新資訊

相關推薦

相關標簽