python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數

發布時間：2020-07-25 09:53:51 來源：網絡閱讀：12850 作者：張大力plus 欄目：大數據

本人長期出售超大量微博數據、旅游網站評論數據，并提供各種指定數據爬取服務，Message to YuboonaZhang@Yahoo.com。同時歡迎加入社交媒體數據交流群：99918768

前言

??為了獲取多源數據需要到各個網站獲取一些景點的評論信息和圖片，首先選到了攜程和螞蜂窩這兩個網站，將一些爬取過程記錄下來

攜程

分析數據

??首先我們去攜程的鼓浪嶼景點速覽看一下我們要爬取的頁面，大概發現有幾十個景點，每個景點的結構應該都是差不多的，所以我們選擇第一個景點進去看看具體的頁面應該怎么爬取。

$python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數$

我們需要的是紅圈的部分，很容易可以知道這個評論頁面是動態加載的，所以不能直接用bs4或者正則直接提取元素，我們需要分析一下頁面動態傳輸的接口。打開chrome審查元素,切換到network查看一下傳輸的內容，首先清空內容避免干擾，然后點擊下一頁，我們可以得到

$python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數$

通過查看傳回的數據我們可以得到這就是我們所要的接口，使用的是post進行傳輸，傳輸的Form Data 有很多字段，大致可以猜測出來

poiID 是景點的poiID pagenow 是當前的頁數 star 是評分1-5，0代表全部 resourceId 是一個每個資源對應的值

爬取的時候只需要改變這些值就可以根據自己的需求爬取內容了，但是需要注意的事攜程的pagenow最多只能獲取100頁，而且poiID和resourceId的值是沒有規律的，需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值，并存在文本中，文末有github的共享。

建庫

??我們要做的第一件事就是想好數據庫的結構,我選擇的還是使用mysql，具體的結構如下：

$python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數$

獲取數據

??這個我就不具體分析了，也不難，就是有幾個坑要注意一下。

第一，不是所有評論都有景色，性價比之類的評分，所以這里要加一個判斷。 第二，原來是有出行時間這一項的，現在好像沒有了額。 第三，評論文本可能會出現單引號，插入數據庫會出現錯誤，要轉義或者替代一下。 第四，抓取速度不要太快，攜程反扒還是比較厲害的。

螞蜂窩

分析數據

??同樣，螞蜂窩的數據也是動態加載的，用相同的方法查看分析數據接口。

$python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數$

可以看到螞蜂窩的數據獲取方式是get，我們可以找出請求的url的規律。經過比較不同景點和不同頁面的數據，我們發現參數的改變主要在兩個地方，一個是poiid我用href代替，一個是頁數我用num代替。獲取景點的評論數據只要改變這兩個值就可以了

url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475?ms=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'

獲取每個景點的poi

這個不是post請求我們就不必一個個景點去獲取參數了，我們可以訪問這個站點來發現所有的用戶，然而這個站點的數據也是動態加載的

$python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數$

根據上面的圖片我們可以清晰的看到我們只需要傳入頁碼數就可以得到所有的景點的poiid,然后根據這些poiid我們就可以得到所有的評論數據，這一部分我們用一個函數來處理

def get_param():
    # 獲取所有景點的參數
    total = []
    router_url = 'http://www.mafengwo.cn/ajax/router.php'
    for num in range(1, 6):
        params = {
            'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
            'iMddid': 12522,
            'iTagId': 0,
            'iPage': num
        }
        pos = requests.post(url=router_url, data=params, headers=headers).json()
        soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')

        result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
                  soup_pos.find_all('a')]
        total.extend(result)

    return total

??其余部分相似，不再過多說明。

個人博客

8aoy1.cn

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數

前言

攜程

分析數據

建庫

獲取數據

螞蜂窩

分析數據

獲取每個景點的poi

個人博客

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬取攜程和螞蜂窩的景點評論數據\python爬取攜程評論數據\python旅游網站評論數

前言

攜程

分析數據

建庫

獲取數據

螞蜂窩

分析數據

獲取每個景點的poi

個人博客

猜你喜歡

最新資訊

相關推薦

相關標簽