您好,登錄后才能下訂單哦!
本人長期出售超大量微博數據、旅游網站評論數據,并提供各種指定數據爬取服務,Message to YuboonaZhang@Yahoo.com。同時歡迎加入社交媒體數據交流群:99918768
??為了獲取多源數據需要到各個網站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網站,將一些爬取過程記錄下來
??首先我們去攜程的鼓浪嶼景點速覽看一下我們要爬取的頁面,大概發現有幾十個景點,每個景點的結構應該都是差不多的,所以我們選擇第一個景點進去看看具體的頁面應該怎么爬取。
我們需要的是紅圈的部分,很容易可以知道這個評論頁面是動態加載的,所以不能直接用bs4或者正則直接提取元素,我們需要分析一下頁面動態傳輸的接口。打開chrome審查元素,切換到network查看一下傳輸的內容,首先清空內容避免干擾,然后點擊下一頁,我們可以得到
通過查看傳回的數據我們可以得到這就是我們所要的接口,使用的是post進行傳輸,傳輸的Form Data 有很多字段,大致可以猜測出來
poiID 是景點的poiID </br> pagenow 是當前的頁數 </br> star 是評分1-5,0代表全部 </br> resourceId 是一個每個資源對應的值
爬取的時候只需要改變這些值就可以根據自己的需求爬取內容了,但是需要注意的事攜程的pagenow最多只能獲取100頁,而且poiID和resourceId的值是沒有規律的,需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值,并存在文本中,文末有github的共享。
??我們要做的第一件事就是想好數據庫的結構,我選擇的還是使用mysql,具體的結構如下:
??這個我就不具體分析了,也不難,就是有幾個坑要注意一下。
第一,不是所有評論都有景色,性價比之類的評分,所以這里要加一個判斷。</br> 第二,原來是有出行時間這一項的,現在好像沒有了額。</br> 第三,評論文本可能會出現單引號,插入數據庫會出現錯誤,要轉義或者替代一下。</br> 第四,抓取速度不要太快,攜程反扒還是比較厲害的。
??同樣,螞蜂窩的數據也是動態加載的,用相同的方法查看分析數據接口。
可以看到螞蜂窩的數據獲取方式是get,我們可以找出請求的url的規律。經過比較不同景點和不同頁面的數據,我們發現參數的改變主要在兩個地方,一個是poiid我用href代替,一個是頁數我用num代替。獲取景點的評論數據只要改變這兩個值就可以了
url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18105332634542482972_1511924148475?ms=%7B%22poi_id%22%3A%22{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D'
這個不是post請求我們就不必一個個景點去獲取參數了,我們可以訪問這個站點來發現所有的用戶,然而這個站點的數據也是動態加載的
根據上面的圖片我們可以清晰的看到我們只需要傳入頁碼數就可以得到所有的景點的poiid,然后根據這些poiid我們就可以得到所有的評論數據,這一部分我們用一個函數來處理
def get_param():
# 獲取所有景點的參數
total = []
router_url = 'http://www.mafengwo.cn/ajax/router.php'
for num in range(1, 6):
params = {
'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
'iMddid': 12522,
'iTagId': 0,
'iPage': num
}
pos = requests.post(url=router_url, data=params, headers=headers).json()
soup_pos = BeautifulSoup(pos['data']['list'], 'lxml')
result = [{'scenery': p['title'], 'href': re.findall(re.compile(r'/poi/(\d+).html'), p['href'])[0]} for p in
soup_pos.find_all('a')]
total.extend(result)
return total
??其余部分相似,不再過多說明。
8aoy1.cn
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。