91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

發布時間:2021-10-26 09:20:03 來源:億速云 閱讀:229 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關Python怎么爬取安居客租房數據并設置排除自己條件以外的數據,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

前言

小編可能準備去深圳,需要租房子,在網上先查了查,有很多租房軟件,安居客,貝殼等,也向身邊的人問了問,安居客聽到的次數多一些,于是選擇安居客去查看一些租房信息。

在瀏覽過程中,雖然安居客有過濾標簽,按價格,區域,房型,類型這四個來過濾的,但感覺還是不是理想中的信息,而且特別多,看不過來。

所以小編決定使用 python 爬取上面的數據,并自己設置過濾條件,從很多房源中過濾出自己需要的房源,既提高效率,又能找到比較理想的。.

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

區域因為不太了解每個行政區的范圍,所以不知道每個區域的距離,只選擇某個區又太單一了,不能了解整體,所以區域選擇默認的全部標簽。

一頁有 60 條數據,有 50 頁,可以得到 3000 條數據,這些足夠了,多了也看不過來。

爬蟲的邏輯是不難,從第一頁一直到最后一頁,先爬取每一頁房源鏈接,從爬取房源鏈接中的詳細信息。

主要爬取標題,房屋信息,房屋有的設施,房源概況:

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

核心代碼如下:

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

第二個問題就是會遇到驗證碼,可能是點擊字體的,可能是滑塊,很麻煩,所以這個小編是在程序中判斷是否出現驗證碼。

出現驗證碼程序會輸出提示,手動點擊驗證碼后,按回車繼續爬取,在爬取過程中小編只遇到過一次驗證碼。

其他的邏輯比較簡單,感興趣的參考源碼即可。

 數據過濾

獲得數據就可以自己設置過濾條件了,因為小編需要知道每條房源在哪里,先構造每條房源的區域:

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

標簽中如果有【號線】代表有地鐵幾號線,那概況中應該也會提到地鐵要不然讓人懷疑是騙人的,所以以這兩個進行過濾,2000 多條一下就過濾剩下 500 多條:

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

過濾后一下剩下 200 多條,還是有點多,現在是包含所有區域的:

Python怎么爬取安居客租房數據并設置排除自己條件以外的數據

小編抽取了幾條數據,點開鏈接,大部分還是都能接受。為了點題,現在的我應該表示很傷心。

以上就是Python怎么爬取安居客租房數據并設置排除自己條件以外的數據,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

景德镇市| 阿拉尔市| 青州市| 涟水县| 永安市| 宜兴市| 兴安县| 平原县| 大丰市| 呈贡县| 灵璧县| 澄江县| 深水埗区| 哈巴河县| 洛宁县| 贡觉县| 沧州市| 秭归县| 灵武市| 江华| 通化县| 武城县| 潍坊市| 深圳市| 息烽县| 合水县| 武威市| 宁陕县| 称多县| 晋宁县| 湘潭市| 泰和县| 长宁区| 张家口市| 三门县| 福海县| 深圳市| 尚志市| 墨江| 临江市| 和平县|