91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

記一次不太成功的爬取dingtalk上的企業的信息

發布時間:2020-08-10 18:34:32 來源:網絡 閱讀:724 作者:luckky 欄目:編程語言

首先打開這個鏈接https://www.dingtalk.com/qiye/1.html,可以網頁列出了很多企業,點擊企業,就看到了企業的信息。
記一次不太成功的爬取dingtalk上的企業的信息
所以,我們的思路就很明確了,通過https://www.dingtalk.com/qiye/1.html這個入口鏈接獲取企業的URL,然后通過訪問企業的URL獲取企業的信息。在jupyter notebook中試一下。
記一次不太成功的爬取dingtalk上的企業的信息
企業的URL已經獲取到了,然后再訪問企業的URL,看看能否獲取到企業的信息。
沒有。
寫請求頭,請求頭包含兩項,一個是cookie,一個user-agent。加上請求頭再試試看,有了。
記一次不太成功的爬取dingtalk上的企業的信息
發現企業信息在js代碼里,寫正則表達式

patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok,成功匹配出來
記一次不太成功的爬取dingtalk上的企業的信息
到此,發現很簡單了,立馬就把代碼給寫了出來,但發現一些問題,只有一部分企業的信息爬取了出來,大部分企業信息都獲取失敗了。這是咋回事呢,原來啊,有的企業URL源碼里有企業信息,而有的沒有。
記一次不太成功的爬取dingtalk上的企業的信息
記一次不太成功的爬取dingtalk上的企業的信息
然后,我查看完整企業信息,發現這個
記一次不太成功的爬取dingtalk上的企業的信息
但是,我無法構造這個鏈接,憂傷。
所以,整個爬蟲到此為止。寫代碼的時候,原本想用入口鏈接不斷下一頁獲取所有企業URL,但一想,算了吧,直接簡單粗暴一點。然后呢,爬取的時候,爬取速度好慢。
最后,附上垃圾的源碼github。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

长宁县| 乳山市| 衡阳市| 玉树县| 定襄县| 本溪市| 游戏| 文昌市| 余干县| 潍坊市| 慈溪市| 屯留县| 大渡口区| 荔浦县| 浮山县| 特克斯县| 潼南县| 文安县| 台前县| 鲁甸县| 弋阳县| 双桥区| 玛纳斯县| 定南县| 英德市| 桐城市| 叶城县| 罗甸县| 讷河市| 金山区| 湘潭市| 濮阳县| 宁安市| 进贤县| 南安市| 山东| 安新县| 和平区| 宝应县| 清水河县| 伊宁市|