91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python怎么通過文本文件限制爬蟲

發布時間:2020-11-30 10:51:31 來源:億速云 閱讀:215 作者:小新 欄目:編程語言

小編給大家分享一下python怎么通過文本文件限制爬蟲,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

我們最近講過的一些限制爬蟲方法,都需要自己手動輸入代碼進行調試。根據我們學過的插件安裝,是不是在python爬蟲中也有類似簡便的辦法,能輕松地起到阻攔的作用呢?小編想說有一種文本文件的方法正好符合python初學者的安裝需求,接下來我們就robots.txt進行簡單介紹以及其限制爬蟲的方法。

robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。robots.txt應放置于網站的根目錄下。如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合并到根目錄下的robots.txt,或者使用robots元數據(Metadata,又稱元數據)。

robots.txt協議并不是一個規范,而只是約定俗成的,所以并不能保證網站的隱私。注意robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有與沒有斜杠“/”表示的是不同的URL。robots.txt允許使用類似"Disallow: *.gif"這樣的通配符。

itunes的robots.txt

python怎么通過文本文件限制爬蟲

 

缺點:

只是一個君子協議,對于良好的爬蟲比如搜索引擎有效果,對于有目的性的爬蟲不起作用

以上是“python怎么通過文本文件限制爬蟲”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

衡阳县| 田林县| 遂川县| 邢台市| 龙山县| 岐山县| 米林县| 博湖县| 黎城县| 孟村| 师宗县| 富源县| 诸城市| 汕头市| 泗水县| 英吉沙县| 新密市| 涪陵区| 酒泉市| 海淀区| 大安市| 三穗县| 张掖市| 秦安县| 台东市| 白水县| 西吉县| 理塘县| 镇平县| 石台县| 唐山市| 黔西| 常宁市| 霞浦县| 宝山区| 玉田县| 格尔木市| 孝感市| 报价| 新化县| 松桃|