91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

用python爬取圖片的方法

發布時間:2020-08-06 11:48:35 來源:億速云 閱讀:463 作者:小新 欄目:編程語言

小編給大家分享一下用python爬取圖片的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

都知道Python的語法很簡單易上手,也很適合拿來做爬蟲等等,這里就簡單講解一下爬蟲入門——簡單地爬取下載網站圖片。

代碼:

其實很簡單,我們直接看下整體的代碼:

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

效果

就像這樣自動爬取下載圖片到本地:

用python爬取圖片的方法

導入庫:

第一行的utf-8是為了支持中文。

這里我們導入了兩個庫,分別是 urllib 和 re。urllib 是用來進行 url 網絡請求的,而 re 是一個正則表達式匹配的庫。這里我們要先對網站進行模擬請求,然后找到網站中的圖片進行下載。

請求網站:

第一個方法:getHtml。

這就是用來模擬瀏覽器訪問網站的,參數 url 是要訪問的網站鏈接,這里我們在下面的變量 html 處調用了這個方法,其訪問的 url 是一個圖片網站,關于選擇訪問網站還有一點等下要說一下。

在這個方法中,我們先用了 urllib 庫的 urlopen 方法來打開網站,然后通過 read 方法來獲取網站的源代碼,其實就跟在網頁中“右鍵–>檢查“是一個意思。最后返回了讀取到的網站源代碼。

上面說了要注意的一點是,由于很多網站會禁止人們隨意爬取數據,有反爬蟲的技術,所以在選擇要爬取的網站的時候,最好先通過這個方法獲取網站源代碼,然后 print 輸出 html 變量看一下獲取到的內容是否是正常的網頁源代碼,而不是403之類的禁止訪問,如果被禁止了,那么自然也不可能爬取到數據了。

看完了這篇文章,相信你對用python爬取圖片的方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

班玛县| 察雅县| 拉萨市| 彭泽县| 清新县| 蒙阴县| 章丘市| 九台市| 蓬溪县| 富顺县| 凤山市| 湘潭市| 玉田县| 漳州市| 赤城县| 阿拉尔市| 上饶县| 普兰县| 榆树市| 石门县| 阿拉尔市| 上虞市| 汶上县| 易门县| 余江县| 元江| 邻水| 梁山县| 宾川县| 普洱| 上蔡县| 曲周县| 霞浦县| 贺兰县| 应城市| 美姑县| 河池市| 巴东县| 淮阳县| 光山县| 祁东县|