您好,登錄后才能下訂單哦!
小編給大家分享一下用python爬取圖片的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
都知道Python的語法很簡單易上手,也很適合拿來做爬蟲等等,這里就簡單講解一下爬蟲入門——簡單地爬取下載網站圖片。
代碼:
其實很簡單,我們直接看下整體的代碼:
#coding = utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = 'src="(.+?\.jpg)" alt=' imgre = re.compile(reg) imglist = re.findall(imgre, html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl, '%s.jpg' % x) x+=1 return imglist html = getHtml("http://pic.yxdown.com/list/0_0_1.html") print getImg(html)
效果
就像這樣自動爬取下載圖片到本地:
導入庫:
第一行的utf-8是為了支持中文。
這里我們導入了兩個庫,分別是 urllib 和 re。urllib 是用來進行 url 網絡請求的,而 re 是一個正則表達式匹配的庫。這里我們要先對網站進行模擬請求,然后找到網站中的圖片進行下載。
請求網站:
第一個方法:getHtml。
這就是用來模擬瀏覽器訪問網站的,參數 url 是要訪問的網站鏈接,這里我們在下面的變量 html 處調用了這個方法,其訪問的 url 是一個圖片網站,關于選擇訪問網站還有一點等下要說一下。
在這個方法中,我們先用了 urllib 庫的 urlopen 方法來打開網站,然后通過 read 方法來獲取網站的源代碼,其實就跟在網頁中“右鍵–>檢查“是一個意思。最后返回了讀取到的網站源代碼。
上面說了要注意的一點是,由于很多網站會禁止人們隨意爬取數據,有反爬蟲的技術,所以在選擇要爬取的網站的時候,最好先通過這個方法獲取網站源代碼,然后 print 輸出 html 變量看一下獲取到的內容是否是正常的網頁源代碼,而不是403之類的禁止訪問,如果被禁止了,那么自然也不可能爬取到數據了。
看完了這篇文章,相信你對用python爬取圖片的方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。