用python爬取圖片的方法

發布時間：2020-08-06 11:48:35 來源：億速云閱讀：463 作者：小新欄目：編程語言

小編給大家分享一下用python爬取圖片的方法，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去探討吧！

都知道Python的語法很簡單易上手，也很適合拿來做爬蟲等等，這里就簡單講解一下爬蟲入門——簡單地爬取下載網站圖片。

代碼：

其實很簡單，我們直接看下整體的代碼：

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

效果

就像這樣自動爬取下載圖片到本地：

用python爬取圖片的方法

導入庫：

第一行的utf-8是為了支持中文。

這里我們導入了兩個庫，分別是 urllib 和 re。urllib 是用來進行 url 網絡請求的，而 re 是一個正則表達式匹配的庫。這里我們要先對網站進行模擬請求，然后找到網站中的圖片進行下載。

請求網站：

第一個方法：getHtml。

這就是用來模擬瀏覽器訪問網站的，參數 url 是要訪問的網站鏈接，這里我們在下面的變量 html 處調用了這個方法，其訪問的 url 是一個圖片網站，關于選擇訪問網站還有一點等下要說一下。

在這個方法中，我們先用了 urllib 庫的 urlopen 方法來打開網站，然后通過 read 方法來獲取網站的源代碼，其實就跟在網頁中“右鍵–>檢查“是一個意思。最后返回了讀取到的網站源代碼。

上面說了要注意的一點是，由于很多網站會禁止人們隨意爬取數據，有反爬蟲的技術，所以在選擇要爬取的網站的時候，最好先通過這個方法獲取網站源代碼，然后 print 輸出 html 變量看一下獲取到的內容是否是正常的網頁源代碼，而不是403之類的禁止訪問，如果被禁止了，那么自然也不可能爬取到數據了。

看完了這篇文章，相信你對用python爬取圖片的方法有了一定的了解，想了解更多相關知識，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用python爬取圖片的方法

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用python爬取圖片的方法

猜你喜歡

最新資訊

相關推薦

相關標簽