91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python3.4爬蟲demo

發布時間:2020-10-12 10:44:59 來源:腳本之家 閱讀:150 作者:chenqiangdage 欄目:開發技術

python 3.4 所寫爬蟲

僅僅是個demo,以百度圖片首頁圖片為例。能跑出圖片上的圖片;

使用 eclipse pydev 編寫:

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e) 

HtmlHelper.py文件 

上面的 SpiderSimple是自定義的包名

from urllib.request import urlopen,urlretrieve
#正則庫
import re
#打開網頁
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正則爬里面的圖片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #將圖片一個個下載到項目所在文件夾     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意個大問題,python 默認編碼的問題。

有可能報UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),錯誤。這個要設置python的默認編碼為utf-8.

設置最好的方式是寫bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重啟電腦。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

青龙| 色达县| 德州市| 凤庆县| 金乡县| 阿拉善盟| 柘城县| 宁陕县| 卓资县| 寿宁县| 金沙县| 云梦县| 高邮市| 西平县| 南汇区| 离岛区| 赫章县| 上栗县| 江都市| 东方市| 哈尔滨市| 兴仁县| 宁海县| 唐河县| 益阳市| 监利县| 河源市| 阜新市| 茂名市| 通渭县| 佛教| 新郑市| 雅安市| 西畴县| 都匀市| 汉中市| 堆龙德庆县| 光山县| 屯昌县| 开远市| 洛宁县|