91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲中獲取百科段子的案例

發布時間:2020-11-12 09:21:13 來源:億速云 閱讀:119 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Python爬蟲中獲取百科段子的案例,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

糗事百科在前一段時間進行了改版,導致之前的代碼沒法用了,會導致無法輸出和 CPU 占用過高的情況,是因為正則表達式沒有匹配到的緣故。 現在,博主已經對程序進行了重新修改,代碼親測可用。

 首先我們確定好頁面的URL。初步構建如下的代碼來打印頁面代碼內容試試看,先構造最基本的頁面抓取方式,看看會不會成功。

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

運行程序,哦不,它竟然報錯了,真是時運不濟,命途多舛啊

line 373, in _read_status
 raise BadStatusLine(line)
httplib.BadStatusLine: ''

好吧,應該是 headers 驗證的問題,我們加上一個 headers 驗證試試看吧,將代碼修改如下

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

嘿嘿,這次運行終于正常了,打印出了第一頁的 HTML 代碼,大家可以運行下代碼試試看。在這里運行結果太長就不貼了。

關于Python爬蟲中獲取百科段子的案例就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

隆德县| 将乐县| 方城县| 西昌市| 响水县| 凉城县| 黑山县| 高阳县| 冷水江市| 宁安市| 遂宁市| 石狮市| 泾川县| 饶河县| 金沙县| 鹤庆县| 罗源县| 赤壁市| 广南县| 紫阳县| 吴堡县| 华坪县| 威信县| 盐津县| 灵川县| 永城市| 磐石市| 卢龙县| 鹤庆县| 邓州市| 广平县| 泸定县| 二连浩特市| 潼南县| 明溪县| 泾阳县| 临清市| 略阳县| 寿光市| 密山市| 郴州市|